Testovani hypotez Crash course
Základní principy¶
Úvod¶
Často je nutné ověřit určitá tvrzení o zkoumaném rozdělení dat na základě náhodného výběru. Například bychom mohli chtít testovat kvalitu nového generátoru náhodných čísel. Analýzou výsledků poté můžeme určit, zda je nová metoda statisticky významně lepší v testování úspěšnosti.
Hypotézy¶
Zvažujme náhodný vektor X = (X_1,..., X_n)^T, který má určité rozdělení. Tvrzení o tomto rozdělení, jehož pravdivost je pro nás zatím neznámá, nazýváme hypotézou. - Nulová hypotéza H_0 označuje tvrzení, které se snažíme ověřit. - Alternativní hypotéza H_A představuje tvrzení, které stavíme proti H_0 v rozhodovacím procesu.
Předpokládáme, že skutečná situace odpovídá platnosti buď H_0 nebo H_A.
Testování nulové hypotézy H_0 proti alternativní hypotéze H_A je rozhodovací proces založený na hodnotě X, který nám umožní buď zamítnout, nebo nepotvrdit hypotézu H_0.
Chyby při testování hypotéz¶
Při testování hypotéz se můžeme dopustit dvou typů chyb:
- Chyba prvního druhu: Zamítneme H_0, ačkoli je pravdivá.
- Chyba druhého druhu: Nepotvrdíme H_0, ačkoli je nepravdivá a ve skutečnosti platí H_A.
Není možné kontrolovat pravděpodobnost obou těchto chyb zároveň. Hypotézu H_0 tedy volíme tak, aby byla chyba prvního druhu závažnější než chyba druhého druhu. Cílem je, aby pravděpodobnost chyby prvního druhu byla nejvýše rovna zvolené hodnotě \alpha, kterou nazýváme hladinou významnosti testu. Často volíme \alpha = 5\% nebo \alpha = 1\%.
Matematická formulace¶
Představme si testování hypotézy H_0 proti alternativě H_A zalo
žené na pozorování náhodného vektoru X, jehož rozdělení je z nějaké množiny možných rozdělení
Nulová a alternativní hypotéza reprezentují podmnožiny P, které tvoří jeho disjunktní rozklad,
Kritický obor¶
Kritický obor, značený jako W_\alpha, je soubor všech možných výsledků testu X, které vedou k zamítnutí nulové hypotézy H_0 na hladině významnosti \alpha:
Naopak, pokud výsledek testu X nespadá do W_\alpha, nulovou hypotézu nezamítáme:
Hladina testu \alpha určuje maximální pravděpodobnost chyby 1. druhu, tedy falešně pozitivního výsledku:
Cílem je minimalizovat chybu 2. druhu, tedy pravděpodobnost falešně negativního výsledku:
Pokud je \alpha < \alpha_0, pak platí W_\alpha \subset W_{\alpha_0}, což znamená, že pokud zamítáme nulovou hypotézu na hladině \alpha, zamítáme ji také na vyšší hladině.
P-hodnota¶
Nulovou hypotézu téměř nikdy nelze na základě naměřených dat X zamítnout na libovolné hladině významnosti α.
Z předchozích úvah vyplývá, že existuje určitá minimální hlad
ina významnosti \hat{p}, na které lze hypotézu H_0 zamítnout, a tuto hodnotu nazýváme p-hodnota.
Jinými slovy, p-hodnota je pravděpodobnost, s jakou se za platnosti nulové hypotézy H_0 můžeme dostat do kritického oboru. Formálně je definována jako:
Typy hypotéz¶
V závislosti na tom, do jaké míry známe rozdělení X, můžeme hypotézy rozdělit na:
-
Parametrické – rozdělení X je určeno parametrem \theta \in \Theta \subset \mathbb{R}^d. Tvrzení se týkají hodnot \theta.
-
Neparametrické – X má obecné rozdělení, tj. \Theta není podmnožina \mathbb{R}^d. Tvrzení se týkají různých vlastností rozdělení (například hodnota mediánu, nezávislost), případně tvaru celého rozdělení (testy dobré shody).
V závislosti na množství možných rozdělení, které jsou uvedeny v hypotézách, rozlišujeme:
-
Jednoduchá hypotéza – obsahuje pouze jedno rozdělení.
-
Složená hypotéza – obsahuje více rozdělení.
Jak nulová, tak alternativní hypotéza může být jednoduchá nebo složená.
Interval Spolehlivosti¶
Oboustranné intervaly spolehlivosti¶
Oboustranný interval spolehlivosti se používá při testování jednoduché parametrické hypotézy proti oboustranné alternativě:
H_0 : \theta = \theta_0 proti H_A : \theta \neq \theta_0
Pokud definujeme (L(X), U(X)) jako oboustranný 100 * (1 − α)% interval spolehlivosti pro parametr \theta, potom platí:
P_\theta [\theta \in (L, U)] = 1 − \alpha
V praxi to znamená, že pokud testovaná hodnota \theta_0 leží v intervalu, hypotézu nezamítneme. Pokud \theta_0 \notin (L, U), hypotézu zamítneme.
Kritický obor testu je definován jako: W_\alpha = \{x | \theta_0 \notin (L(x), U(x))\}.
Jednostranné intervaly spolehlivosti¶
Jednostranný interval spolehlivosti se používá při testování složené parametrické hypotézy proti jednostranné alternativě:
H_0 : \theta \leq \theta_0 proti H_A : \theta > \theta_0
Pro tento typ testu použijeme horní 100 * (1 − α)% interval spolehlivosti (L, +\infty). Potom platí:
P_\theta [\theta \in (L, +\infty)] = P_\theta(\theta > L) = 1 − \alpha
Pokud \theta_0 \in (L, +\infty), hypotézu nezamítneme. Jestliže \theta_0 \notin (L, +\infty), hypotézu zamítneme.
Podobně, pro alternativu H_0 : \theta \geq \theta_0 proti H_A : \theta < \theta_0, použijeme dolní 100 * (1 − α)% interval spolehlivosti (-\infty, U).
Kritický obor testu je definován jako: W_\alpha = \{x | \theta_0 \leq L(x)\}.
Tedy, jednostranný interval spolehlivosti a oboustranný interval spolehlivosti jsou dva různé nástroje, které se používají při testování hypotéz. Záleží na konkrétním testu a na tom, zda je alternativa oboustranná nebo jednostranná, který typ intervalu spolehlivosti použijeme.