Vypocty

Testy o parametrech normálního rozdělení¶

Omlouvám se za předchozí nejasnost. Zde je tabulka s rozšířenými příklady:

Testy o parametrech normálního rozdělení

Test	Zamítnutí $H_0$	Příklad
Test $H_0: \mu = \mu_0$ proti $H_A: \mu \neq \mu_0$	$\mu_0 \notin \left(\overline{X}_n - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \overline{X}_n + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right)$	Z dvaceti hodů mincí nám padla jen čtyřikrát hlava. Je mince nevyvážená? Testujme na hladině spolehlivosti 5%.
Test $H_0: \sigma^2 = \sigma_0^2$ proti $H_A: \sigma^2 \neq \sigma_0^2$	$\sigma_0^2 \notin \left(\frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}}\right)$	Odměřili jsme délky 20 náhodně vybraných šroubů. Je směrodatná odchylka šroubů různá od hodnoty $\sigma_0$ ? Testujme na hladině spolehlivosti 5%.
Test $H_0: \mu \leq \mu_0$ proti $H_A: \mu > \mu_0$	$\mu_0 \notin \left(\overline{X}_n - z_{\alpha} \frac{\sigma}{\sqrt{n}}, +\infty\right)$	Provádíme test na účinnost nového léku. Je průměrná účinnost léku vyšší než $\mu_0$ ? Testujme na hladině spolehlivosti 5%.
Test $H_0: \sigma^2 \leq \sigma_0^2$ proti $H_A: \sigma^2 > \sigma_0^2$	$\sigma_0^2 \notin \left(\frac{(n-1)s^2}{\chi^2_{\alpha, n-1}}, +\infty\right)$	Testujeme rozptyk výrobků z nového výrobního procesu. Je rozptyk menší než $\sigma_0^2$ ? Testujme na hladině spolehlivosti 5%.

Kde: - $\overline{X}_n$ je průměr výběru - $z_{\alpha/2}$ je kvantil standardního normálního rozdělení pro hladinu významnosti $\alpha/2$ - $t_{\alpha/2, n-1}$ je kvantil Studentova rozdělení s $n-1$ stupni volnosti pro hladinu významnosti $\alpha/2$ - $s$ je směrodatná odchylka výběru - $\chi^2_{\alpha/2, n-1}$ je kvantil $\chi^2$ rozdělení s $n-1$ stupni volnosti pro hladinu významnosti $\alpha/2$ - $\chi^2_{1-\alpha/2, n-1}$ je kvantil $\chi^2$ rozdělení s $n-1$ stupni volnosti pro hladinu významnosti $1-\alpha/2$

10.4 Testové statistiky

Testování hypotéz pomocí testových statistik
Sestrojení testové statistiky $T(X)$ , jejíž rozdělení je známo při platnosti nulové hypotézy
Výběr podmnožiny $S_\alpha$ v oblasti možných hodnot testové statistiky
$S_\alpha$ je konstruována tak, aby pravděpodobnost $P_\theta(T \in S_\alpha)$ byla nejvýše $\alpha$ při platnosti $H_0$
Testování hypotéz spočívá v rozhodnutí, zda testová statistika patří do $S_\alpha$

10.5 Jednovýběrové testy o střední hodnotě a rozptylu

Testy o střední hodnotě normálního rozdělení
Testování hypotézy o střední hodnotě $\mu$ normálně rozděleného výběru
Použití testové statistiky $T$ založené na průměru a známém nebo neznámém rozptylu
Výběr kritického oboru $S_\alpha$ na základě kritických hodnot rozdělení $T$
Zamítnutí $H_0$ na základě toho, zda testová statistika patří do $S_\alpha$
Testování hypotézy o hodnotě rozptylu pomocí testové statistiky $T$ a rozdělení $\chi^2$

Poznámky: - Testové statistiky mají známé nebo asymptotické rozdělení při platnosti nulové hypotézy. - Konstrukce kritického oboru $S_\alpha$ závisí na daném testu a hladině významnosti $\alpha$ . - Testování hypotéz se provádí na základě porovnání testové statistiky s kritickým oborem $S_\alpha$ .

Test	Nulová hypotéza ( $H_0$ )	Alternativa ( $H_A$ )	Testová statistika ( $T$ )	Kritický obor
Střední hodnota: $\mu$	$\mu = \mu_0$	$\mu \neq \mu_0$	$T = \frac{\overline{X}_n - \mu_0}{\sigma/\sqrt{n}}$	$\left\lvert T\right\rvert \geq z_{\alpha/2}$
	$\mu \leq \mu_0$	$\mu > \mu_0$		$T \geq z_\alpha$
	$\mu \geq \mu_0$	$\mu < \mu_0$		$T \leq -z_\alpha$
Střední hodnota: $\mu$	$\mu = \mu_0$	$\mu \neq \mu_0$	$T = \frac{\overline{X}_n - \mu_0}{s/\sqrt{n}}$	$\left\lvert T\right\rvert \geq t_{\alpha/2, n-1}$
	$\mu \leq \mu_0$	$\mu > \mu_0$		$T \geq t_{\alpha, n-1}$
	$\mu \geq \mu_0$	$\mu < \mu_0$		$T \leq -t_{\alpha, n-1}$
Rozptyl: $\sigma^2$	$\sigma^2 = \sigma^2_0$	$\sigma^2 \neq \sigma^2_0$	$T = \frac{(n-1)s^2}{\sigma^2_0}$	$T \leq \chi^2_{1-\alpha/2, n-1} \vee T \geq \chi^2_{\alpha/2, n-1}$

V této upravené tabulce jsou vzorce sloučeny do řádků, které mají stejné testy a jen se liší v hodnotách nulové hypotézy a alternativy.

Opravil jsem tabulku a přidal sloupec "Zamítnutí H0" s hodnotami $\mu \in$ nebo $\sigma^2 \in$ podle příslušného testu. Zde je upravená verze tabulky:

Test	Nulová hypotéza (H0)	Alternativa (HA)	Testová statistika (T)	Kritický obor	Zamítnutí H0
Střední hodnota ( $\mu$ )	$\mu = \mu_0$	$\mu \neq \mu_0$	$T = \frac{\overline{X}_n - \mu_0}{\sigma/\sqrt{n}}$	$\left\lvert T\right\rvert \geq z_{\alpha/2}$	$\mu \in \left[ \overline{X}_n - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \overline{X}_n + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right]$
	$\mu \leq \mu_0$	$\mu > \mu_0$		$T \geq z_\alpha$	$\mu \in \left( -\infty, \overline{X}_n - z_\alpha \frac{\sigma}{\sqrt{n}} \right]$
	$\mu \geq \mu_0$	$\mu < \mu_0$		$T \leq -z_\alpha$	$\mu \in \left[ \overline{X}_n + z_\alpha \frac{\sigma}{\sqrt{n}}, +\infty \right)$
Střední hodnota ( $\mu$ )	$\mu = \mu_0$	$\mu \neq \mu_0$	$T = \frac{\overline{X}_n - \mu_0}{s/\sqrt{n}}$	$\left\lvert T\right\rvert \geq t_{\alpha/2, n-1}$	$\mu \in \left[ \overline{X}_n - t_{\alpha/2, n-1} \frac{s}{\sqrt{n}}, \overline{X}_n + t_{\alpha/2, n-1} \frac{s}{\sqrt{n}} \right]$
	$\mu \leq \mu_0$	$\mu > \mu_0$		$T \geq t_{\alpha, n-1}$	$\mu \in \left( -\infty, \overline{X}_n - t_{\alpha, n-1} \frac{s}{\sqrt{n}} \right]$
	$\mu \geq \mu_0$	$\mu < \mu_0$		$T \leq -t_{\alpha, n-1}$	$\mu \in \left[ \overline{X}_n + t_{\alpha, n-1} \frac{s}{\sqrt{n}}, +\infty \right)$
Rozptyl ( $\sigma^2$ )	$\sigma^2 = \sigma^2_0$	$\sigma^2 \neq \sigma^2_0$	$T = \frac{(n-1)s^2}{\sigma^2_0}$	$T \leq \chi^2_{1-\alpha/2, n-1} \vee T \geq \chi^2_{\alpha/2, n-1}$	$\sigma^2 \in \left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}} \right]$

V sloupci "Zamítnutí H0" jsou uvedeny intervaly, ve kterých se nachází střední hodnota $\mu$ nebo rozptyl $\sigma^2$ pro příslušné testy. Opravil jsem tabulku a doplnil symboly $\geq$ a $\leq$ do řádků týkajících se testů o rozptylu. Zde je aktualizovaná verze tabulky: Omlouvám se za chybu. Opravil jsem tabulku a upravil dolní hranici rozptylu na $0$ místo $-\infty$ . Zde je aktualizovaná verze tabulky:

Test	Nulová hypotéza (H0)	Alternativa (HA)	Zamítnutí H0
Střední hodnota ( $\mu$ )	$\mu = \mu_0$	$\mu \neq \mu_0$	$\mu \in \left[ \overline{X}_n - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \overline{X}_n + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right]$
	$\mu \leq \mu_0$	$\mu > \mu_0$	$\mu \in \left( -\infty, \overline{X}_n - z_\alpha \frac{\sigma}{\sqrt{n}} \right]$
	$\mu \geq \mu_0$	$\mu < \mu_0$	$\mu \in \left[ \overline{X}_n + z_\alpha \frac{\sigma}{\sqrt{n}}, +\infty \right)$
Střední hodnota ( $\mu$ )	$\mu = \mu_0$	$\mu \neq \mu_0$	$\mu \in \left[ \overline{X}_n - t_{\alpha/2, n-1} \frac{s}{\sqrt{n}}, \overline{X}_n + t_{\alpha/2, n-1} \frac{s}{\sqrt{n}} \right]$
	$\mu \leq \mu_0$	$\mu > \mu_0$	$\mu \in \left( -\infty, \overline{X}_n - t_{\alpha, n-1} \frac{s}{\sqrt{n}} \right]$
	$\mu \geq \mu_0$	$\mu < \mu_0$	$\mu \in \left[ \overline{X}_n + t_{\alpha, n-1} \frac{s}{\sqrt{n}}, +\infty \right)$
Rozptyl ( $\sigma^2$ )	$\sigma^2 = \sigma^2_0$	$\sigma^2 \neq \sigma^2_0$	$\sigma^2 \in \left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}} \right]$
	$\sigma^2 \leq \sigma^2_0$	$\sigma^2 > \sigma^2_0$	$\sigma^2 \in \left[ 0, \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}} \right]$
	$\sigma^2 \geq \sigma^2_0$	$\sigma^2 < \sigma^2_0$	$\sigma^2 \in \left[ \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}}, +\infty \right)$

Tato aktualizovaná verze tabulky obsahuje správnou dolní hranici rozptylu $0$ pro testy o rozptylu.

Omlouvám se za chybu. Opravil jsem tabulku a použil jsem symbol $\lvert$ místo $|$ . Zde je aktualizovaná verze tabulky:

10.6 Párový a dvouvýběrový t-test

Párový t-test

Pozorujme náhodný výběr $(X_1, Y_1), \ldots, (X_n, Y_n)$ z nějakého dvojrozměrného rozdělení s neznámým vektorem středních hodnot $(\mu_1, \mu_2)$ . Chceme testovat hypotézu $H_0: \mu_1 = \mu_2$ proti $H_A: \mu_1 \neq \mu_2$ . Například sledujeme hodnotu určitého ukazatele u stejných pacientů před a po klinické proceduře a chceme určit, zda se ukazatel významně změnil.

Definujme $Z_i = X_i - Y_i$ . Veličiny $Z_1, \ldots, Z_n$ jsou nezávislé a identicky rozdělené s očekávanou hodnotou $\mu_\Delta = \mu_1 - \mu_2$ . Předpokládáme také, že $Z_i \sim N(\mu_\Delta, \sigma^2)$ , kde $\sigma^2$ je neznámá.

Párový t-test můžeme ekvivalentně formulovat jako jednovýběrový t-test hypotézy $H_0: \mu_\Delta = 0$ proti $H_A: \mu_\Delta \neq 0$ .

Obecný postup:

H0	HA	Testová statistika	Kritický obor
$\mu_1 = \mu_2$	$\mu_1 \neq \mu_2$	$T = \frac{\overline{Z}_n}{s_Z/\sqrt{n}}$	$\lvert T \rvert \geq t_{\alpha/2, n-1}$
$\mu_1 \leq \mu_2$	$\mu_1 > \mu_2$	$T = \frac{\overline{Z}_n}{s_Z/\sqrt{n}}$	$T \geq t_{\alpha, n-1}$
$\mu_1 \geq \mu_2$	$\mu_1 < \mu_2$	$T = \frac{\overline{Z}_n}{s_Z/\sqrt{n}}$	$T \leq -t_{\alpha, n-1}$

Zde $\overline{Z}_n$ je průměr výběru, $s_Z$ je odhad směrodatné odchylky výběru, $t_{\alpha/2, n-1}$ je kritická hodnota Studentova rozdělení s $n-1$ stupni volnosti a hladinou významnosti $\alpha/2$ .

Poznámka: Výběrové hodnoty $Z_i$ jsou výpočtem rozdílů mezi odpovídajícími hodnotami $(X_i, Y_i)$ , které jsou párovány.

Dvouvýběrový t-test

Mějme náhodný výběr $X_1, \ldots, X_n$ z normálního rozdělení $N(\mu_1, \sigma_1^2)$ a nezávislý náhodný výběr $Y_1, \ldots, Y_m$ z normálního rozdělení $N(\mu_2, \sigma_2^2)$ . Chceme testovat hypotézu $H_0: \mu_1 = \mu_2$ proti $H_A: \mu_1 \neq \mu_2$ . Například sledujeme hodnotu určitého ukazatele u dvou nezávislých skupin pacientů, kde každá skupina podstoupila jiný druh léčby, a chceme zjistit, zda se hodnota ukazatele významně liší.

Test provedeme na základě statistiky, která má při platnosti $\mu_1 = \mu_2$ Studentovo rozdělení s určitým počtem stupňů volnosti. Přesný vztah pro testovou statistiku a počet stupňů volnosti závisí na tom, zda $\sigma_1^2 = \sigma_2^2$ (homoskedasticita) nebo $\sigma_1^2 \neq \sigma_2^2$ (heteroskedasticita). V obou případech předpokládáme, že číselné hodnoty $\sigma_1^2$ a $\sigma_2^2$ neznáme. Tento test se nazývá dvouvýběrový t-test.

Dvouvýběrový t-test - stejné rozptyly

Mějme náhodný výběr $X_1, \ldots, X_n$ z normálního rozdělení $N(\mu_1, \sigma_1^2)$ a nezávislý náhodný výběr $Y_1, \ldots, Y_m$ z normálního rozdělení $N(\mu_2, \sigma_2^2)$ . Předpokládáme, že rozptyly jsou stejné, $\sigma_1^2 = \sigma_2^2$ .

Provedení testu:

H0	HA	Testová statistika	Kritický obor
$\mu_1 = \mu_2$	$\mu_1 \neq \mu_2$	$T = \frac{\overline{X}_n - \overline{Y}_m}{s_1 \sqrt{\frac{1}{n} + \frac{1}{m}}}$	$\lvert T \rvert \geq t_{\alpha/2, n+m-2}$
$\mu_1 \leq \mu_2$	$\mu_1 > \mu_2$	$T = \frac{\overline{X}_n - \overline{Y}_m}{s_1 \sqrt{\frac{1}{n} + \frac{1}{m}}}$	$T \geq t_{\alpha, n+m-2}$
$\mu_1 \geq \mu_2$	$\mu_1 < \mu_2$	$T = \frac{\overline{X}_n - \overline{Y}_m}{s_1 \sqrt{\frac{1}{n} + \frac{1}{m}}}$	$T \leq -t_{\alpha, n+m-2}$

Kde $s_1$ je odhad směrodatné odchylky z výběru, $\overline{X}_n$ a $\overline{Y}_m$ jsou průměry výběrů a $t_{\alpha/2, n+m-2}$ je kritická hodnota Studentova rozdělení s $n+m-2$ stupni volnosti a hladinou významnosti $\alpha/2$

Dvouvýběrový t-test - různé rozptyly

Mějme náhodný výběr $X_1, \ldots, X_n$ z normálního rozdělení $N(\mu_1, \sigma_1^2)$ a nezávislý náhodný výběr $Y_1, \ldots, Y_m$ z normálního rozdělení $N(\mu_2, \sigma_2^2)$ . Předpokládáme, že rozptyly jsou různé, $\sigma_1^2 \neq \sigma_2^2$ .

Provedení testu:

H0	HA	Testová statistika	Kritický obor
$\mu_1 = \mu_2$	$\mu_1 \neq \mu_2$	$T = \frac{\overline{X}_n - \overline{Y}_m}{s_d}$	$\lvert T \rvert \geq t_{\alpha/2, nd}$
$\mu_1 \leq \mu_2$	$\mu_1 > \mu_2$	$T = \frac{\overline{X}_n - \overline{Y}_m}{s_d}$	$T \geq t_{\alpha, nd}$
$\mu_1 \geq \mu_2$	$\mu_1 < \mu_2$	$T = \frac{\overline{X}_n - \overline{Y}_m}{s_d}$	$T \leq -t_{\alpha, nd}$

Kde $s_d$ je odhad směrodatné odchylky rozdílu mezi výběry, $\overline{X}_n$ a $\overline{Y}_m$ jsou průměry výběrů a $t_{\alpha/2, nd}$ je kritická hodnota Studentova rozdělení s $nd$ stupni volnosti a hladinou významnosti $\alpha/2$ .

F-test rovnosti rozptylů

Mějme náhodný výběr $X_1, \ldots, X_n$ z normálního rozdělení $N(\mu_1, \sigma_1^2)$ a nezávislý náhodný výběr $Y_1, \ldots, Y_m$ z normálního rozdělení $N(\mu_2, \sigma_2^2)$ . Chceme testovat hypotézy porovnávající $\sigma_1^2$ a $\sigma_2^2$ .

Provedení testu:

H0	HA	Testová statistika	Kritický obor
$\sigma_1^2 = \sigma_2^2$	$\sigma_1^2 \neq \sigma_2^2$	$T = \frac{s_1^2}{s_2^2}$	$T \leq F_{1-\alpha/2, n-1, m-1} \lor T \geq F_{\alpha/2, n-1, m-1}$
$\sigma_1^2 \leq \sigma_2^2$	$\sigma_1^2 > \sigma_2^2$	$T = \frac{s_1^2}{s_2^2}$	$T \geq F_{\alpha, n-1, m-1}$
$\sigma_1^2 \geq \sigma_2^2$	$\sigma_1^2 < \sigma_2^2$	$T = \frac{s_1^2}{s_2^2}$	$T \leq -F_{\alpha, n-1, m-1}$

Kde $s_1^2$ a $s_2^2$ jsou odhady rozptylů z výběrů, a $F_{\alpha, n-1, m-1}$ je kritická hodnota Fisherova-Snedecorova F-rozdělení s $n-1$ a $m-1$ stupni volnosti, která splňuje $F_{1-\alpha, n-1, m-1} = \frac{1}{F_{\alpha, n-1, m-1}}$ .

Poznámka: F-test je citlivý na předpoklad normality výběrů. V případě nejistoty je lepší použít jiný test, například Levenův test.

Testy dobré shody

Multinomické rozdělení

Uvažujme diskrétní náhodnou veličinu $X$ , která nabývá $k$ hodnot $1, \ldots, k$ s pravděpodobnostmi $p_1, \ldots, p_k$ . Označme rozdělení $X$ jako $p = (p_1, \ldots, p_k)$ .

Provedeme-li náhodný výběr $X_1, \ldots, X_n$ o velikosti $n$ z toh

oto rozdělení $p$ , můžeme výsledek až na pořadí zaznamenat pomocí četností, s jakými jednotlivé hodnoty nastaly. Tímto způsobem dostaneme náhodné veličiny $N_1, \ldots, N_k$ , kde $N_i = \lvert\{j \,|\, X_j = i\}\rvert$ .

Sdružené diskrétní rozdělení náhodného vektoru $N = (N_1, \ldots, N_k)$ se nazývá multinomické, značí se $M(n, p)$ a je určeno pravděpodobnostmi

$P(N_1 = n_1, \ldots, N_k = n_k) = \frac{n!}{n_1! \ldots n_k!}p_1^{n_1} \ldots p_k^{n_k}$ ,

kde $n_i = 0, \ldots, n$ pro každé $i$ a $n_1 + \ldots + n_k = n$ .

Speciální případy: - Pro $k = 2$ dostaneme binomické rozdělení. - Pro $n = 1$ dostaneme zpět rozdělení $p$ , které se nazývá kategorické nebo také multinoulli rozdělení.

Vlastnosti multinomického rozdělení

Ukážeme si základní vlastnosti multinomického rozdělení. Buď $N \sim M(n, p)$ .

Podmíněná rozdělení podmnožin složek $N$ při zafixovaných hodnotách zbylých složek jsou opět multinomická.
Marginální rozdělení jsou binomická. Speciálně $N_i \sim \text{Binom}(n, p_i)$ .
$E(N_i) = np_i$ pro každé $i$ .
$\text{var}(N_i) = np_i(1 - p_i)$ pro každé $i$ .
$\text{cov}(N_i, N_j) = -np_ip_j$ pro každé $i \neq j$ .

Základem testování hypotéz o parametrech multinomického rozdělení je následující věta

Věta 10.8. Buď $N \sim M(n, p)$ . Pak Pearsonova statistika

$\chi^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i} = \sum_{i=1}^{k} \frac{N_i^2}{np_i} - n$

má při $n \rightarrow \infty$ asymptoticky rozdělení $\chi^2_{k-1}$ .

Poznámka: $N_i$ jsou naměřené četnosti a $np_i$ jsou teoretické četnosti.

Test $\chi^2$ při známých parametrech

Zaměřme se nyní na problematiku testování shodnosti diskrétních rozdělení. Mějme náhodný výběr $X = X_1, \ldots, X_n$ o velikosti $n$ z diskrétního rozdělení $p_0$ . Četnosti $N_1, \ldots, N_k$ jednotlivých hodnot $X$ mají tedy multinomické rozdělení $M(n, p_0)$ . Chceme testovat hypotézu $H_0$ , že skutečné hodnoty pravděpodobností jsou $p_1, \ldots, p_k$ .

Provedení testu:

H0	HA	Testová statistika	Kritický obor
$p_0 = p$	$p_0 \neq p$	$\chi^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i}$	$\chi^2 \geq \chi^2_{\alpha, k-1}$

Kde $p = (p_1, \ldots, p_k)$ a $\chi^2_{\alpha, k-1}$ je kritická hodnota $\chi^2$ rozdělení s $k-1$ stupni volnosti.

Je třeba pamatovat na to, že test $\chi^2$ je asymptotický a proto ho lze použít jen pro dostatečně velký rozsah výběru $n$ . Obvykle se uvádí, že musí platit $np_i \geq 5$ pro každé $i$ . Alternativou je tzv. Yarnoldovo kritérium, podle kterého stačí $np_i \geq 5q$ pro každé $i$ při $k \geq 3$ , kde $q$ je podíl tříd, pro které platí $np_i < 5$ .

Test $\chi^2$ při neznámých parametrech

Budeme testovat hypotézu $H_0$ , že skutečné hodnoty pravděpodobností jsou $p_1, \ldots, p_k$ , a mohou záviset na neznámém $m$ -rozměrném parametru $\theta = (\theta_1, \ldots, \theta_m)$ , jehož hodnotu při testování také odhadujeme. Označme $\hat{\theta}$ hodnotu $\theta$ minimalizující

$\chi^2(\theta) = \sum_{i=1}^{k} \frac{(N_i - np_i(\theta))^2}{np_i(\theta)}$ .

Tento bodový odhad $\hat{\theta}$ se nazývá odhad metodou minimálního $\chi^2$ . Pro něj (a některé další odhady) má statistika $\chi^2(\hat{\theta})$ asymptoticky $\chi^2_{k-m-1}$ rozdělení.

Provedení testu (při označení $p_0 = p$ ):

H0	HA	Testová statistika	Kritický obor
$p_0 = p$	$p_0 \neq p$	$\chi^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i}$	$\chi^2 \geq \chi^2_{\alpha, k-m-1}$

Počet stupňů volnosti je tedy: "počet článků" - "odhadované parametry" - 1. Intervaly je vhodné volit tak, aby teoretické četnosti byly zhruba stejné a splňovali $np_i \geq 5$ .

Nezamítnutí při použití libovolného odhadu $\hat{\theta}$ implikuje nezamítnutí při odhadu metodou minimálního $\chi^2$ . Naopak to ale neplatí!

Test nezávislosti v kontingenčních tabulkách

Mějme náhodný vektor $X = (Y, Z)^T$ s diskrétním rozdělením, přičemž veličina $Y$ nabývá hodnot $1, \ldots, r$ a veličina $Z$ nabývá hodnot $1, \ldots, c$ .

Sdružené a marginální pravděpodobnosti označíme $p_{ij} = P(Y = i, Z = j)$ , $p_{i\cdot} = \sum_{j} p_{ij}$ , $p_{\cdot j} = \sum_{i} p_{ij}$ .

Uvažujme dále náhodný výběr o velikosti $n$ z rozdělení $X$ , kde $N_{ij}$ označuje počet výsledků, kdy nastala dvojice $(i, j)$ , tj. $N_{ij} = |\{k | Y_k = i, Z_k = j\}|$ .

Náhodné veličiny $N_{ij}$ mají sdružené multinomické rozdělení s parametrem $n$ a pravděpodobnostmi $p_{ij}$ .

Kontingenční tabulku $N$ rozměru $r \times c$ se složkami $N_{ij}$ nazýváme kontingenční tabulka, a definujeme marginální četnosti jako $N_{i\cdot} = \sum_{j} N_{ij}$ , $N_{\cdot j} = \sum_{i} N_{ij}$ .

Chceme testovat nezávislost veličin $Y$ a $Z$ . Tuto nulovou hypotézu můžeme vyjádřit jako $H_0: p_{ij} = p_{i\cdot} p_{\cdot j}$ pro každé $i, j$ .

Při platnosti $H_0$ jsou tedy pravděpodobnosti $p_{ij}$ funkcemi marginálních pravděpodobností $p_{i\cdot}$ a $p_{\cdot j}$ . Počet nezávislých parametrů je ale pouze $m = (c - 1) + (r - 1)$ , protože $\sum_{i} p_{i\cdot} = \sum_{j} p_{\cdot j} = 1$ .

Test, který můžeme aplikovat, je předchozí test $\chi^2$ při neznámých parametrech.

Budeme testovat hypotézu $H_0: p_{ij} = p_{i\cdot} p_{\cdot j}$ s $m = c + r - 2$ neznámými parametry $p_{i\cdot}$ a $p_{\cdot j}$ . Lze ukázat, že odhady těchto marginálních pravděpodobností metodou minimálního $\chi^2$ jsou

$\hat{p}_{i\cdot} = \frac{N_{i\cdot}}{n}$

a

$\hat{p}_{\cdot j} = \frac{N_{\cdot j}}{n}$ .

Pro tyto odhady má statistika $\chi^2$ asymptoticky $\chi^2$ rozdělení s $(r - 1)(c - 1)$ stupni volnosti.

Provedení testu:

H0	HA	Testová statistika	Kritický obor
$p_{ij} = p_{i\cdot} p_{\cdot j}$	$p_{ij} \neq p_{i\cdot} p_{\cdot j}$	$\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(N_{ij} - \frac{N_{i\cdot}N_{\cdot j}}{n})^2}{\frac{N_{i\cdot}N_{\cdot j}}{n}}$	$\chi^2 \geq \chi^2_{\alpha, (r-1)(c-1)}$

Počet stupňů volnosti je tedy: $(\text{počet řádků} - 1) \times (\text{počet sloupců} - 1)$ .

Alternativní výpočet statistiky $\chi^2$ :

$\chi^2 = n \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{N_{ij}^2}{N_{i\cdot}N_{\cdot j}} - n$ .