Vypocty
Testy o parametrech normálního rozdělení¶
Omlouvám se za předchozí nejasnost. Zde je tabulka s rozšířenými příklady:
Testy o parametrech normálního rozdělení
| Test | Zamítnutí H_0 | Příklad |
|---|---|---|
| Test H_0: \mu = \mu_0 proti H_A: \mu \neq \mu_0 | \mu_0 \notin \left(\overline{X}_n - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \overline{X}_n + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right) | Z dvaceti hodů mincí nám padla jen čtyřikrát hlava. Je mince nevyvážená? Testujme na hladině spolehlivosti 5%. |
| Test H_0: \sigma^2 = \sigma_0^2 proti H_A: \sigma^2 \neq \sigma_0^2 | \sigma_0^2 \notin \left(\frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}}\right) | Odměřili jsme délky 20 náhodně vybraných šroubů. Je směrodatná odchylka šroubů různá od hodnoty \sigma_0? Testujme na hladině spolehlivosti 5%. |
| Test H_0: \mu \leq \mu_0 proti H_A: \mu > \mu_0 | \mu_0 \notin \left(\overline{X}_n - z_{\alpha} \frac{\sigma}{\sqrt{n}}, +\infty\right) | Provádíme test na účinnost nového léku. Je průměrná účinnost léku vyšší než \mu_0? Testujme na hladině spolehlivosti 5%. |
| Test H_0: \sigma^2 \leq \sigma_0^2 proti H_A: \sigma^2 > \sigma_0^2 | \sigma_0^2 \notin \left(\frac{(n-1)s^2}{\chi^2_{\alpha, n-1}}, +\infty\right) | Testujeme rozptyk výrobků z nového výrobního procesu. Je rozptyk menší než \sigma_0^2? Testujme na hladině spolehlivosti 5%. |
Kde: - \overline{X}_n je průměr výběru - z_{\alpha/2} je kvantil standardního normálního rozdělení pro hladinu významnosti \alpha/2 - t_{\alpha/2, n-1} je kvantil Studentova rozdělení s n-1 stupni volnosti pro hladinu významnosti \alpha/2 - s je směrodatná odchylka výběru - \chi^2_{\alpha/2, n-1} je kvantil \chi^2 rozdělení s n-1 stupni volnosti pro hladinu významnosti \alpha/2 - \chi^2_{1-\alpha/2, n-1} je kvantil \chi^2 rozdělení s n-1 stupni volnosti pro hladinu významnosti 1-\alpha/2
10.4 Testové statistiky
- Testování hypotéz pomocí testových statistik
- Sestrojení testové statistiky T(X), jejíž rozdělení je známo při platnosti nulové hypotézy
- Výběr podmnožiny S_\alpha v oblasti možných hodnot testové statistiky
- S_\alpha je konstruována tak, aby pravděpodobnost P_\theta(T \in S_\alpha) byla nejvýše \alpha při platnosti H_0
- Testování hypotéz spočívá v rozhodnutí, zda testová statistika patří do S_\alpha
10.5 Jednovýběrové testy o střední hodnotě a rozptylu
- Testy o střední hodnotě normálního rozdělení
- Testování hypotézy o střední hodnotě \mu normálně rozděleného výběru
- Použití testové statistiky T založené na průměru a známém nebo neznámém rozptylu
- Výběr kritického oboru S_\alpha na základě kritických hodnot rozdělení T
- Zamítnutí H_0 na základě toho, zda testová statistika patří do S_\alpha
- Testování hypotézy o hodnotě rozptylu pomocí testové statistiky T a rozdělení \chi^2
Poznámky: - Testové statistiky mají známé nebo asymptotické rozdělení při platnosti nulové hypotézy. - Konstrukce kritického oboru S_\alpha závisí na daném testu a hladině významnosti \alpha. - Testování hypotéz se provádí na základě porovnání testové statistiky s kritickým oborem S_\alpha.
| Test | Nulová hypotéza (H_0) | Alternativa (H_A) | Testová statistika (T) | Kritický obor |
|---|---|---|---|---|
| Střední hodnota: \mu | \mu = \mu_0 | \mu \neq \mu_0 | T = \frac{\overline{X}_n - \mu_0}{\sigma/\sqrt{n}} | \left\lvert T\right\rvert \geq z_{\alpha/2} |
| \mu \leq \mu_0 | \mu > \mu_0 | T \geq z_\alpha | ||
| \mu \geq \mu_0 | \mu < \mu_0 | T \leq -z_\alpha | ||
| Střední hodnota: \mu | \mu = \mu_0 | \mu \neq \mu_0 | T = \frac{\overline{X}_n - \mu_0}{s/\sqrt{n}} | \left\lvert T\right\rvert \geq t_{\alpha/2, n-1} |
| \mu \leq \mu_0 | \mu > \mu_0 | T \geq t_{\alpha, n-1} | ||
| \mu \geq \mu_0 | \mu < \mu_0 | T \leq -t_{\alpha, n-1} | ||
| Rozptyl: \sigma^2 | \sigma^2 = \sigma^2_0 | \sigma^2 \neq \sigma^2_0 | T = \frac{(n-1)s^2}{\sigma^2_0} | T \leq \chi^2_{1-\alpha/2, n-1} \vee T \geq \chi^2_{\alpha/2, n-1} |
V této upravené tabulce jsou vzorce sloučeny do řádků, které mají stejné testy a jen se liší v hodnotách nulové hypotézy a alternativy.
Opravil jsem tabulku a přidal sloupec "Zamítnutí H0" s hodnotami \mu \in nebo \sigma^2 \in podle příslušného testu. Zde je upravená verze tabulky:
| Test | Nulová hypotéza (H0) | Alternativa (HA) | Testová statistika (T) | Kritický obor | Zamítnutí H0 |
|---|---|---|---|---|---|
| Střední hodnota (\mu) | \mu = \mu_0 | \mu \neq \mu_0 | T = \frac{\overline{X}_n - \mu_0}{\sigma/\sqrt{n}} | \left\lvert T\right\rvert \geq z_{\alpha/2} | \mu \in \left[ \overline{X}_n - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \overline{X}_n + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right] |
| \mu \leq \mu_0 | \mu > \mu_0 | T \geq z_\alpha | \mu \in \left( -\infty, \overline{X}_n - z_\alpha \frac{\sigma}{\sqrt{n}} \right] | ||
| \mu \geq \mu_0 | \mu < \mu_0 | T \leq -z_\alpha | \mu \in \left[ \overline{X}_n + z_\alpha \frac{\sigma}{\sqrt{n}}, +\infty \right) | ||
| Střední hodnota (\mu) | \mu = \mu_0 | \mu \neq \mu_0 | T = \frac{\overline{X}_n - \mu_0}{s/\sqrt{n}} | \left\lvert T\right\rvert \geq t_{\alpha/2, n-1} | \mu \in \left[ \overline{X}_n - t_{\alpha/2, n-1} \frac{s}{\sqrt{n}}, \overline{X}_n + t_{\alpha/2, n-1} \frac{s}{\sqrt{n}} \right] |
| \mu \leq \mu_0 | \mu > \mu_0 | T \geq t_{\alpha, n-1} | \mu \in \left( -\infty, \overline{X}_n - t_{\alpha, n-1} \frac{s}{\sqrt{n}} \right] | ||
| \mu \geq \mu_0 | \mu < \mu_0 | T \leq -t_{\alpha, n-1} | \mu \in \left[ \overline{X}_n + t_{\alpha, n-1} \frac{s}{\sqrt{n}}, +\infty \right) | ||
| Rozptyl (\sigma^2) | \sigma^2 = \sigma^2_0 | \sigma^2 \neq \sigma^2_0 | T = \frac{(n-1)s^2}{\sigma^2_0} | T \leq \chi^2_{1-\alpha/2, n-1} \vee T \geq \chi^2_{\alpha/2, n-1} | \sigma^2 \in \left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}} \right] |
V sloupci "Zamítnutí H0" jsou uvedeny intervaly, ve kterých se nachází střední hodnota \mu nebo rozptyl \sigma^2 pro příslušné testy. Opravil jsem tabulku a doplnil symboly \geq a \leq do řádků týkajících se testů o rozptylu. Zde je aktualizovaná verze tabulky: Omlouvám se za chybu. Opravil jsem tabulku a upravil dolní hranici rozptylu na 0 místo -\infty. Zde je aktualizovaná verze tabulky:
| Test | Nulová hypotéza (H0) | Alternativa (HA) | Zamítnutí H0 |
|---|---|---|---|
| Střední hodnota (\mu) | \mu = \mu_0 | \mu \neq \mu_0 | \mu \in \left[ \overline{X}_n - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \overline{X}_n + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right] |
| \mu \leq \mu_0 | \mu > \mu_0 | \mu \in \left( -\infty, \overline{X}_n - z_\alpha \frac{\sigma}{\sqrt{n}} \right] | |
| \mu \geq \mu_0 | \mu < \mu_0 | \mu \in \left[ \overline{X}_n + z_\alpha \frac{\sigma}{\sqrt{n}}, +\infty \right) | |
| Střední hodnota (\mu) | \mu = \mu_0 | \mu \neq \mu_0 | \mu \in \left[ \overline{X}_n - t_{\alpha/2, n-1} \frac{s}{\sqrt{n}}, \overline{X}_n + t_{\alpha/2, n-1} \frac{s}{\sqrt{n}} \right] |
| \mu \leq \mu_0 | \mu > \mu_0 | \mu \in \left( -\infty, \overline{X}_n - t_{\alpha, n-1} \frac{s}{\sqrt{n}} \right] | |
| \mu \geq \mu_0 | \mu < \mu_0 | \mu \in \left[ \overline{X}_n + t_{\alpha, n-1} \frac{s}{\sqrt{n}}, +\infty \right) | |
| Rozptyl (\sigma^2) | \sigma^2 = \sigma^2_0 | \sigma^2 \neq \sigma^2_0 | \sigma^2 \in \left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}} \right] |
| \sigma^2 \leq \sigma^2_0 | \sigma^2 > \sigma^2_0 | \sigma^2 \in \left[ 0, \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}} \right] | |
| \sigma^2 \geq \sigma^2_0 | \sigma^2 < \sigma^2_0 | \sigma^2 \in \left[ \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}}, +\infty \right) |
Tato aktualizovaná verze tabulky obsahuje správnou dolní hranici rozptylu 0 pro testy o rozptylu.
Omlouvám se za chybu. Opravil jsem tabulku a použil jsem symbol \lvert místo |. Zde je aktualizovaná verze tabulky:
10.6 Párový a dvouvýběrový t-test
Párový t-test
Pozorujme náhodný výběr (X_1, Y_1), \ldots, (X_n, Y_n) z nějakého dvojrozměrného rozdělení s neznámým vektorem středních hodnot (\mu_1, \mu_2). Chceme testovat hypotézu H_0: \mu_1 = \mu_2 proti H_A: \mu_1 \neq \mu_2. Například sledujeme hodnotu určitého ukazatele u stejných pacientů před a po klinické proceduře a chceme určit, zda se ukazatel významně změnil.
Definujme Z_i = X_i - Y_i. Veličiny Z_1, \ldots, Z_n jsou nezávislé a identicky rozdělené s očekávanou hodnotou \mu_\Delta = \mu_1 - \mu_2. Předpokládáme také, že Z_i \sim N(\mu_\Delta, \sigma^2), kde \sigma^2 je neznámá.
Párový t-test můžeme ekvivalentně formulovat jako jednovýběrový t-test hypotézy H_0: \mu_\Delta = 0 proti H_A: \mu_\Delta \neq 0.
Obecný postup:
| H0 | HA | Testová statistika | Kritický obor |
|---|---|---|---|
| \mu_1 = \mu_2 | \mu_1 \neq \mu_2 | T = \frac{\overline{Z}_n}{s_Z/\sqrt{n}} | \lvert T \rvert \geq t_{\alpha/2, n-1} |
| \mu_1 \leq \mu_2 | \mu_1 > \mu_2 | T = \frac{\overline{Z}_n}{s_Z/\sqrt{n}} | T \geq t_{\alpha, n-1} |
| \mu_1 \geq \mu_2 | \mu_1 < \mu_2 | T = \frac{\overline{Z}_n}{s_Z/\sqrt{n}} | T \leq -t_{\alpha, n-1} |
Zde \overline{Z}_n je průměr výběru, s_Z je odhad směrodatné odchylky výběru, t_{\alpha/2, n-1} je kritická hodnota Studentova rozdělení s n-1 stupni volnosti a hladinou významnosti \alpha/2.
Poznámka: Výběrové hodnoty Z_i jsou výpočtem rozdílů mezi odpovídajícími hodnotami (X_i, Y_i), které jsou párovány.
Dvouvýběrový t-test
Mějme náhodný výběr X_1, \ldots, X_n z normálního rozdělení N(\mu_1, \sigma_1^2) a nezávislý náhodný výběr Y_1, \ldots, Y_m z normálního rozdělení N(\mu_2, \sigma_2^2). Chceme testovat hypotézu H_0: \mu_1 = \mu_2 proti H_A: \mu_1 \neq \mu_2. Například sledujeme hodnotu určitého ukazatele u dvou nezávislých skupin pacientů, kde každá skupina podstoupila jiný druh léčby, a chceme zjistit, zda se hodnota ukazatele významně liší.
Test provedeme na základě statistiky, která má při platnosti \mu_1 = \mu_2 Studentovo rozdělení s určitým počtem stupňů volnosti. Přesný vztah pro testovou statistiku a počet stupňů volnosti závisí na tom, zda \sigma_1^2 = \sigma_2^2 (homoskedasticita) nebo \sigma_1^2 \neq \sigma_2^2 (heteroskedasticita). V obou případech předpokládáme, že číselné hodnoty \sigma_1^2 a \sigma_2^2 neznáme. Tento test se nazývá dvouvýběrový t-test.
Dvouvýběrový t-test - stejné rozptyly
Mějme náhodný výběr X_1, \ldots, X_n z normálního rozdělení N(\mu_1, \sigma_1^2) a nezávislý náhodný výběr Y_1, \ldots, Y_m z normálního rozdělení N(\mu_2, \sigma_2^2). Předpokládáme, že rozptyly jsou stejné, \sigma_1^2 = \sigma_2^2.
Provedení testu:
| H0 | HA | Testová statistika | Kritický obor |
|---|---|---|---|
| \mu_1 = \mu_2 | \mu_1 \neq \mu_2 | T = \frac{\overline{X}_n - \overline{Y}_m}{s_1 \sqrt{\frac{1}{n} + \frac{1}{m}}} | \lvert T \rvert \geq t_{\alpha/2, n+m-2} |
| \mu_1 \leq \mu_2 | \mu_1 > \mu_2 | T = \frac{\overline{X}_n - \overline{Y}_m}{s_1 \sqrt{\frac{1}{n} + \frac{1}{m}}} | T \geq t_{\alpha, n+m-2} |
| \mu_1 \geq \mu_2 | \mu_1 < \mu_2 | T = \frac{\overline{X}_n - \overline{Y}_m}{s_1 \sqrt{\frac{1}{n} + \frac{1}{m}}} | T \leq -t_{\alpha, n+m-2} |
Kde s_1 je odhad směrodatné odchylky z výběru, \overline{X}_n a \overline{Y}_m jsou průměry výběrů a t_{\alpha/2, n+m-2} je kritická hodnota Studentova rozdělení s n+m-2 stupni volnosti a hladinou významnosti \alpha/2
Dvouvýběrový t-test - různé rozptyly
Mějme náhodný výběr X_1, \ldots, X_n z normálního rozdělení N(\mu_1, \sigma_1^2) a nezávislý náhodný výběr Y_1, \ldots, Y_m z normálního rozdělení N(\mu_2, \sigma_2^2). Předpokládáme, že rozptyly jsou různé, \sigma_1^2 \neq \sigma_2^2.
Provedení testu:
| H0 | HA | Testová statistika | Kritický obor |
|---|---|---|---|
| \mu_1 = \mu_2 | \mu_1 \neq \mu_2 | T = \frac{\overline{X}_n - \overline{Y}_m}{s_d} | \lvert T \rvert \geq t_{\alpha/2, nd} |
| \mu_1 \leq \mu_2 | \mu_1 > \mu_2 | T = \frac{\overline{X}_n - \overline{Y}_m}{s_d} | T \geq t_{\alpha, nd} |
| \mu_1 \geq \mu_2 | \mu_1 < \mu_2 | T = \frac{\overline{X}_n - \overline{Y}_m}{s_d} | T \leq -t_{\alpha, nd} |
Kde s_d je odhad směrodatné odchylky rozdílu mezi výběry, \overline{X}_n a \overline{Y}_m jsou průměry výběrů a t_{\alpha/2, nd} je kritická hodnota Studentova rozdělení s nd stupni volnosti a hladinou významnosti \alpha/2.
F-test rovnosti rozptylů
Mějme náhodný výběr X_1, \ldots, X_n z normálního rozdělení N(\mu_1, \sigma_1^2) a nezávislý náhodný výběr Y_1, \ldots, Y_m z normálního rozdělení N(\mu_2, \sigma_2^2). Chceme testovat hypotézy porovnávající \sigma_1^2 a \sigma_2^2.
Provedení testu:
| H0 | HA | Testová statistika | Kritický obor |
|---|---|---|---|
| \sigma_1^2 = \sigma_2^2 | \sigma_1^2 \neq \sigma_2^2 | T = \frac{s_1^2}{s_2^2} | T \leq F_{1-\alpha/2, n-1, m-1} \lor T \geq F_{\alpha/2, n-1, m-1} |
| \sigma_1^2 \leq \sigma_2^2 | \sigma_1^2 > \sigma_2^2 | T = \frac{s_1^2}{s_2^2} | T \geq F_{\alpha, n-1, m-1} |
| \sigma_1^2 \geq \sigma_2^2 | \sigma_1^2 < \sigma_2^2 | T = \frac{s_1^2}{s_2^2} | T \leq -F_{\alpha, n-1, m-1} |
Kde s_1^2 a s_2^2 jsou odhady rozptylů z výběrů, a F_{\alpha, n-1, m-1} je kritická hodnota Fisherova-Snedecorova F-rozdělení s n-1 a m-1 stupni volnosti, která splňuje F_{1-\alpha, n-1, m-1} = \frac{1}{F_{\alpha, n-1, m-1}}.
Poznámka: F-test je citlivý na předpoklad normality výběrů. V případě nejistoty je lepší použít jiný test, například Levenův test.
Testy dobré shody
Multinomické rozdělení
Uvažujme diskrétní náhodnou veličinu X, která nabývá k hodnot 1, \ldots, k s pravděpodobnostmi p_1, \ldots, p_k. Označme rozdělení X jako p = (p_1, \ldots, p_k).
Provedeme-li náhodný výběr X_1, \ldots, X_n o velikosti n z toh
oto rozdělení p, můžeme výsledek až na pořadí zaznamenat pomocí četností, s jakými jednotlivé hodnoty nastaly. Tímto způsobem dostaneme náhodné veličiny N_1, \ldots, N_k, kde N_i = \lvert\{j \,|\, X_j = i\}\rvert.
Sdružené diskrétní rozdělení náhodného vektoru N = (N_1, \ldots, N_k) se nazývá multinomické, značí se M(n, p) a je určeno pravděpodobnostmi
P(N_1 = n_1, \ldots, N_k = n_k) = \frac{n!}{n_1! \ldots n_k!}p_1^{n_1} \ldots p_k^{n_k},
kde n_i = 0, \ldots, n pro každé i a n_1 + \ldots + n_k = n.
Speciální případy: - Pro k = 2 dostaneme binomické rozdělení. - Pro n = 1 dostaneme zpět rozdělení p, které se nazývá kategorické nebo také multinoulli rozdělení.
Vlastnosti multinomického rozdělení
Ukážeme si základní vlastnosti multinomického rozdělení. Buď N \sim M(n, p).
- Podmíněná rozdělení podmnožin složek N při zafixovaných hodnotách zbylých složek jsou opět multinomická.
- Marginální rozdělení jsou binomická. Speciálně N_i \sim \text{Binom}(n, p_i).
- E(N_i) = np_i pro každé i.
- \text{var}(N_i) = np_i(1 - p_i) pro každé i.
- \text{cov}(N_i, N_j) = -np_ip_j pro každé i \neq j.
Základem testování hypotéz o parametrech multinomického rozdělení je následující věta
Věta 10.8. Buď N \sim M(n, p). Pak Pearsonova statistika
\chi^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i} = \sum_{i=1}^{k} \frac{N_i^2}{np_i} - n
má při n \rightarrow \infty asymptoticky rozdělení \chi^2_{k-1}.
Poznámka: N_i jsou naměřené četnosti a np_i jsou teoretické četnosti.
Test \chi^2 při známých parametrech
Zaměřme se nyní na problematiku testování shodnosti diskrétních rozdělení. Mějme náhodný výběr X = X_1, \ldots, X_n o velikosti n z diskrétního rozdělení p_0. Četnosti N_1, \ldots, N_k jednotlivých hodnot X mají tedy multinomické rozdělení M(n, p_0). Chceme testovat hypotézu H_0, že skutečné hodnoty pravděpodobností jsou p_1, \ldots, p_k.
Provedení testu:
| H0 | HA | Testová statistika | Kritický obor |
|---|---|---|---|
| p_0 = p | p_0 \neq p | \chi^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i} | \chi^2 \geq \chi^2_{\alpha, k-1} |
Kde p = (p_1, \ldots, p_k) a \chi^2_{\alpha, k-1} je kritická hodnota \chi^2 rozdělení s k-1 stupni volnosti.
Je třeba pamatovat na to, že test \chi^2 je asymptotický a proto ho lze použít jen pro dostatečně velký rozsah výběru n. Obvykle se uvádí, že musí platit np_i \geq 5 pro každé i. Alternativou je tzv. Yarnoldovo kritérium, podle kterého stačí np_i \geq 5q pro každé i při k \geq 3, kde q je podíl tříd, pro které platí np_i < 5.
Test \chi^2 při neznámých parametrech
Budeme testovat hypotézu H_0, že skutečné hodnoty pravděpodobností jsou p_1, \ldots, p_k, a mohou záviset na neznámém m-rozměrném parametru \theta = (\theta_1, \ldots, \theta_m), jehož hodnotu při testování také odhadujeme. Označme \hat{\theta} hodnotu \theta minimalizující
\chi^2(\theta) = \sum_{i=1}^{k} \frac{(N_i - np_i(\theta))^2}{np_i(\theta)}.
Tento bodový odhad \hat{\theta} se nazývá odhad metodou minimálního \chi^2. Pro něj (a některé další odhady) má statistika \chi^2(\hat{\theta}) asymptoticky \chi^2_{k-m-1} rozdělení.
Provedení testu (při označení p_0 = p):
| H0 | HA | Testová statistika | Kritický obor |
|---|---|---|---|
| p_0 = p | p_0 \neq p | \chi^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i} | \chi^2 \geq \chi^2_{\alpha, k-m-1} |
Počet stupňů volnosti je tedy: "počet článků" - "odhadované parametry" - 1. Intervaly je vhodné volit tak, aby teoretické četnosti byly zhruba stejné a splňovali np_i \geq 5.
Nezamítnutí při použití libovolného odhadu \hat{\theta} implikuje nezamítnutí při odhadu metodou minimálního \chi^2. Naopak to ale neplatí!
Test nezávislosti v kontingenčních tabulkách
Mějme náhodný vektor X = (Y, Z)^T s diskrétním rozdělením, přičemž veličina Y nabývá hodnot 1, \ldots, r a veličina Z nabývá hodnot 1, \ldots, c.
Sdružené a marginální pravděpodobnosti označíme p_{ij} = P(Y = i, Z = j), p_{i\cdot} = \sum_{j} p_{ij}, p_{\cdot j} = \sum_{i} p_{ij}.
Uvažujme dále náhodný výběr o velikosti n z rozdělení X, kde N_{ij} označuje počet výsledků, kdy nastala dvojice (i, j), tj. N_{ij} = |\{k | Y_k = i, Z_k = j\}|.
Náhodné veličiny N_{ij} mají sdružené multinomické rozdělení s parametrem n a pravděpodobnostmi p_{ij}.
Kontingenční tabulku N rozměru r \times c se složkami N_{ij} nazýváme kontingenční tabulka, a definujeme marginální četnosti jako N_{i\cdot} = \sum_{j} N_{ij}, N_{\cdot j} = \sum_{i} N_{ij}.
Chceme testovat nezávislost veličin Y a Z. Tuto nulovou hypotézu můžeme vyjádřit jako H_0: p_{ij} = p_{i\cdot} p_{\cdot j} pro každé i, j.
Při platnosti H_0 jsou tedy pravděpodobnosti p_{ij} funkcemi marginálních pravděpodobností p_{i\cdot} a p_{\cdot j}. Počet nezávislých parametrů je ale pouze m = (c - 1) + (r - 1), protože \sum_{i} p_{i\cdot} = \sum_{j} p_{\cdot j} = 1.
Test, který můžeme aplikovat, je předchozí test \chi^2 při neznámých parametrech.
Budeme testovat hypotézu H_0: p_{ij} = p_{i\cdot} p_{\cdot j} s m = c + r - 2 neznámými parametry p_{i\cdot} a p_{\cdot j}. Lze ukázat, že odhady těchto marginálních pravděpodobností metodou minimálního \chi^2 jsou
\hat{p}_{i\cdot} = \frac{N_{i\cdot}}{n}
a
\hat{p}_{\cdot j} = \frac{N_{\cdot j}}{n}.
Pro tyto odhady má statistika \chi^2 asymptoticky \chi^2 rozdělení s (r - 1)(c - 1) stupni volnosti.
Provedení testu:
| H0 | HA | Testová statistika | Kritický obor |
|---|---|---|---|
| p_{ij} = p_{i\cdot} p_{\cdot j} | p_{ij} \neq p_{i\cdot} p_{\cdot j} | \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(N_{ij} - \frac{N_{i\cdot}N_{\cdot j}}{n})^2}{\frac{N_{i\cdot}N_{\cdot j}}{n}} | \chi^2 \geq \chi^2_{\alpha, (r-1)(c-1)} |
Počet stupňů volnosti je tedy: (\text{počet řádků} - 1) \times (\text{počet sloupců} - 1).
Alternativní výpočet statistiky \chi^2:
\chi^2 = n \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{N_{ij}^2}{N_{i\cdot}N_{\cdot j}} - n.