14. Principy bayesovského modelování - pojmy model, apriorní a aposteriorní distribuce. Exponenciální třída distribucí, konjugovaná apriorna a jejich význam v bayesovském odhadu. Příklad konjugovaného apriorna. (NI-BML)¶
Principy bayesovského modelování¶
Bayesovské modelování je přístup, který umožňuje kombinovat předchozí znalosti o parametrech (tzv. apriorní distribuce) s nově získanými daty (pravděpodobnostní model dat) za účelem aktualizace našich znalostí o těchto parametrech. Tento proces je založen na Bayesově větě, která je základem celého bayesovského přístupu.
Model, apriorní a aposteriorní distribuce¶
Model je matematický popis vztahu mezi daty a neznámými parametry. Obvykle se jedná o pravděpodobnostní rozdělení, které popisuje, jak data vznikají. Například při házení mincí můžeme použít Bernoulliho rozdělení:
kde p je neznámá pravděpodobnost úspěchu (např. padnutí panny). Parametr p je neznámý a jeho hodnota je cílem našeho odhadu.
Apriorní distribuce vyjadřuje naši počáteční znalost nebo přesvědčení o parametru p před pozorováním dat. Například pokud věříme, že mince je férová, můžeme zvolit rovnoměrnou apriorní distribuci na intervalu [0, 1]. Pokud máme více informací, můžeme použít například Beta rozdělení s parametry a a b, které reprezentuje naši víru o pravděpodobnosti úspěchu.
Aposteriorní distribuce kombinuje apriorní znalosti s informacemi z dat. Výsledkem je aktualizovaná znalost o parametru p, která zahrnuje jak naše původní přesvědčení (prior), tak informace získané z dat (likelihood). Výpočet aposteriorní distribuce se provádí pomocí Bayesovy věty.
Bayesova věta¶
Bayesova věta je klíčovým nástrojem pro výpočet aposteriorní distribuce. Popisuje vztah mezi apriorní distribucí, likelihoodem a aposteriorní distribucí. Její obecný tvar je:
kde:
- \pi(\theta | x): Aposteriorní distribuce – naše aktualizovaná znalost o parametru \theta po zohlednění dat x.
- \pi(\theta): Apriorní distribuce – naše počáteční znalost o parametru \theta před pozorováním dat.
- f(x | \theta): Likelihood (věrohodnost) – pravděpodobnost pozorovaných dat x za předpokladu konkrétní hodnoty parametru \theta.
- f(x): Marginální pravděpodobnost dat (evidence), která slouží jako normalizační konstanta a zajišťuje, že aposteriorní distribuce je platným pravděpodobnostním rozdělením:
V praxi se často používá tvar proporcionality, protože f(x) nezávisí na \theta:
Bayesova věta tedy říká, že aposteriorní distribuci získáme jako součin apriorní distribuce a likelihoodu, normalizovaný marginální pravděpodobností dat.
Sekvenční odhad¶
Sekvenční odhad umožňuje postupnou aktualizaci posterioru při příchodu nových dat bez nutnosti přepočítávání všech dosavadních pozorování. Tento proces spočívá v opakovaném použití Bayesovy věty.
Matematicky lze sekvenční update zapsat jako:
kde (x_{0:t}, y_{0:t}) označuje všechna dosavadní data až do času t.
Postup sekvenčního odhadu:
- Zvolíme apriorní distribuci \pi(\theta).
- Po prvním pozorování data (x_1, y_1) aplikujeme Bayesovu větu a získáme aposteriorní distribuci \pi(\theta | x_1, y_1).
- Tuto aposteriorní distribuci použijeme jako nový prior pro další pozorování (x_2, y_2). Proces opakujeme iterativně.
Sekvenční update po jednom pozorování má stejný výsledek jako update více daty najednou díky nezávislosti jednotlivých měření.
Zásadním problémem sekvenčního odhadu je však složitost výpočtu aposteriorní distribuce. Pokud po prvním updatu není aposteriorno některou z běžných distribucí (např. normální nebo beta), pak s dalším updatem se tato složitost ještě zvyšuje. Tento problém řeší použití exponenciální třídy distribucí.
Exponenciální třída distribucí¶
Exponenciální třída distribucí zahrnuje širokou skupinu pravděpodobnostních rozdělení, která mají společný matematický tvar. Tento tvar umožňuje efektivní práci s bayesovským modelem, zejména při výpočtu aposteriorní distribuce, protože umožňuje jednoduchou aktualizaci hyperparametrů v případě použití konjugovaných priorů.
Co říká definice exponenciální třídy?¶
Distribuce patří do exponenciální třídy tehdy, pokud lze její hustotu pravděpodobnosti (pro spojité rozdělení) nebo pravděpodobnostní funkci (pro diskrétní rozdělení) vyjádřit ve specifickém tvaru. Tento tvar zahrnuje několik klíčových komponent:
- Funkce h(y, x): Tato funkce závisí pouze na datech y a případně na dalších proměnných x. Nemá žádný vliv na parametr \theta.
- Funkce g(\theta): Tato funkce závisí pouze na parametru \theta. Často se jí říká normalizační funkce, protože zajišťuje, že výsledná hustota pravděpodobnosti integruje k 1.
- Exponenciální člen \exp[\eta(\theta)^T T(y, x)]: Tento člen zachycuje vztah mezi parametrem \theta a daty y. Obsahuje:
- Přirozený parametr \eta(\theta), který transformuje parametr \theta do vhodné formy.
- Dostatečnou statistiku T(y, x), která shrnuje všechny informace o datech potřebné k odhadu parametru \theta.
Formálně lze hustotu pravděpodobnosti v exponenciální třídě vyjádřit jako:
kde:
- h(y, x) je známá funkce závislá pouze na datech.
- g(\theta) je normalizační funkce závislá pouze na parametru \theta.
- \eta(\theta) je přirozený parametr (např. logaritmus šancového poměru pro Bernoulliho rozdělení).
- T(y, x) je dostatečná statistika – obsahuje všechny informace o datech relevantní pro odhad parametru \theta.
Význam exponenciální třídy¶
Exponenciální třída distribucí má několik důležitých vlastností:
- Uzavřenost při aktualizaci: Pokud použijeme prior z konjugované rodiny a data pocházejí z exponenciální třídy, výsledný posterior bude mít stejný tvar jako prior.
- Efektivita výpočtu: Dostatečná statistika T(y, x) umožňuje shrnout informace z dat do fixního počtu parametrů, což zjednodušuje výpočty.
- Flexibilita: Exponenciální třída zahrnuje mnoho běžně používaných rozdělení, jako je normální, binomické, Poissonovo nebo gamma rozdělení.
Příklady exponenciální třídy¶
| Distribuce | Přirozený parametr (\eta(\theta)) | Dostatečná statistika (T(y, x)) |
|---|---|---|
| Bernoulliho | \ln\left(\frac{p}{1-p}\right) | Počet úspěchů |
| Normální | (\mu/\sigma^2, -1/(2\sigma^2)) | (\sum y_i, \sum y_i^2) |
| Poissonova | \ln(\lambda) | \sum y_i |
Konjugovaná apriorní distribuce¶
Konjugovaná apriorní distribuce má tu vlastnost, že posterior má stejný tvar jako prior. To výrazně zjednodušuje výpočty v bayesovském odhadu.
Definice:
Prior \pi(\theta) je konjugovaný k modelu f(x|\theta), pokud posterior \pi(\theta|x) patří do stejné třídy rozdělení jako prior.
Výhody:
- Analytické řešení: Posterior lze spočítat přímo bez numerických metod.
- Intuitivní aktualizace: Hyperparametry prioru se upravují podle nových dat.
Příklady konjugovaných párů¶
| Model | Konjugovaný prior |
|---|---|
| Binomický | Beta |
| Poissonův | Gamma |
| Normální (μ) | Normální |
| Multinomický | Dirichletovo |
Například pro Poissonovo rozdělení s intenzitou \lambda, kde data sledují Poissonovo rozdělení:
je konjugovaným priorem Gamma rozdělení:
Posterior má pak také tvar Gamma rozdělení: