99. Otazky na zkousku

Jak vypadá charakteristická rovnice modelu AR(i)?

Model AR(X) je autoregresní model X-tého řádu, kde X udává počet zpožděných časových kroků (lagů) použitých v modelu. V tomto modelu je současná hodnota časové řady vyjádřena jako lineární kombinace jejích X předchozích hodnot a chybového členu. Model má tvar:

X(t) = c + \phi_1 X(t-1) + \phi_2 X(t-2) + \cdots + \phi_i X(t-i) + \epsilon_t

kde:

  • c je konstanta,
  • \phi_1, \phi_2, \ldots, \phi_i jsou koeficienty modelu,
  • \epsilon_t je chybový člen, obvykle s normálním rozdělením se střední hodnotou 0 a konstantním rozptylem.

Charakteristická rovnice modelu AR(X) se tvoří z koeficientů autoregrese. Převedeme model AR(X) do formy, kde na jedné straně rovnice budou všechny zpožděné termíny. Charakteristická rovnice pak vypadá takto:

1 - \phi_1 z - \phi_2 z^2 - \cdots - \phi_X z^i = 0

kde z je zpoždění operátoru (lag operator). Tato rovnice se používá k analýze vlastností modelu, jako jsou jeho stacionárnost a invertibilita.

Jak vypadá charakteristická rovnice modelu MA(i)?

Model MA(i) je model klouzavého průměru i-tého řádu. V tomto modelu je současná hodnota časové řady modelována jako lineární kombinace chybových členů až do i-tého zpoždění. Model má tvar:

X(t) = c + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \cdots + \theta_i \epsilon_{t-i}

kde:

  • c je střední hodnota procesu,
  • \epsilon_t jsou chybové členy, obvykle s normálním rozdělením se střední hodnotou 0 a konstantním rozptylem,
  • \theta_1, \theta_2, \ldots, \theta_i jsou koeficienty modelu.

Charakteristická rovnice pro model MA(i) se obvykle neformuluje stejným způsobem jako u modelů AR, jelikož model MA závisí přímo na chybových členech, nikoli na předchozích hodnotách časové řady. Nicméně, lze model převést na tzv. invertovanou formu AR, pokud je proces invertibilní. Pro invertibilní MA(i) proces lze najít ekvivalentní AR(∞) reprezentaci, kde charakteristická rovnice by odpovídala této AR reprezentaci.

Jaká je kovariance mezi X(t) a X(t+5) v procesu MA(2)?

V modelu MA(2), modelu druhého řádu klouzavého průměru (Moving Average), jsou hodnoty časové řady modelovány takto:

X(t) = \mu + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2}

kde:

  • \mu je střední hodnota procesu,
  • \epsilon_t jsou chybové členy (obvykle s normálním rozdělením se střední hodnotou 0 a konstantním rozptylem),
  • \theta_1, \theta_2 jsou koeficienty modelu.

V procesu MA(2), kovariance mezi X(t) a X(t+k) je nulová pro všechna k > 2, protože chybové členy jsou nekorelované (nezávislé) a mají konstantní rozptyl. Tedy, kovariance mezi X(t) a X(t+5) v procesu MA(2) je rovna nule.

Jak se liší použití jednoduchého, dvojitého a trojitého exponenciálního vyhlazování v závislosti na charakteristikách časových řad, jako jsou přítomnost nebo absence trendu a sezonality?

Exponenciální vyhlazování je technika používaná k předpovídání v časových řadách. Existují různé formy této metody, které se využívají v závislosti na charakteristice časové řady:

  1. Jednoduché exponenciální vyhlazování: Používá se pro časové řady bez trendu a sezonality. Tato metoda přisuzuje vyšší váhu nedávným pozorováním a postupně snižuje váhu starších pozorování.

  2. Dvojité exponenciální vyhlazování (Holtova metoda): Vhodné pro časové řady s trendem, ale bez sezonality. Tato metoda rozšiřuje jednoduché exponenciální vyhlazování o komponentu, která zachytává trend v datech.

  3. Trojité exponenciální vyhlazování (Holt-Wintersova metoda): Používá se pro časové řady, které vykazují jak trend, tak sezonitu. Tato metoda kombinuje dvojité exponenciální vyhlazování s další komponentou pro modelování sezonity.

    • Pro časové řady s trendem ale bez sezonality, dvojité exponenciální vyhlazování poskytuje efektivnější model než trojité, jelikož nezahrnuje nepotřebnou sezonitní komponentu.
    • Pro časové řady bez trendu ale se sezonitou je možné použít upravenou verzi trojitého exponenciálního vyhlazování, která zohledňuje pouze sezonitní komponentu.

Výběr vhodného typu exponenciálního vyhlazování závisí na charakteristikách konkrétní časové řady a na specifickém účelu analýzy či předpovědi.

Co je to stacionarita v kontextu časových řad?

Existují dva hlavní typy stacionarity:

  1. Slabá nebo kovarianční stacionarita: Tento typ stacionarity vyžaduje, aby střední hodnota a autokovarianční funkce časové řady byly invariantní v čase. To znamená, že očekávaná hodnota a kovariance mezi hodnotami v různých časech by měly zůstat konstantní, bez ohledu na posun v čase.

  2. Silná stacionarita: Tento typ stacionarity vyžaduje, aby všechny momenty (očekávaná hodnota, rozptyl, šikmost, špičatost atd.) byly invariantní v čase. Silná stacionarita je přísnější podmínkou než slabá stacionarita.

Stacionarita je důležitá, protože mnoho statistických metod a modelů pro analýzu časových řad (např. ARIMA modely) předpokládá, že data jsou stacionární. Ne-stacionární časové řady mohou vykazovat trendy, sezónní vzory nebo měnící se rozptyl, což může vést k nesprávným závěrům nebo předpovědím. V praxi se často používají metody jako diferencování nebo transformace logaritmem k dosažení stacionarity v ne-stacionárních časových řadách.

Jaká je základní dynamika časových řad?

Časové řady lze často rozložit do několika základních komponent, které pomáhají analyzovat a modelovat jejich chování. Tyto základní komponenty jsou:

  1. Trend: Trend představuje dlouhodobé zvyšování nebo snižování hodnot v časové řadě. Může být lineární nebo nelineární a odráží obecné směrování řady v delším časovém období.

  2. Sezónnost: Sezónnost odkazuje na pravidelné vzorce nebo cykly fluktuací v časové řadě, které se opakují v pravidelných intervalech. Tyto intervaly mohou být hodinové, denní, týdenní, měsíční, roční atd. a jsou způsobeny sezónními faktory, jako jsou počasí, svátky nebo školní roky.

  3. Cyklické změny: Cyklické změny jsou variace, které se vyskytují v nepravidelných intervalech a nejsou tolik pravidelné jako sezónní vzory. Tyto změny jsou obvykle spojeny s hospodářskými cykly nebo jinými dlouhodobými faktory.

  4. Náhodná nebo neregulérní složka: Tato složka zahrnuje náhodné nebo nevysvětlitelné variace v časové řadě, které nejsou součástí trendu, sezónnosti nebo cyklických komponent. Tyto fluktuace mohou být způsobeny nepravidelnými událostmi nebo šumem v datech.

V závislosti na konkrétní časové řadě a účelu analýzy může být zapotřebí zahrnout všechny nebo některé z těchto komponent při modelování nebo při analytickém přístupu.

Jaké jsou základní formy komponentního modelování časových řad?

V analýze časových řad se často používají dva základní komponentní modely pro popis dynamiky vývoje: aditivní a multiplikativní. Tyto modely rozkládají časovou řadu do základních komponent – trendu, sezónnosti a náhodné složky.

  • Aditivní model: V aditivním modelu se předpokládá, že pozorovaná hodnota je součtem těchto tří komponent:

    kde:

    • Y_t je pozorovaná veličina v čase t,
    • T_t je hodnota trendu,
    • S_t je sezónní složka,
    • E_t je náhodná nebo nevysvětlená složka.

    Aditivní model je vhodný, pokud amplituda sezónních složek zůstává konstantní v průběhu času, bez ohledu na úroveň trendu.

  • Multiplikativní model: V multiplikativním modelu se předpokládá, že pozorovaná hodnota je výsledkem násobení těchto tří komponent: V tomto případě se očekává, že amplituda sezónní složky se mění v závislosti na úrovni trendu – tedy s rostoucím trendem se zvyšuje i amplituda sezónní složky a naopak. Multiplikativní model je vhodný pro situace, kdy se sezónní vlivy mění v závislosti na úrovni trendu.

Volba mezi aditivním a multiplikativním modelem závisí na povaze dat a specifikách analyzované časové řady.

Co je to moment ve statistice a jaké jsou tři základní momenty?

Moment ve statistice je kvantitativní míra určité charakteristiky rozdělení pravděpodobnosti nebo četnosti. Momenty se používají k popisu tvaru rozdělení pravděpodobnosti. Tři základní momenty jsou:

  1. První moment (Střední hodnota nebo očekávaná hodnota): První moment je průměr nebo střední hodnota datové sady nebo rozdělení pravděpodobnosti. Matematicky je definován jako průměr všech hodnot náhodné proměnné. Pro náhodnou proměnnou X se střední hodnota značí E(X) nebo \mu a vypočítá se jako: pro diskrétní rozdělení, nebo pro spojitá rozdělení, kde P(x_i) je pravděpodobnost hodnoty x_i a f(x) je hustota pravděpodobnosti.

  2. Druhý moment (Rozptyl): Druhý moment kolem střední hodnoty je rozptyl, který měří variabilitu nebo rozptýlenost dat. Rozptyl náhodné proměnné X se značí \sigma^2 a je definován jako: pro diskrétní rozdělení, nebo pro spojitá rozdělení.

  3. Třetí moment (Šikmost): Třetí moment kolem střední hodnoty je šikmost (skewness), která měří asymetrii rozdělení pravděpodobnosti. Kladná šikmost značí rozdělení s delším pravým ocasem, zatímco záporná šikmost ukazuje na delší levý ocas. Šikmost pro náhodnou proměnnou X se vypočítá jako: a je měrou asymetrie rozdělení okolo jeho střední hodnoty.

Jaký je rozdíl mezi ACF a PACF?

  1. ACF (Autokorelační funkce): ACF měří celkovou korelaci mezi hodnotami časové řady a jejich zpožděními. Zahrnuje vlivy mezilehlých hodnot, tedy ACF pro zpoždění k zahrnuje vlivy všech zpoždění mezi 1 a k.

  2. PACF (Částečná autokorelační funkce): Na rozdíl od ACF, PACF měří korelaci mezi hodnotami a jejich zpožděními po odstranění vlivu mezilehlých hodnot. Tedy PACF pro zpoždění k zahrnuje pouze přímý vliv zpoždění k na aktuální hodnotu, ignorujíc všechny ostatní předchozí vlivy.

Zatímco ACF ukazuje kumulativní korelační efekt, PACF poskytuje čistý efekt každého konkrétního zpoždění.

Jaký je vztah mezi invertibilitou a stacionaritou v MA a AR procesech a jak se to projevuje v ACF a PACF?

  1. Invertibilita MA procesů: Invertibilní MA procesy lze konvertovat na ekvivalentní AR procesy nekonečného řádu (AR(∞)). Toto je důležité, protože umožňuje popsat MA proces pomocí AR modelu. V důsledku toho má PACF MA procesů mnoho významných lagů, což odráží schopnost MA procesu být vyjádřen pomocí mnoha předchozích hodnot v AR formátu.

  2. Stacionarita AR procesů: Stacionární AR procesy lze konvertovat na ekvivalentní MA procesy nekonečného řádu (MA(∞)). Tento převod je založen na myšlence, že stacionární AR proces může být popisován pomocí kombinace chybových členů z minulosti. Proto ACF AR procesů ukazuje mnoho významných lagů, což odpovídá tomu, jak dlouho minulé hodnoty ovlivňují současné hodnoty v AR modelu.

Jak zjistím, zda je časová řada stacionární?

Pro zjištění stacionarity časové řady se často používají dva statistické testy: ADF (Augmented Dickey-Fuller) a KPSS (Kwiatkowski-Phillips-Schmidt-Shin). Každý test má různý přístup k testování stacionarity. Výsledky těchto testů lze interpretovat následujícím způsobem:

ADF KPSS Pravděpodobná vlastnost
Významný Nevýznamný Stacionární
Nevýznamný Významný Nestacionární, existence jednotkového kořene
Nevýznamný Nevýznamný Nedostatek evidence, možná trend-stacionární
Významný Významný Heteroskedasticita, strukturální změna...
  • ADF Test: Testuje přítomnost jednotkového kořene, který naznačuje nestacionaritu. Významný výsledek (nízká p-hodnota) naznačuje stacionaritu, zatímco nevýznamný výsledek naznačuje možnou nestacionaritu.

  • KPSS Test: Testuje nulovou hypotézu trend-stacionarity. Významný výsledek (nízká p-hodnota) naznačuje nestacionaritu, zatímco nevýznamný výsledek podporuje hypotézu stacionarity.

Jaká je standardní hodnota p-hodnoty v statistických testech, při které se obvykle zamítá nulová hypotéza H_0?

Standardní hodnota p-hodnoty, při které se v statistických testech obvykle zamítá nulová hypotéza H_0, je 0.05. Tato hladina významnosti znamená, že existuje 5% pravděpodobnost zamítnutí nulové hypotézy, když je ve skutečnosti pravdivá (což je chyba 1. druhu).

V praxi, pokud je p-hodnota:

  • Menší nebo rovna 0.05, obvykle zamítáme nulovou hypotézu, což naznačuje, že pozorovaný efekt je statisticky významný.
  • Větší než 0.05, obvykle nulovou hypotézu ponecháváme v platnosti, naznačujíc nedostatek statistického důkazu pro její zamítnutí.

K čemu slouží Ljungův-Boxův Q test, test heteroskedasticity a Jarque-Bera test?

Tyto statistické testy slouží k posouzení různých aspektů časových řad nebo datových sad:

  1. Ljungův-Boxův Q test: Tento test se používá k ověření nulové hypotézy, že časová řada je nezávislá, tj. nevykazuje autokorelaci. Je to zlepšení Boxova-Pierceova testu a je vhodný pro větší vzorky. Ljungův-Boxův test posuzuje, zda celkové korelace pro skupinu zpoždění (lagů) jsou nulové.

  2. Test heteroskedasticity: Testy jako Breusch-Paganův, Whiteův nebo Goldfeld-Quandtův test se používají k zjištění přítomnosti heteroskedasticity v regresním modelu. Heteroskedasticita nastává, když rozptyl chyb regresního modelu není konstantní. Přítomnost heteroskedasticity může vést k neefektivnosti odhadů a testovacích statistik v standardních regresních modelech.

  3. Jarque-Bera test: Tento test se používá pro testování, zda má data normální rozdělení, založené na šikmosti (skewness) a špičatosti (kurtosis) dat. Jarque-Bera test je často používán v ekonometrii a dalších aplikacích, kde je normální rozdělení důležitým předpokladem.

Co je to heteroskedasticita?

Heteroskedasticita je termín používaný v statistice a ekonometrii, který označuje situaci, kdy rozptyl chybového členu v regresním modelu není konstantní napříč různými hodnotami nezávislé proměnné. To znamená, že míra variability nebo rozptýlenosti dat se mění v závislosti na úrovni nezávislé proměnné.

Příklady heteroskedasticity:

  • Ve finančních datech, kde se může rozptyl výnosů akcií zvyšovat v obdobích tržní nejistoty a snižovat ve stabilnějších obdobích.
  • V socioekonomických datech, kde mohou být chyby v regresním modelu rozptýlenější pro skupiny s vyššími příjmy ve srovnání s nižšími příjmy.

Jak se liší model dynamiky stavů a model pozorování v Kalmanově filtru?

V Kalmanově filtru se rozlišují dva základní modely: model dynamiky stavů a model pozorování. Tyto modely spolu úzce souvisí, ale slouží k různým účelům:

  1. Model Dynamiky Stavů: Tento model popisuje, jak se skutečný stav systému vyvíjí v čase. Je to matematický model, který předpovídá budoucí stav systému na základě jeho aktuálního stavu a možná také na základě vnějších vlivů (kontrolních vstupů). Tento model může zahrnovat určitou míru nejistoty nebo šumu, který reprezentuje nesrovnalosti mezi modelem a skutečným chováním systému. Model dynamiky stavů je typicky vyjádřen lineární rovnicí: kde x_k je stav systému v čase k, A_k je matice stavového přechodu, B_k je matice řídicího vstupu, u_k je řídicí vstup a w_k je procesní šum.

  2. Model Pozorování: Tento model popisuje, jak jsou stavy systému pozorovány nebo měřeny. Vzhledem k tomu, že přímé měření skutečného stavu může být často nemožné nebo nepřesné, model pozorování spojuje skutečný stav systému s měřenými hodnotami. Tento model také zahrnuje šum, který reprezentuje chyby nebo nejistotu v měření. Model pozorování je obvykle vyjádřen jako: kde z_k jsou měřená data v čase k, H_k je matice pozorování, a v_k je šum měření.

Kalmanův filtr kombinuje tyto dva modely pro odhad skutečného stavu systému, aktualizuje odhad na základě nových měření a minimalizuje odhadovanou chybu stavu. Model dynamiky stavů předpovídá stav, zatímco model pozorování jej koriguje podle skutečných měření.

Jaké jsou hlavní kroky v iterativním procesu Kalmanova filtru?

Proces Kalmanova filtru je iterativní a skládá se z několika klíčových kroků, které se opakují s každým novým měřením nebo pozorováním:

  1. Inicializace (Pouze poprve): Nejprve je třeba inicializovat stavový vektor a kovarianční matici stavu. Tyto počáteční odhady mohou být založeny na předchozích znalostech nebo měřeních.

  2. Predikce Stavu (Time Update):

    • Predikce Stavu: Využívajíc model dynamiky stavů, filtr předpovídá budoucí stav systému na základě aktuálního stavu a známých řídicích vstupů.
    • Aktualizace Kovarianční Matice: Kovarianční matice stavu je také aktualizována, aby odrážela nejistotu spojenou s predikcí stavu.
  3. Korekce Stavu (Measurement Update):

    • Výpočet Kalmanova Zesileni: Na základě kovarianční matice predikce stavu a matice šumu měření je vypočítán Kalmanův zesilovač. Tento zesilovač určuje, jak moc by měly být aktuální měření zohledněna v odhadu.
    • Aktualizace Odhadu Stavu: S využitím nového měření a Kalmanova zesilovače je odhad stavu aktualizován.
    • Aktualizace Kovarianční Matice Chyb: Nakonec je aktualizována kovarianční matice chyb, aby reflektovala sníženou nejistotu po zahrnutí nového měření.
  4. Opakování Procesu: S každým novým měřením nebo časovým krokem se tento proces opakuje, což umožňuje filtru dynamicky se přizpůsobit a vylepšit odhady stavů systému.

Jaký je hlavní rozdíl mezi Rozšířeným Kalmanovým Filtrem (EKF) a standardním Kalmanovým Filtrem?

Hlavní rozdíl mezi Rozšířeným Kalmanovým Filtrem (EKF) a standardním Kalmanovým Filtrem spočívá v jejich schopnosti zpracovávat systémy:

  1. Standardní Kalmanův Filtr: Standardní Kalmanův Filtr je určen pro lineární systémy, kde jsou jak model dynamiky stavů, tak model pozorování lineární funkce. Tento filtr předpokládá, že vztahy mezi stavovými proměnnými a pozorováními lze vyjádřit pomocí lineárních rovnic.

  2. Rozšířený Kalmanův Filtr (EKF): EKF je rozšířením standardního Kalmanova Filtru pro nelineární systémy. V EKF jsou nelineární modely dynamiky stavů a pozorování lineárizovány pomocí Taylorova rozvoje prvního řádu (derivací) v každém kroku. To umožňuje EKF aproximovat nelineární vztahy a provádět filtrace v nelineárních systémech.

Zatímco standardní Kalmanův Filtr poskytuje přesné výsledky v případě, že všechny modely a vztahy jsou striktně lineární, EKF umožňuje odhady pro systémy, kde je lineární aproximace nelineárních vztahů dostatečně přesná. Nicméně, přesnost EKF může být omezena v případě silně nelineárních systémů, kde lineární aproximace nemusí být adekvátní.

Jaký je základní koncept Unscented Kalmanova filtru (UKF) a jak se liší od standardního Kalmanova filtru (KF)?

Unscented Kalmanův Filtr (UKF) je pokročilá varianta Kalmanova filtru, která byla navržena pro lepší zpracování nelineárních systémů. Základní koncepty a rozdíly oproti standardnímu Kalmanovu filtru (KF) jsou:

  1. Základní Koncept UKF:

    • UKF řeší problém nelinearity v Kalmanových filtrech jinak než Rozšířený Kalmanův Filtr (EKF). Místo linearizace nelineárních funkcí pomocí Taylorova rozvoje (jak to dělá EKF), UKF používá metodu nazývanou "unscented transformace". Tato transformace představuje stavy systému pomocí sady bodů, nazývaných sigma body, které jsou vybrány tak, aby efektivně zachytily střední hodnotu a kovarianci stavového prostoru.
    • Tyto sigma body jsou následně propagovány přes nelineární funkce, a filtr pak používá výsledné statistické charakteristiky (střední hodnota a kovariance) pro aktualizaci odhadů.
  2. Rozdíly oproti KF:

    • Řešení Nelinearity: Zatímco KF je efektivní pouze pro lineární systémy, UKF poskytuje robustnější řešení pro nelineární systémy bez potřeby jejich linearizace.
    • Přesnost Odhadů: UKF obvykle poskytuje přesnější odhady pro nelineární systémy než EKF, protože se vyhýbá linearizaci a tím snižuje chyby způsobené aproximacemi.
    • Výpočetní Náročnost: UKF může být výpočetně náročnější než KF kvůli potřebě propagace více sigmabodů, ale často nabízí lepší výsledky v nelineárních systémech.

Co je unscented transformace a jak se používá v Unscented Kalmanově filtru (UKF)?

Unscented transformace je klíčová součást Unscented Kalmanova filtru (UKF), která umožňuje efektivně zpracovávat nelineární systémy. Základní principy a její použití v UKF jsou:

  1. Princip Unscented Transformace:

    • Unscented transformace je metoda pro aproximaci statistických charakteristik (střední hodnoty a kovariance) náhodné proměnné, která prochází nelineární transformací. Místo použití linearizace (jako v EKF) transformace generuje sadu bodů, známých jako sigma body, okolo střední hodnoty stavu s kovariancí odpovídající stavovému rozptylu.
    • Tato sada bodů je pak propagována přes nelineární funkce systému, což vede k novým středním hodnotám a kovariancím, které lépe zachycují nelinearitu.
  2. Použití v UKF:

    • V UKF se unscented transformace používá ve dvou hlavních krocích: při predikci stavu a při aktualizaci na základě měření.
    • Fáze Predikce: Sigma body jsou generovány okolo aktuálního odhadu stavu a propagovány přes model dynamiky stavu. Výsledná rozložení těchto bodů se používají k odhadu predikovaného stavu a jeho kovariance.
    • Fáze Aktualizace: Po získání nových měření se sigma body aktualizují, aby odrážely nové informace. Výsledky této transformace se pak používají k aktualizaci odhadu stavu a jeho kovariance, aby byly zahrnuty nové informace.

Unscented transformace tedy umožňuje UKF zpracovávat nelinearity v systému efektivněji než tradiční linearizace, což vede k přesnějším odhadům stavu, zejména v silně nelineárních systémech.