2. Parciální korelace, ACF, PACF
Korelační koeficient¶
Definice¶
Korelační koeficient \rho_{XY} měří míru lineárního vztahu mezi dvěma náhodnými veličinami X a Y. Je definován pomocí kovariance (\sigma_{XY}) a standardních odchylek (\sigma_X, \sigma_Y) obou veličin:
Nezávislost vs. Nekorelovanost¶
Pokud jsou X a Y jsou nezávislé, pak je jejich korelační koeficient je nula. Avšak opačné tvrzení (že nulový korelační koeficient implikuje nezávislost) obecně neplatí.
Lineární Transformace¶
V případě, že Y je lineární transformací X (tj. Y = aX + b), korelační koeficient nabývá extrémních hodnot: pro a > 0 je \rho_{XY} = 1 a pro a < 0 je \rho_{XY} = -1. Tyto hodnoty reflektují deterministický lineární vztah mezi X a Y.
Výběrový Korelační Koeficient¶
V praxi se používá výběrový korelační koeficient r_{xy}, který se vypočítá z výběrových dat:
kde \bar{x}, \bar{y} jsou průměry a s_x, s_y jsou výběrové směrodatné odchylky příslušných veličin. Tento koeficient je klíčovým nástrojem ve statistice pro měření síly a směru lineárního vztahu mezi dvěma proměnnými.
Parciální korelační koeficient¶
Úvod¶
Parciální korelační koeficient měří vztah mezi dvěma proměnnými X a Y, očištěný od vlivu třetí proměnné nebo skupiny proměnných Z. Je to způsob, jak posoudit lineární vztah mezi X a Y po 'odstranění' vlivu Z.
Výpočet Reziduí¶
Nejprve se použije lineární regrese pro odhadnutí \hat{X} a \hat{Y} na základě Z. Veličiny \hat{X} a \hat{Y} jsou tedy nejlepším lineárním přiblížením k veličinám X a Y. Rezidua e_X = (X - \hat{X}) a e_Y = (Y - \hat{Y}) jsou poté použita k odstranění vlivu Z z X a Y.
Výpočet Parciálního Korelačního Koeficientu¶
Parciální korelační koeficient \rho_{XY\cdot Z} se počítá pomocí korelačních koeficientů mezi X, Y, a Z, podle vzorce:
kde \operatorname{cor}(X, Z) je korelační matice mezi X a Z, a \operatorname{cor}(Z) je korelační matice prvků Z.
Zjednodušení pro Skalární Z¶
Pokud je Z skalární, vzorec se zjednodušuje na:
Aplikace v Autoregresních Procesech¶
Parciální korelační koeficient je klíčovým nástrojem pro identifikaci autoregresních procesů v časových řadách, kde je důležité pochopit vztah mezi proměnnými po eliminaci vlivu jiných časově posunutých proměnných.
Vlastnosti Korelační Matice¶
- Hodnoty Prvků: Prvky korelační matice reprezentují korelační koeficienty mezi páry proměnných. Tyto hodnoty jsou v rozmezí -1 až 1.
- Diagonála: Na diagonále korelační matice jsou hodnoty vždy 1, protože jsou to korelace proměnných samy se sebou.
- Symetrie: Korelační matice je vždy symetrická. To znamená, že hodnota v pozici (i, j) je stejná jako hodnota v pozici (j, i). Důvodem je, že korelace mezi dvěma proměnnými X a Y je stejná, ať už se na vztah díváme z pohledu X nebo Y.
Autokorelační Koeficient¶
Rozšiřuje koncept korelačního koeficientu na časové řady. Zde se místo dvou různých proměnných porovnáváme hodnoty téže proměnné v různých časových okamžicích. ACF tedy měří, jak silně jsou hodnoty časové řady v jednom čase spojeny s hodnotami v jiných časech (zpoždění). Autokorelační koeficient pro časy s a t je definován jako:
kde \mu_t a \sigma_t jsou střední hodnota a rozptyl v čase t.
Výběrový Autokorelační Koeficient¶
Pro slabě stacionární procesy, které mají časově invariantní první dva momenty, se autokorelace vyčísluje pouze na základě zpoždění \tau:
a R(\tau) = R(-\tau). Pro praktické aplikace se používá výběrový autokorelační koeficient.
Parciální Autokorelační Funkce (PACF)¶
PACF rozšiřuje koncept parciálního korelačního koeficientu na analýzu časových řad. Měří vztah mezi hodnotami v časové řadě v určitém zpoždění, přičemž odstraňuje vliv hodnot v mezilehlých zpožděních. PACF tedy měří autokorelaci mezi X_t a X_{t+k}, když je odstraněn lineární vliv všech mezilehlých hodnot. Parciální autokorelace pro zpoždění k je:
Tento koeficient poskytuje detailnější pohled na vztahy v časové řadě než standardní ACF.
ACF a PACF Intuice¶
ACF (Autocorrelation Function)¶
-
Co Měří: ACF měří, jak jsou hodnoty v časové řadě lineárně korelované s jejich předchozími hodnotami. Jednoduše řečeno, ukazuje, jak silně je hodnota v čase t spojena s hodnotami v časech t-1, t-2, atd., až do určitého zpoždění.
-
Použití: ACF je užitečná pro identifikaci opakujících se vzorů, jako jsou sezónní fluktuace, nebo periodické oscilace v datech. Pokud například časová řada vykazuje vysokou autokorelaci pro zpoždění o jeden časový úsek (tj. R(1) je vysoké), to naznačuje, že hodnoty v řadě jsou silně ovlivněny jejich bezprostředně předchozími hodnotami.
-
Význam: Vysoké hodnoty ACF pro konkrétní zpoždění naznačují silnou závislost na hodnotách v tomto zpoždění. To je klíčové pro modelování a předpovídání časových řad, jelikož pomáhá určit, která zpoždění jsou nejdůležitější pro předpovědi.
PACF (Partial Autocorrelation Function)¶
-
Co Měří: PACF měří korelaci mezi hodnotami v časové řadě, ale odstraňuje vliv všech mezilehlých hodnot. Jinými slovy, PACF určuje, jak silně jsou dvě hodnoty v časové řadě spojeny, když se nebere v úvahu vliv hodnot, které leží mezi nimi.
-
Použití: PACF je obzvláště užitečná v situacích, kdy chceme zjistit, zda existuje přímý vztah mezi hodnotami v časové řadě oddělenými určitým zpožděním, bez zohlednění vlivu hodnot, které leží mezi těmito dvěma body.
-
Význam: Vysoká hodnota PACF pro konkrétní zpoždění naznačuje, že mezi hodnotami v tomto zpoždění existuje silná přímá závislost. To je důležité pro identifikaci struktury autoregresních modelů v časových řadách, kde se chceme zaměřit na přímé vlivy minulých hodnot bez rušení od mezilehlých hodnot.
Srovnání ACF a PACF¶
- ACF je jako široký záběr, který zachycuje celkovou korelaci včetně všech mezilehlých vlivů.
- PACF nabízí užší pohled, soustředěný na přímé vztahy a ignorující mezilehlé vlivy.
Tato dvojice nástrojů je klíčová pro analýzu časových řad, zejména pro rozhodování o vhodné struktuře autoregresních (AR), klouzavých průměrů (MA), nebo smíšených ARMA modelů pro modelování a předpovídání.
Příklady Časových Řad a jejich Charakteristiky¶
- AR Procesy (Autoregresní): Lineární kombinace minulých hodnot. ACF postupně klesá, zatímco PACF ukazuje silnou korelaci pouze pro první zpoždění.
- MA Procesy (Klouzavé průměry): Kombinace minulých hodnot šumového signálu. ACF je vysoká pro zpoždění 1, ostatní jsou nulové, zatímco PACF klesá k nule.
- ARMA Procesy (Smíšené Autoregresní a Klouzavé průměry): Kombinace obou přístupů, AR a MA.
Příklady¶
Gaussovský bílý šum¶
Gaussovský bílý šum představuje časovou řadu s nezávislými a identicky distribuovanými veličinami z normálního rozdělení N(0, 1). Tento typ časové řady je charakteristický tím, že:
- Autokorelační Funkce (ACF): Má tendenci ukazovat nízké hodnoty autokorelace pro všechna zpoždění, protože každý prvek v řadě je nezávislý na ostatních.
- Parciální Autokorelační Funkce (PACF): Také ukazuje nízké hodnoty pro všechna zpoždění, protože neexistují žádné přímé vztahy mezi pozorováními v různých časových bodech.
from scipy.stats.distributions import norm
from config.base_python_functions import tsplot
x = norm.rvs(size=1000)
print(tsplot(x).getvalue())
Gaussovská náhodná procházka¶
Gaussovská náhodná procházka se skládá z postupně se akumulujících náhodných změn, kde každá nová hodnota v časové řadě je součtem předchozí hodnoty a náhodného šumu. Její charakteristiky zahrnují:
- ACF: Bude vykazovat vysoké hodnoty autokorelace pro všechna zpoždění, protože aktuální hodnota je výsledkem kumulativního součtu předchozích hodnot a šumu.
- PACF: Může ukázat silný vztah pro první zpoždění, ale pro následující zpoždění bude tendence klesat, což odráží fakt, že aktuální hodnota je přímo ovlivněna pouze bezprostředně předcházející hodnotou.
from scipy.stats.distributions import norm
from config.base_python_functions import tsplot
import numpy as np
ndat = 500
x = np.zeros(ndat)
for t in range(1, ndat):
x[t] = x[t-1] + norm.rvs()
print(tsplot(x).getvalue())
Sinusovka¶
Sinusová časová řada je periodický signál, který může být ovlivněn náhodným šumem. Pro sinusovku lze očekávat:
- ACF: Vysoké hodnoty autokorelace v pravidelných intervalech, které odpovídají periodicitě signálu. Například, pokud je perioda signálu známa, autokorelační funkce by měla ukazovat špičky v těchto periodických intervalech.
- PACF: Může ukázat výrazné korelace pro některá zpoždění, ale tyto budou pravděpodobně omezené a odrážejí přímé vztahy v rámci periodické struktury signálu.
from config.base_python_functions import tsplot
import numpy as np
x_i = np.arange(0, 20*np.pi, np.pi/4)
x = np.sin(x_i) #+ norm.rvs(scale=.5, size=x_i.size)
print(tsplot(x).getvalue())