Skip to content

2. Parciální korelace, ACF, PACF

Korelační koeficient

Definice

Korelační koeficient \rho_{XY} měří míru lineárního vztahu mezi dvěma náhodnými veličinami X a Y. Je definován pomocí kovariance (\sigma_{XY}) a standardních odchylek (\sigma_X, \sigma_Y) obou veličin:

Nezávislost vs. Nekorelovanost

Pokud jsou X a Y jsou nezávislé, pak je jejich korelační koeficient je nula. Avšak opačné tvrzení (že nulový korelační koeficient implikuje nezávislost) obecně neplatí.

Lineární Transformace

V případě, že Y je lineární transformací X (tj. Y = aX + b), korelační koeficient nabývá extrémních hodnot: pro a > 0 je \rho_{XY} = 1 a pro a < 0 je \rho_{XY} = -1. Tyto hodnoty reflektují deterministický lineární vztah mezi X a Y.

Výběrový Korelační Koeficient

V praxi se používá výběrový korelační koeficient r_{xy}, který se vypočítá z výběrových dat:

r = \frac{1}{n-1} \sum_{i=1}^{n} \left( \frac{x_i - \bar{x}}{s_x} \right) \left( \frac{y_i - \bar{y}}{s_y} \right),

kde \bar{x}, \bar{y} jsou průměry a s_x, s_y jsou výběrové směrodatné odchylky příslušných veličin. Tento koeficient je klíčovým nástrojem ve statistice pro měření síly a směru lineárního vztahu mezi dvěma proměnnými.

Parciální korelační koeficient

Úvod

Parciální korelační koeficient měří vztah mezi dvěma proměnnými X a Y, očištěný od vlivu třetí proměnné nebo skupiny proměnných Z. Je to způsob, jak posoudit lineární vztah mezi X a Y po 'odstranění' vlivu Z.

Výpočet Reziduí

Nejprve se použije lineární regrese pro odhadnutí \hat{X} a \hat{Y} na základě Z. Veličiny \hat{X} a \hat{Y} jsou tedy nejlepším lineárním přiblížením k veličinám X a Y. Rezidua e_X = (X - \hat{X}) a e_Y = (Y - \hat{Y}) jsou poté použita k odstranění vlivu Z z X a Y.

Výpočet Parciálního Korelačního Koeficientu

Parciální korelační koeficient \rho_{XY\cdot Z} se počítá pomocí korelačních koeficientů mezi X, Y, a Z, podle vzorce:

kde \operatorname{cor}(X, Z) je korelační matice mezi X a Z, a \operatorname{cor}(Z) je korelační matice prvků Z.

Zjednodušení pro Skalární Z

Pokud je Z skalární, vzorec se zjednodušuje na:

Aplikace v Autoregresních Procesech

Parciální korelační koeficient je klíčovým nástrojem pro identifikaci autoregresních procesů v časových řadách, kde je důležité pochopit vztah mezi proměnnými po eliminaci vlivu jiných časově posunutých proměnných.

Vlastnosti Korelační Matice

  • Hodnoty Prvků: Prvky korelační matice reprezentují korelační koeficienty mezi páry proměnných. Tyto hodnoty jsou v rozmezí -1 až 1.
  • Diagonála: Na diagonále korelační matice jsou hodnoty vždy 1, protože jsou to korelace proměnných samy se sebou.
  • Symetrie: Korelační matice je vždy symetrická. To znamená, že hodnota v pozici (i, j) je stejná jako hodnota v pozici (j, i). Důvodem je, že korelace mezi dvěma proměnnými X a Y je stejná, ať už se na vztah díváme z pohledu X nebo Y.

Autokorelační Koeficient

Rozšiřuje koncept korelačního koeficientu na časové řady. Zde se místo dvou různých proměnných porovnáváme hodnoty téže proměnné v různých časových okamžicích. ACF tedy měří, jak silně jsou hodnoty časové řady v jednom čase spojeny s hodnotami v jiných časech (zpoždění). Autokorelační koeficient pro časy s a t je definován jako:

kde \mu_t a \sigma_t jsou střední hodnota a rozptyl v čase t.

Výběrový Autokorelační Koeficient

Pro slabě stacionární procesy, které mají časově invariantní první dva momenty, se autokorelace vyčísluje pouze na základě zpoždění \tau:

a R(\tau) = R(-\tau). Pro praktické aplikace se používá výběrový autokorelační koeficient.

Parciální Autokorelační Funkce (PACF)

PACF rozšiřuje koncept parciálního korelačního koeficientu na analýzu časových řad. Měří vztah mezi hodnotami v časové řadě v určitém zpoždění, přičemž odstraňuje vliv hodnot v mezilehlých zpožděních. PACF tedy měří autokorelaci mezi X_t a X_{t+k}, když je odstraněn lineární vliv všech mezilehlých hodnot. Parciální autokorelace pro zpoždění k je:

Tento koeficient poskytuje detailnější pohled na vztahy v časové řadě než standardní ACF.

ACF a PACF Intuice

ACF (Autocorrelation Function)

  • Co Měří: ACF měří, jak jsou hodnoty v časové řadě lineárně korelované s jejich předchozími hodnotami. Jednoduše řečeno, ukazuje, jak silně je hodnota v čase t spojena s hodnotami v časech t-1, t-2, atd., až do určitého zpoždění.

  • Použití: ACF je užitečná pro identifikaci opakujících se vzorů, jako jsou sezónní fluktuace, nebo periodické oscilace v datech. Pokud například časová řada vykazuje vysokou autokorelaci pro zpoždění o jeden časový úsek (tj. R(1) je vysoké), to naznačuje, že hodnoty v řadě jsou silně ovlivněny jejich bezprostředně předchozími hodnotami.

  • Význam: Vysoké hodnoty ACF pro konkrétní zpoždění naznačují silnou závislost na hodnotách v tomto zpoždění. To je klíčové pro modelování a předpovídání časových řad, jelikož pomáhá určit, která zpoždění jsou nejdůležitější pro předpovědi.

PACF (Partial Autocorrelation Function)

  • Co Měří: PACF měří korelaci mezi hodnotami v časové řadě, ale odstraňuje vliv všech mezilehlých hodnot. Jinými slovy, PACF určuje, jak silně jsou dvě hodnoty v časové řadě spojeny, když se nebere v úvahu vliv hodnot, které leží mezi nimi.

  • Použití: PACF je obzvláště užitečná v situacích, kdy chceme zjistit, zda existuje přímý vztah mezi hodnotami v časové řadě oddělenými určitým zpožděním, bez zohlednění vlivu hodnot, které leží mezi těmito dvěma body.

  • Význam: Vysoká hodnota PACF pro konkrétní zpoždění naznačuje, že mezi hodnotami v tomto zpoždění existuje silná přímá závislost. To je důležité pro identifikaci struktury autoregresních modelů v časových řadách, kde se chceme zaměřit na přímé vlivy minulých hodnot bez rušení od mezilehlých hodnot.

Srovnání ACF a PACF

  • ACF je jako široký záběr, který zachycuje celkovou korelaci včetně všech mezilehlých vlivů.
  • PACF nabízí užší pohled, soustředěný na přímé vztahy a ignorující mezilehlé vlivy.

Tato dvojice nástrojů je klíčová pro analýzu časových řad, zejména pro rozhodování o vhodné struktuře autoregresních (AR), klouzavých průměrů (MA), nebo smíšených ARMA modelů pro modelování a předpovídání.

Příklady Časových Řad a jejich Charakteristiky

  • AR Procesy (Autoregresní): Lineární kombinace minulých hodnot. ACF postupně klesá, zatímco PACF ukazuje silnou korelaci pouze pro první zpoždění.
  • MA Procesy (Klouzavé průměry): Kombinace minulých hodnot šumového signálu. ACF je vysoká pro zpoždění 1, ostatní jsou nulové, zatímco PACF klesá k nule.
  • ARMA Procesy (Smíšené Autoregresní a Klouzavé průměry): Kombinace obou přístupů, AR a MA.

Příklady

Gaussovský bílý šum

Gaussovský bílý šum představuje časovou řadu s nezávislými a identicky distribuovanými veličinami z normálního rozdělení N(0, 1). Tento typ časové řady je charakteristický tím, že:

  • Autokorelační Funkce (ACF): Má tendenci ukazovat nízké hodnoty autokorelace pro všechna zpoždění, protože každý prvek v řadě je nezávislý na ostatních.
  • Parciální Autokorelační Funkce (PACF): Také ukazuje nízké hodnoty pro všechna zpoždění, protože neexistují žádné přímé vztahy mezi pozorováními v různých časových bodech.

2025-02-11T23:37:46.775266 image/svg+xml Matplotlib v3.10.0, https://matplotlib.org/ 0 200 400 600 800 1000 −2 0 2 Time series 0 2 4 6 8 10 12 14 16 −1.0 −0.5 0.0 0.5 1.0 Autocorrelation 0 2 4 6 8 10 12 14 16 −1.0 −0.5 0.0 0.5 1.0 Partial Autocorrelation

from scipy.stats.distributions import norm
from config.base_python_functions import tsplot

x = norm.rvs(size=1000)
print(tsplot(x).getvalue())

Gaussovská náhodná procházka

Gaussovská náhodná procházka se skládá z postupně se akumulujících náhodných změn, kde každá nová hodnota v časové řadě je součtem předchozí hodnoty a náhodného šumu. Její charakteristiky zahrnují:

  • ACF: Bude vykazovat vysoké hodnoty autokorelace pro všechna zpoždění, protože aktuální hodnota je výsledkem kumulativního součtu předchozích hodnot a šumu.
  • PACF: Může ukázat silný vztah pro první zpoždění, ale pro následující zpoždění bude tendence klesat, což odráží fakt, že aktuální hodnota je přímo ovlivněna pouze bezprostředně předcházející hodnotou.

2025-02-11T23:37:47.021049 image/svg+xml Matplotlib v3.10.0, https://matplotlib.org/ 0 100 200 300 400 500 −20 −15 −10 −5 0 5 Time series 0 2 4 6 8 10 12 14 16 −1.0 −0.5 0.0 0.5 1.0 Autocorrelation 0 2 4 6 8 10 12 14 16 −1.0 −0.5 0.0 0.5 1.0 Partial Autocorrelation

from scipy.stats.distributions import norm
from config.base_python_functions import tsplot
import numpy as np

ndat = 500  
x = np.zeros(ndat)  
for t in range(1, ndat):  
    x[t] = x[t-1] + norm.rvs()  
print(tsplot(x).getvalue())

Sinusovka

Sinusová časová řada je periodický signál, který může být ovlivněn náhodným šumem. Pro sinusovku lze očekávat:

  • ACF: Vysoké hodnoty autokorelace v pravidelných intervalech, které odpovídají periodicitě signálu. Například, pokud je perioda signálu známa, autokorelační funkce by měla ukazovat špičky v těchto periodických intervalech.
  • PACF: Může ukázat výrazné korelace pro některá zpoždění, ale tyto budou pravděpodobně omezené a odrážejí přímé vztahy v rámci periodické struktury signálu.

2025-02-11T23:37:47.262339 image/svg+xml Matplotlib v3.10.0, https://matplotlib.org/ 0 10 20 30 40 50 60 70 80 −1.0 −0.5 0.0 0.5 1.0 Time series 0 2 4 6 8 10 12 14 16 −1.0 −0.5 0.0 0.5 1.0 Autocorrelation 0 2 4 6 8 10 12 14 16 −1.0 −0.5 0.0 0.5 1.0 Partial Autocorrelation

from config.base_python_functions import tsplot
import numpy as np

x_i = np.arange(0, 20*np.pi, np.pi/4)  
x = np.sin(x_i) #+ norm.rvs(scale=.5, size=x_i.size)  
print(tsplot(x).getvalue())