Skip to content

Projekcni-metody #PCA #ICA #LDA #Sammon-mapping

Projekční metody

  • snaha nalezení projekce dat z n dimenzionálního prostoru do k (k < n) dimenzionálního prostoru při zachování nějaké formy informací

  • výhody

    • redundantní informace jsou často vyřazeny
  • nevýhody

    • nová podoba dat je těžko interpretovatelná
  • Je důležité zachovat korelaci mezi jednotlivými body i po projekci

    • Nejčastěji se používá Pearsonův korelační koeficient
    • \rho_X,Y = \dfrac{cov(X,Y)}{\sigma_X\sigma_Y} = \dfrac{E{(X-\mu_X)(Y-\mu_Y)}}{\sigma_X\sigma_Y}

Techniky

  • Lineární techniky
    • Random mapping
    • PCA - Principal Component Analysis
    • ICA - Independent Component Analysis
    • LDA - Linear Discriminant Analysis
  • Nelineární techniky
    • MDS
    • Sammon mapping

Random Mapping

  • Používá random k \times d matici R
    • X_{k \times N}^{RP} = R_{k \times d}X_{d \times N}
  • Založena na Lindenstraussově lemmatu
    • Pokud je cílová dimenze vhodná, pak jsou vzdálenosti mezi projektovanými body cca zachovány
  • Jde spíše o transformace než o projekci

PCA

  • Cílem PCA je redukovat dimenzionalitu dat a zároveň zachovat co nejvíce variaci (odpovídá množství informace) přítomné v datasetu.
    • Aka snaha minimalizovat information loss
  • Možným výpočtem je prolnutí přímky těžištěm, zkusit přímkou rotovat a tím zjistit nejlepší úhel. PCA.png
  • Oproti LDA vrací prvky, které jsou více “výřečné” (more expressive features)
  • Problémy
    • Nalezené hlavní komponenty nemusí najít správný pattern klasifikace
    • Viz obrázek PCA by vybralo komponentu s větším rozptylem
    • wrong-pca.png
Information loss
  • Redukce dimenze implikuje stratu informaci
  • min ||X - \hat{X}||
  • „Nejlepší“ podprostor je vycentrován na střední hodnotu vzorku a má směry určené „nejlepšími“ vlastními vektory kovariantní matice dat X.
    • Nejlepší vlastní vektor je takový který ma největší rozptyl

ICA

  • Statistická technika, která se používá k oddělení multivarietního signálu na jeho nezávislé složky.
  • Najde lineární kombinace původních signálů, které jsou navzájem statisticky nezávislé
  • Spíše vhodné pro slepé rozdělení dat do tříd
  • Problémy
    • Extrahovaný signál může být zrcadlen (otáčíme jim tak dlouho, až ho vezmeme i z druhé strany (+180°))
    • Nemá jasné pořadí komponent ica.png

LDA (Fisher projection)

  • Projekce dat do nižší dimenze, kdy důraz je kladen na zachování diskriminačních informací (misclassification error)
  • Maximální dimenze nového podprostoru je C-1 (C = počet uvažovaných tříd)
  • Dobré pro klasifikaci tříd
  • Snaha o maximalizaci vzdálenosti průměrů tříd a minimalizaci rozptylu uvnitř tříd
  • lda.png
  • Pokud není matice vnitřních rozptylů Sw singulární, může se použít nejdříve PCA na redukci dim a pak LDA k nalezení nejdiskriminativnějších směrů

PCA vs ICA vs LDA

  • PCA
    • Lepší na malých datech
    • Získání nejexpresivnějších příznaků
    • Dobre na redukci dimenzi
  • ICA
    • Nejlepší při slepém oddělování zdrojů, kdy nemáme k dispozici predikovanou třídu
  • LDA
    • Na velkých a reprezentativních datech pro každou třídu, získání nejrozlišitelnějsích příznaků

Sammon mapping

  • Metoda zobrazení vícerozměrných dat do nižšího rozměru, která se snaží zachovat relativní vzdálenosti mezi jednotlivými daty co nejlépe.
  • Netransformuje souřadnice, místo toho reorganizuje pozice vzorů v novém prostoru.
  • Cílí na minimalizaci tzv. Sammon’s stress error funkce
    • E = \dfrac{1}{\sum_{i<j}{d^*_{ij}}}\sum_{i<j}{\dfrac{(d^*_{ij}-d_{ij})^2}{d^*_{ij}}}
    • d^*_{ij}: vzdalenost bodu i,j v puvodni dimenzi
    • d_{ij}: vzdálenost bodů i,j v nové projekci
    • Minimalizace se může provádět Gradientním Sestupem