6. Lineární projekce dat do prostoru o méně dimenzích: metoda hlavních komponent (PCA), lineární diskriminační analýza (LDA). Nelineární metody redukce dimensionality (Sammonova projekce). (NI-PDD)¶

Projekce dat¶

Obecný vzorec pro lineární transformaci dat:

$Y_i = U^T X_i$

kde:

$Y_i$ je výsledný vektor v redukovaném prostoru (rozměr $k×1$ )
$X_i$ je původní vektor příznaků (rozměr $n×1$ )
$U$ je transformační matice (rozměr $k×n$ )
- $k$ je počet dimenzí v novém prostoru
- $n$ je počet dimenzí v původním prostoru

Důležité vlastnosti:

Transformace je lineární kombinací původních příznaků
Každý řádek matice $U$ představuje jeden nový příznak
PCA i LDA jsou speciální případy této obecné transformace, liší se způsobem výpočtu matice $U$

Aspekt	PCA	LDA	Sammonova projekce
Projekce	Lineární	Lineární	Nelineární
Cíl	Maximalizace zachované variance dat	Maximalizace separace mezi třídami	Zachování vzdáleností mezi body
Optimalizace	Rozptyl dat podél nových os	Poměr mezitřídního a vnitrotřídního rozptylu	Sammonův stress (rozdíl vzdáleností)

Účel: Redukce dimenzionality dat při zachování co největší možné variability. Používá se k odstranění redundance a nalezení nových os (hlavních komponent), které vysvětlují co nejvíce rozptylu v datech.
Vlastnosti:
- Transformuje data do nového souřadného systému.
- Hlavní komponenty jsou lineární kombinace původních příznaků.
- První komponenta má největší rozptyl, každá další má menší rozptyl a je nekorelovaná s předchozími.
- Nezohledňuje informace o třídách (není vhodná pro klasifikaci).
- Maximální počet vlastnic vektoru je $N$ kde $N$ je počet původních dimenzi prostoru řešení
Použití:
- Komprese dat (např. obrazů).
- Předzpracování dat pro strojové učení.
- Vizualizace dat ve 2D nebo 3D prostoru.

Standardizace dat: Pro každý příznak odečíst průměr a vydělit ho směrodatnou odchylkou, aby měly všechny příznaky stejnou váhu
Výpočet kovarianční matice: Z centrovaných dat vytvořit kovarianční matici, která vyjadřuje závislosti mezi příznaky
Vlastní čísla a vektory: Najít vlastní čísla a vlastní vektory kovarianční matice. Vlastní vektory určují nové osy (hlavní komponenty), vlastní čísla množství zachycené variance
Redukce dimenzí: Seřadit komponenty podle velikosti vlastních čísel a vybrat jen několik prvních. Projekcí vstupních dat na vybrané komponenty dojde ke snížení dimenzionality s minimální ztrátou informace

Účel: Redukce dimenzionality při maximalizaci separace mezi třídami. Hledá projekci dat, která nejlépe odděluje jednotlivé třídy.
Cíl optimalizace:
- Maximalizovat: Vzdálenost mezi středy tříd (mezitřídní rozptyl)
- Minimalizovat: Rozptyl bodů uvnitř každé třídy (vnitrotřídní rozptyl)
- Výsledkem je maximalizace poměru mezitřídního a vnitrotřídního rozptylu
Vlastnosti:
- Na rozdíl od PCA využívá informace o příslušnosti dat ke třídám
- Předpokládá normální rozdělení příznaků
- Předpokládá stejné kovarianční matice pro všechny třídy
- Vytváří lineární hranice mezi třídami
- Maximální počet vlastnic vektoru je $N-1$ kde $N$ je počet původních dimenzi prostoru řešení
Použití:
- Klasifikace dat (rozpoznávání obličejů, textová analýza)
- Redukce dimenzionality se zachováním diskriminačních informací
- Vizualizace separace tříd

Výpočet průměrů:
- Spočítat průměrný vektor pro každou třídu
- Spočítat celkový průměr všech dat
Výpočet rozptylových matic:
- Vnitrotřídní matice: Měří, jak moc jsou body rozptýleny uvnitř každé třídy (snažíme se minimalizovat)
- Mezitřídní matice: Měří, jak daleko jsou od sebe středy jednotlivých tříd (snažíme se maximalizovat)
Řešení eigen-problému:
- Výpočet vlastních vektorů matice
- Tyto vektory určují směry, ve kterých je poměr mezitřídního a vnitrotřídního rozptylu maximální
Projekce dat:
- Výběr vlastních vektorů s největšími vlastními čísly
- Projekce dat do nového prostoru s menší dimenzí
- V novém prostoru jsou třídy co nejlépe odděleny
Výsledek:
- Získáme transformační matici pro redukci dimenzionality
- Můžeme použít jako klasifikátor pro nová data

Účel: Nelineární redukce dimenzionality, která zachovává vzdálenosti mezi body z původního prostoru co nejvěrněji v prostoru s nižším počtem dimenzí. Často se používá pro vizualizaci dat.
Sammonův stress: Funkce chyby, která měří rozdíl mezi vzdálenostmi ve vysokodimenzionálním a nízkodimenzionálním prostoru, často vážený podle původních vzdáleností
Vlastnosti:
- Zachovává strukturu dat tím, že minimalizuje Sammonův stress.
- Je nelineární metodou, což znamená, že neprovádí pouhou lineární transformaci os.
- Výpočetně náročná, protože vyžaduje iterativní optimalizační metody.
Použití:
- Vizualizace dat ve 2D nebo 3D prostoru (např. pro explorativní analýzu).
- Analýza podobností mezi objekty na základě jejich vzdáleností.

Výpočet vzdáleností: Z originálního datového prostoru spočítat všechny párové Euklidovy (nebo jiné) vzdálenosti mezi body
Inicializace v nižším rozměru: Body v cílovém (typicky 2D) prostoru se buď náhodně rozmístí, nebo se použije např. PCA jako výchozí umístění
Iterativní minimalizace stressu: Typicky gradientní nebo jinou optimalizační metodou posouvat body v nízkodimenzionálním prostoru, dokud se Sammonův stress dále nezmenšuje
Výsledná mapa: Po skončení iterací získat rozmístění bodů, které co nejlépe zachovává strukturu vzdáleností z původního prostoru. Hodí se pro vizualizaci a explorativní analýzu.