Diskretizace #Binning #Falesne-prediktory #Transformace-dat #Vyvazovani-skupin¶
Diskretizace (Binning)¶
Snaha o diskretizaci spojitých hodnot - aka rozdělení do “binů” a tím ze spojitého příznaku udělat diskrétní. Samozřejmě s cílem zachovat (nebo i zlepšit) vliv příznaku na Y
Equal-width¶
- Rozdělení hodnot do N stejně velkých intervalů
- Pokud A a B jsou nejmenší resp. největší hodnota, pak šířka vzniklých intervalů bude W = \dfrac{(B-A)}{N}
- Odlehlé hodnoty (outliers) mohou dost rozbít tuto myšlenku
- Je možné ji využít pro sestavení histogramu diskretizované veličiny

Equal-depth¶
- Rozdělení prvků do N intervalů tak, aby v každém intervalu byl stejný počet prvků
- Preferovanější metoda diskretizace, dává často lepší výsledky
- Dokáže se přirozeně vypořádat s odlehlými hodnotami
- Většinou se používá "skoro equal" aby se zamezilo clumpingu a vytváření vice intuitivních breakpointu

Odlehlé hodnoty (Outliers)¶
- Hodnoty, které jsou mimo očekávaný rozsah daného příznaku
- Důvodem může být chyba, anomálie měření, …
- Způsoby řešení
- Neřešit
- Definovat horní a dolní hranici hodnot, kterých příznak může nabývat
- Použít binningu
- Použít cluster analýzu
- K-means
- Hierarchical clustering
Cluster analysis¶


Falešné prediktory¶
To jsou proměné které popisují stav který jsme na začátku nemohly vědět. Falešný prediktor studentovi šance k projití kurzu je jeho konečná známka. Protože konečnou známku jsme nemohly vědět na začátku.
Transformace dat¶
- Smoothing - odstranění šumu z dat
- Normalizace - přeškálování hodnot, aby spadaly do menšího intervalu
- min-max
- z-score
- softmax
- normalization by decimal scaling
- Vytvoření nových příznaků na základě těch současných