Skip to content

Diskretizace #Binning #Falesne-prediktory #Transformace-dat #Vyvazovani-skupin

Diskretizace (Binning)

Snaha o diskretizaci spojitých hodnot - aka rozdělení do “binů” a tím ze spojitého příznaku udělat diskrétní. Samozřejmě s cílem zachovat (nebo i zlepšit) vliv příznaku na Y

Equal-width

  • Rozdělení hodnot do N stejně velkých intervalů
  • Pokud A a B jsou nejmenší resp. největší hodnota, pak šířka vzniklých intervalů bude W = \dfrac{(B-A)}{N}
  • Odlehlé hodnoty (outliers) mohou dost rozbít tuto myšlenku
  • Je možné ji využít pro sestavení histogramu diskretizované veličiny equal-width-binning.png

Equal-depth

  • Rozdělení prvků do N intervalů tak, aby v každém intervalu byl stejný počet prvků
  • Preferovanější metoda diskretizace, dává často lepší výsledky
  • Dokáže se přirozeně vypořádat s odlehlými hodnotami
  • Většinou se používá "skoro equal" aby se zamezilo clumpingu a vytváření vice intuitivních breakpointu equal-depth-binning.png

Odlehlé hodnoty (Outliers)

  • Hodnoty, které jsou mimo očekávaný rozsah daného příznaku
    • Důvodem může být chyba, anomálie měření, …
  • Způsoby řešení
    • Neřešit
    • Definovat horní a dolní hranici hodnot, kterých příznak může nabývat
    • Použít binningu
    • Použít cluster analýzu
      • K-means
      • Hierarchical clustering

Cluster analysis

k-means-cluster-analysis.png

hierarchical-clustering-cluster-analysis.png

Falešné prediktory

To jsou proměné které popisují stav který jsme na začátku nemohly vědět. Falešný prediktor studentovi šance k projití kurzu je jeho konečná známka. Protože konečnou známku jsme nemohly vědět na začátku.

Transformace dat

  • Smoothing - odstranění šumu z dat
  • Normalizace - přeškálování hodnot, aby spadaly do menšího intervalu
    • min-max
    • z-score
    • softmax
    • normalization by decimal scaling
  • Vytvoření nových příznaků na základě těch současných