Skip to content

Data-preprocesing

  • reálná data obsahují mnoho šumu, nekonzistence, jsou nekompletní, nevybalancovaná, neplatná,...
  • bez dobrých dat není dobrého výsledku
  • prvním krokem je převedení ‘syrových’ dat do řádků a sloupců a správných datových typů.
  • provádí se kontrola validity dat - např. že hodnota města souhlasí s hodnotou PSČ
  • cílem není odstranit všechny individuální chyby, cílem je odhalit pattern chyby (která se objevuje často, nebo se i potencionálně může objevit) a tu odstranit
  • také se kontroluje rozsah spojitých hodnot proměnných, případně je zdiskretizujeme
    • Například měsíce mohou byt v rozsahu 1-12
  • datový formát je také třeba správně naformátovat - v ČR se používá datový formát 1998-06-25, 8. 10. 2008
    • KSP -> reálné číslo, které je součtem daného roku a poměrové části uběhnutých dnů od počátku daného roku
  • pro některé modely je vhodné převést nominální hodnoty do numerické podoby
    • v případě seřazených hodnot (např. známek) je obtížně je automatizovaně převést na numerické
    • pokud nominální hodnoty nabývají menšího počtu různých hodnot je často vhodné použít one-hot encoding (jeden sloupec je nahrazen n dummy sloupci s hodnotami 0 a 1)
  • field selection = odebrání příznaků s žádnou, nebo malou rozlišností v hodnotách (všude jsou 1 apod.)
  • vyřazení tzv. false predictors - hodnoty, které jsou relevantní pro řádek, ale zjevně nastaly až po události, kterou se snažíme predikovat
    • např. snažíme se predikovat pst, že student projde předmětem a máme k dispozici příznak se závěrečnou známkou studenta
    • tyto příznaky se dají odhalit (ve většině případů automatizovaně), stačí zkusit postavit rozhodovací strom, který bude zakládat predikce pouze na tomto jednom příznaku
  • Chybějící nebo prázdné hodnoty nelze obecně rozhodnout o tom, zda hodnota chybí, nebo je prázdná
    • chybějící data mohou nabývat různých podob (null, 0, ‘ ‘, NA, …)
    • možnosti doplnění chybějících dat:
      • Median
      • Průměr,
      • 0
      • Nearest neighbor