reálná data obsahují mnoho šumu, nekonzistence, jsou nekompletní, nevybalancovaná, neplatná,...
bez dobrých dat není dobrého výsledku
prvním krokem je převedení ‘syrových’ dat do řádků a sloupců a správných datových typů.
provádí se kontrola validity dat - např. že hodnota města souhlasí s hodnotou PSČ
cílem není odstranit všechny individuální chyby, cílem je odhalit pattern chyby (která se objevuje často, nebo se i potencionálně může objevit) a tu odstranit
také se kontroluje rozsah spojitých hodnot proměnných, případně je zdiskretizujeme
Například měsíce mohou byt v rozsahu 1-12
datový formát je také třeba správně naformátovat - v ČR se používá datový formát 1998-06-25, 8. 10. 2008
KSP -> reálné číslo, které je součtem daného roku a poměrové části uběhnutých dnů od počátku daného roku
pro některé modely je vhodné převést nominální hodnoty do numerické podoby
v případě seřazených hodnot (např. známek) je obtížně je automatizovaně převést na numerické
pokud nominální hodnoty nabývají menšího počtu různých hodnot je často vhodné použít one-hot encoding (jeden sloupec je nahrazen n dummy sloupci s hodnotami 0 a 1)
field selection = odebrání příznaků s žádnou, nebo malou rozlišností v hodnotách (všude jsou 1 apod.)
vyřazení tzv. false predictors - hodnoty, které jsou relevantní pro řádek, ale zjevně nastaly až po události, kterou se snažíme predikovat
např. snažíme se predikovat pst, že student projde předmětem a máme k dispozici příznak se závěrečnou známkou studenta
tyto příznaky se dají odhalit (ve většině případů automatizovaně), stačí zkusit postavit rozhodovací strom, který bude zakládat predikce pouze na tomto jednom příznaku
Chybějící nebo prázdné hodnoty nelze obecně rozhodnout o tom, zda hodnota chybí, nebo je prázdná
chybějící data mohou nabývat různých podob (null, 0, ‘ ‘, NA, …)