Skip to content

KDDM #CRISP-DM #PMML

KDDM - Knowledge Discovery and Data Mining

Skládá se z několika kroků, technik, které mají za cíl přidat řád a přehlednost do dat Existuji několik modelu které implementuji KDDM jeden příklad je CRISP-DM.

DIKW model

  1. Data - základní stavební kámen, bez kontextu, vztahů apod.
  2. Information - přináší vztahy mezi daty, případně jiné informace
  3. Knowledge - přináší vzory, které se v datech objevují, je třeba jim porozumět
  4. Wisdom - umění rozpoznat znalosti, které přinášejí vzory

Process modely

  • human-centric model - Klade důraz na interaktivní zapojení datového analytika během procesu
  • data-centric model - Klade důraz na iterativní a interaktivní charakter úloh analýzy dat

CRISP-DM - Cross-Industry Standard Process for Data modeling

Je jeden z KDDM procesních modelu. Skalda se z 6 kroku: 1. Business Understanding - Porozumění doméně, business cílům, požadavkům a smyslu projektu, dostupné prostředky, překážky apod. - Vytvoření projektového planu 2. Data Understanding - Získaní dat - Prozkoumání, seznámení se s daty, zorientování se - Zjištěni kvality dat 3. Data Preparation - většinou zabere kolem 70 % času - Výběr dat - Čistění dat - Konstrukce dat - Derivace atributu, transformace dat pro tvorbu nových atributu atd. - Integrace dat - Spojeni vice dat z několika sloupců pro vytvoření nových dat - Formátovaní dat 4. Modeling - Výběr vhodného modelu (predikčního) - Testování kvality modelu, ladění parametrů 5. Evaluation - Zhodnocení, jak dobře si natrénovaný model vede na testovacích datech - Zhodnocení výsledků v porovnání s business kritérii - Review celého procesu, kontrola - Určení další možnosti rozvoje pro systém 6. Deployment - Naplánovaní deployment, monitoring a údržbu - Vytvoření finálního reportu

PMML - Predictive Model Markup Language

Format pro ukládaní dat a metadat která obsahuji doménovou znalost Umožňuje práci s daty včetně jejich vztahům napříč různými systémy/programy Je ve formátu XML