Feature-extraction-from-text #NLP¶

Feature extraction from text¶

Indexing
Weighting model tf
- Term Frequency weighting
- $w_{ij} = Freq_{ij}$
- $Freq_{ij}:$ Počítá kolikrát se term vyskytuje v dokumentu $D_i$
- Nevýhoda
  - Nezachycuje důležitost dokumentu
Weighting Model tf x idf
- Inverse Document Frequency weighting
- $w_{ij} = Freq_{ij} * log(N / DocFreq_j )$
- $N:$ Počet dokumentu v trénovací sade
- $DocFreq_j:$ Počet dokumentu ve kterých se vyskytuje $j$ term
- Výhoda
  - Odrazi faktor důležitosti pro diskriminaci dokumentů
Dimension Reduction
- Běžně se stanovuje threshold pro document frekvenci na jehož základě jsou vyřazena některá slova (tuctová, která se stávají významově stopwords)
- Podobnosti se stanovují cosinovou vzdáleností

K tokenům se přiřazuje jeho slovní druh ve větě (podstatné jméno, příd. jméno, sloveso atd.)
Nemožné nastavit manuálně
Dělá se pomocí metod založených na machine learningu pomocí tzv. POS taggerů
Závisí na jazyku