Over-sampling #Under-sampling #Tomek-Links #Smote
Balancing metody
Neexistuje univerzální metoda
Čím vice se data prolínají tím horší je klasifikační výsledek
Experimentálně ověřeno Over-sampling je většinou lepší
Existují dvě hlavni skupiny
Over-sampling
Random over-sampling
Smote
Under-sampling
Random under-sampling
Tomek links
Condensed Nearest Neighbor Rule
Smote + Tomek links
One-sided selection
Neighborhood Cleaning Rule
Random over-sampling
Náhodná replikace minoritní skupiny
Může nastat overfitting
Random under-samping
Náhodná eliminace majoritní skupiny
Může vymazat potencionálně užitečné data
Tomek links
Pomáhá odstranit šum a hraniční prvky
Najdeme Tomkovy spoje, a odebereme všechny majoritní prvky, které jsou součástí Tomkových spojů
Tomkovým spojem nazýváme pár prvků
Které patří do různých tříd
Tomkový spoj musí platit, že neexistuje, žádné E_k , pro které by platilo d(E_i, E_k) < d(E_i, E_j) nebo d(E_j, E_k) < d(E_i, E_j)
d(E_i, E_j) je oznacena vzdálenost mezi E_i a E_j
Metoda sama o sobě není moc účinná, ale v kombinaci s jinými se používá často
One-sided selection
Je vlastně kombinace Tomek links a CNN
Neighborhood Cleaning Rule
Odebírá prvky majoritní třídy
Najde 3 nejbližší sousedy pro prvek z majoritní třídy, pokud většina z nich jsou prvky z minoritní třídy, odeber prvek
Pokud prvek patří do minoritní třídy a většina z 3 nejbližších sousedů jsou prvky z majoritní třídy, odeber tyto 3 prvky
Condensed Nearest Neighbor Rule (CNN rule)
Slouží k výběru bodů, které jsou na pomezí tříd
Postupně se vybírají body jeden za druhým, po přidání každého bodu se pokusí klasifikovat všechny ostatní (za pomocí vytvoření jakési hranice)...takto se pokračuje v přidávání dokud nevznikne podmnožina, díky níž jsme schopni klasifikovat všechny prvky správně
Iterativní metoda, která 100 % odděluje data jednotlivých tříd
Citlivý na šum, takové prvky jsou často klasifikovány špatně
Vytváří různé hranice v závislosti na pořadí
Smote
Vytváří nové prvky minoritní třídy
Generuje body na spojnici k náhodnému z k nejbližších sousedů
Nepotřebuje znát rozdělení prvků
Extended Nearest Neighbor (ENN)
Podobné k Neighborhood Cleaning Rule
Najde 3 nejbližší sousedy, pokud 2 z těchto sousedu jsou jiné třídy odebere daný prvek
Vymaže víc prvku než Tomek Links