Skip to content

Over-sampling #Under-sampling #Tomek-Links #Smote

Balancing metody

  • Neexistuje univerzální metoda
  • Čím vice se data prolínají tím horší je klasifikační výsledek
  • Experimentálně ověřeno Over-sampling je většinou lepší Existují dvě hlavni skupiny
  • Over-sampling
    • Random over-sampling
    • Smote
  • Under-sampling
    • Random under-sampling
    • Tomek links
    • Condensed Nearest Neighbor Rule
    • Smote + Tomek links
    • One-sided selection
    • Neighborhood Cleaning Rule

Random over-sampling

  • Náhodná replikace minoritní skupiny
  • Může nastat overfitting

Random under-samping

  • Náhodná eliminace majoritní skupiny
  • Může vymazat potencionálně užitečné data
  • Pomáhá odstranit šum a hraniční prvky
  • Najdeme Tomkovy spoje, a odebereme všechny majoritní prvky, které jsou součástí Tomkových spojů
  • Tomkovým spojem nazýváme pár prvků
    • Které patří do různých tříd
    • Tomkový spoj musí platit, že neexistuje, žádné E_k, pro které by platilo d(E_i, E_k) < d(E_i, E_j) nebo d(E_j, E_k) < d(E_i, E_j)
      • d(E_i, E_j) je oznacena vzdálenost mezi E_i a E_j
  • Metoda sama o sobě není moc účinná, ale v kombinaci s jinými se používá často tomek-link.png

One-sided selection

  • Je vlastně kombinace Tomek links a CNN one-sided-selection.png

Neighborhood Cleaning Rule

  • Odebírá prvky majoritní třídy
  • Najde 3 nejbližší sousedy pro prvek z majoritní třídy, pokud většina z nich jsou prvky z minoritní třídy, odeber prvek
  • Pokud prvek patří do minoritní třídy a většina z 3 nejbližších sousedů jsou prvky z majoritní třídy, odeber tyto 3 prvky

Condensed Nearest Neighbor Rule (CNN rule)

  • Slouží k výběru bodů, které jsou na pomezí tříd
    • Postupně se vybírají body jeden za druhým, po přidání každého bodu se pokusí klasifikovat všechny ostatní (za pomocí vytvoření jakési hranice)...takto se pokračuje v přidávání dokud nevznikne podmnožina, díky níž jsme schopni klasifikovat všechny prvky správně
  • Iterativní metoda, která 100 % odděluje data jednotlivých tříd
  • Citlivý na šum, takové prvky jsou často klasifikovány špatně
  • Vytváří různé hranice v závislosti na pořadí

Smote

  • Vytváří nové prvky minoritní třídy
  • Generuje body na spojnici k náhodnému z k nejbližších sousedů
  • Nepotřebuje znát rozdělení prvků

Extended Nearest Neighbor (ENN)

  • Podobné k Neighborhood Cleaning Rule
  • Najde 3 nejbližší sousedy, pokud 2 z těchto sousedu jsou jiné třídy odebere daný prvek
  • Vymaže víc prvku než Tomek Links