A bináris , bináris vagy dichotóm osztályozás az a feladat , hogy egy adott halmaz elemeit két csoportba soroljuk (megjósoljuk, hogy a halmaz egyes elemei melyik csoportba tartoznak) az osztályozási szabály alapján . Azok a kontextusok , amelyekben el kell dönteni, hogy egy objektumnak van-e valamilyen minőségi , bizonyos sajátosságai vagy valamilyen tipikus bináris besorolása:
A bináris osztályozás gyakorlati célokra alkalmazott dichotomizáció . A bináris osztályozás sok gyakorlati problémájában a két csoport nem szimmetrikus – az általános pontosság helyett a hibatípusok relatív aránya a fontos . Például a laboratóriumi vizsgálatok során az álpozitív (valójában nem létező betegség kimutatása) megkülönböztethetőnek tekinthető az álnegatívtól (nem a beteg tényleges betegségének kimutatása).
A statisztikai osztályozás a gépi tanulásban tanulmányozott feladat . Ez a felügyelt tanulás egy típusa , egy olyan gépi tanulási módszer, amelyben a kategóriákat előre meghatározzák, és egy új valószínűségi megfigyelés kategóriájának kiválasztására használják. Ha csak két kategória van, a problémát statisztikai bináris osztályozásnak nevezzük.
A bináris osztályozáshoz gyakran használt módszerek a következők:
Minden osztályozó csak egy kiválasztott területen teljesít a legjobban, a megfigyelések száma, a jellemzővektor dimenziója , az adatok zaja és sok más tényező alapján. Például a véletlenszerű erdőosztályozók jobban teljesítenek, mint a 3D pontfelhők támogató vektorgépei [1] [2] .
Számos mérőszám használható egy osztályozó vagy előrejelző teljesítményének mérésére. A különböző mezők különböző célokból eltérő előnyökkel járnak bizonyos metrikákhoz. Például az érzékenységet és a specificitást gyakran használják az orvostudományban , míg információkeresésben a precizitást és a felidézést részesítik előnyben . Fontos különbség a mérőszámok között, hogy független a prevalenciától (milyen gyakran fordulnak elő az egyes kategóriák a populációban), vagy függő, és mindkét típus hasznos, de nagyon eltérő tulajdonságokkal rendelkeznek.
Egy adatkészlet besorolása alapján négy alapvető kombinációja van egy érvényes kategóriának és egy hozzárendelt kategóriának:
Elhelyezhetők egy kontingenciatáblázatban , ahol a tényleges értékeknek megfelelő oszlopok - feltételesen pozitívak ( angol. feltétel pozitív , CP) vagy feltételesen negatívak ( angol. feltétel negatív , CN), valamint az osztályozási értékeknek megfelelő sorok - a teszt az eredmény pozitív vagy negatív. A táblázatból nyolc alaparány számítható ki, amelyek négy komplementer párba esnek (minden pár összege 1). Ezeket úgy kapjuk meg, hogy a négy szám mindegyikét elosztjuk a sorok vagy oszlopok összegével, így nyolc számot kapunk, amelyeket „igazi pozitívak sorának” vagy „hamis negatívok oszlopának” nevezhetünk, bár vannak gyakran használt kifejezések. Két pár oszloparány és két pár sorarány is létezik, és ezekből négyet kaphat, ha mindegyik párból választ egy arányt, a másik négy szám pedig ezek kiegészítése.
A megosztás oszlop tartalmazza a valódi pozitívak arányát ( eng. True Positive Rate , TPR, más néven érzékenység vagy visszahívás , a kiegészítés a hamis negatív eredmények aránya , eng. False Negative Rate , FNR) és a a valódi negatív eredmények aránya ( eng. True Negative Rate , TNR, más néven specificitás , ( eng. Specificity , SPC, komplement - a fals pozitívok aránya , eng. False Positive Rate , FPR) A populációval arányosak olyan állapottal (illetve feltétel nélkül), amelyre a teszt igaz (vagy hamis a teszt), és nem függenek a prevalenciától.
A törtsor a pozitív prediktív érték ( Positive Predictive Value , PPV, más néven pontosság , a komplement a hamis elutasítások aránya , False Discovery Rate , FDR) és a negatív prediktív érték ( engl . ... Negatív prediktív érték , NPV, összeadás - a téves passzok aránya, eng. False Omission Rate , FOR). Ezek arányosak az adott igaz teszteredménnyel (vagy hamis eredménnyel) rendelkező populációval, és a prevalenciától függenek.
A laboratóriumi vizsgálatok során a fő arányszámok a valódi arány oszlop – a valódi pozitívak és a valódi negatívok aránya –, ahol ezeket érzékenységnek és specificitásnak nevezik . Az információk kinyerésekor a fő összefüggések a valódi pozitív arány (sor és oszlop) - a negatív prediktív érték és a valódi pozitív arány -, ahol ezeket pontosságnak és visszahívásnak nevezik .
Lehetőség van komplementer aránypárok arányára, amely négy valószínűségi arányt ad (az arányoszlop két értéke, az aránysor két értéke). Ez elsősorban az oszloparányokra vonatkozik, amelyek valószínűségi arányokat adnak meg a labortesztekben . Az egyik csoportban az arányt figyelembe véve megkapjuk a végső diagnosztikai teszt esélyhányadosát ( Diagnostic Odds Ratio , DOR) . Ez az érték közvetlenül is definiálható: . Ennek hasznos értelmezése van esélyhányadosként , és független a prevalenciától.
Számos más mérőszám is létezik, amelyek közül a legegyszerűbb a Törthelyes ( FC), amely a helyesen besorolt esetek arányát méri . Ennek az értéknek az 1-hez való hozzáadása a helytelen aránya ( English Fraction Incorrect , FiC). Az F-mérték egy számban egyesíti a pontosságot és a visszahívást egy súly kiválasztásával, amely a legegyszerűbb esetben megegyezik a kiegyensúlyozott F-mérték súlyával ( F1 intézkedés ). Egyes mérőszámok a regressziós együtthatók - jelölt és informatív -ből és azok geometriai átlagából , a Matthews-korrelációs együtthatóból származnak . További mérőszámok közé tartozik a Youden-féle J statisztika , a bizonytalansági együttható , a Phi-együttható és a Cohen-kappa.
Azok a vizsgálatok, amelyek eredménye folyamatos értékek, mint például a legtöbb vérvizsgálati érték , mesterségesen binárissá tehető egy határérték meghatározásával . A teszt eredménye pozitív vagy negatív , a kapott és a határértékek összehasonlításának eredményétől függően.
Ez az átalakítás azonban információvesztést eredményez, mivel a bináris osztályozás eredménye nem jelzi , mennyivel magasabbak vagy alacsonyabbak a határértékek. A határértékhez közeli folytonos érték konvertálásakor a kapott pozitív vagy negatív prediktív érték általában magasabb, mint a folytonos értékből közvetlenül kapott prediktív Ilyen esetekben a pozitív vagy negatív teszteredmény elfogadhatatlanul nagy bizonyosságot ad, miközben maga az érték valójában a bizonytalanság tartományába esik. Például a humán chorion gonadotropin (hCG) koncentrációja a vizeletben folyamatos értékű. Az 50 mIU / ml határértékkel végzett vizelet terhességi teszt 52 mIU / ml valódi hCG koncentrációval „pozitív eredményt” mutathat. Másrészt a határértéktől távol eső teszteredmény általában pozitív vagy negatív prediktív értékkel rendelkezik, amely kisebb, mint a folytonos értékből kapott prediktív érték. Például a 200 000 mIU/ml-es hCG-érték nagyon magas fokú terhességet jelez, de a bináris eredményekre való átszámítás csak 52 mIU/ml-nél "pozitív" teszteredményt ad.
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|