Bináris osztályozás

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2020. augusztus 3-án felülvizsgált verziótól ; az ellenőrzéshez 1 szerkesztés szükséges .

A bináris , bináris vagy dichotóm osztályozás az a feladat , hogy egy adott halmaz elemeit két csoportba soroljuk (megjósoljuk, hogy a halmaz egyes elemei melyik csoportba tartoznak) az osztályozási szabály alapján . Azok a kontextusok , amelyekben el kell dönteni, hogy egy objektumnak van-e valamilyen minőségi , bizonyos sajátosságai vagy valamilyen tipikus bináris besorolása:

Laboratóriumi diagnózis annak meghatározására, hogy a betegnek van- e konkrét betegsége - az osztályozási tulajdonság a betegség jelenléte.
„Megfelelt/nem” tesztelési módszer vagy műszaki ellenőrzés a gyárakban, pl. döntés, hogy a specifikációk teljesülnek-e vagy sem - minősítés passzol/nem .
Információkeresés , nevezetesen annak eldöntése, hogy egy oldal vagy cikk szerepeljen- keresési eredményhalmazban – az osztályozási tulajdonság a cikk jelentősége vagy hasznossága a felhasználó számára.

A bináris osztályozás gyakorlati célokra alkalmazott dichotomizáció . A bináris osztályozás sok gyakorlati problémájában a két csoport nem szimmetrikus – az általános pontosság helyett a hibatípusok relatív aránya a fontos . Például a laboratóriumi vizsgálatok során az álpozitív (valójában nem létező betegség kimutatása) megkülönböztethetőnek tekinthető az álnegatívtól (nem a beteg tényleges betegségének kimutatása).

Statisztikai bináris osztályozás

A statisztikai osztályozás a gépi tanulásban tanulmányozott feladat . Ez a felügyelt tanulás egy típusa , egy olyan gépi tanulási módszer, amelyben a kategóriákat előre meghatározzák, és egy új valószínűségi megfigyelés kategóriájának kiválasztására használják. Ha csak két kategória van, a problémát statisztikai bináris osztályozásnak nevezzük.

A bináris osztályozáshoz gyakran használt módszerek a következők:

Minden osztályozó csak egy kiválasztott területen teljesít a legjobban, a megfigyelések száma, a jellemzővektor dimenziója , az adatok zaja és sok más tényező alapján. Például a véletlenszerű erdőosztályozók jobban teljesítenek, mint a 3D pontfelhők támogató vektorgépei [1] [2] .

Bináris osztályozási pontszám

Számos mérőszám használható egy osztályozó vagy előrejelző teljesítményének mérésére. A különböző mezők különböző célokból eltérő előnyökkel járnak bizonyos metrikákhoz. Például az érzékenységet és a specificitást gyakran használják az orvostudományban , míg információkeresésben a precizitást és a felidézést részesítik előnyben . Fontos különbség a mérőszámok között, hogy független a prevalenciától (milyen gyakran fordulnak elő az egyes kategóriák a populációban), vagy függő, és mindkét típus hasznos, de nagyon eltérő tulajdonságokkal rendelkeznek.

Egy adatkészlet besorolása alapján négy alapvető kombinációja van egy érvényes kategóriának és egy hozzárendelt kategóriának:

helyesen hozzárendelt pozitív osztályozások TP
helyesen hozzárendelt negatív osztályozások TN
tévesen hozzárendelt pozitív minősítések FP
tévesen hozzárendelt negatív minősítések FN

Elhelyezhetők egy kontingenciatáblázatban , ahol a tényleges értékeknek megfelelő oszlopok - feltételesen pozitívak ( angol. feltétel pozitív , CP) vagy feltételesen negatívak ( angol. feltétel negatív , CN), valamint az osztályozási értékeknek megfelelő sorok - a teszt az eredmény pozitív vagy negatív. A táblázatból nyolc alaparány számítható ki, amelyek négy komplementer párba esnek (minden pár összege 1). Ezeket úgy kapjuk meg, hogy a négy szám mindegyikét elosztjuk a sorok vagy oszlopok összegével, így nyolc számot kapunk, amelyeket „igazi pozitívak sorának” vagy „hamis negatívok oszlopának” nevezhetünk, bár vannak gyakran használt kifejezések. Két pár oszloparány és két pár sorarány is létezik, és ezekből négyet kaphat, ha mindegyik párból választ egy arányt, a másik négy szám pedig ezek kiegészítése. $2\times 2$

A megosztás oszlop tartalmazza a valódi pozitívak arányát ( eng. True Positive Rate , TPR, más néven érzékenység vagy visszahívás , a kiegészítés a hamis negatív eredmények aránya , eng. False Negative Rate , FNR) és a a valódi negatív eredmények aránya ( eng. True Negative Rate , TNR, más néven specificitás , ( eng. Specificity , SPC, komplement - a fals pozitívok aránya , eng. False Positive Rate , FPR) A populációval arányosak olyan állapottal (illetve feltétel nélkül), amelyre a teszt igaz (vagy hamis a teszt), és nem függenek a prevalenciától.

A törtsor a pozitív prediktív érték ( Positive Predictive Value , PPV, más néven pontosság , a komplement a hamis elutasítások aránya , False Discovery Rate , FDR) és a negatív prediktív érték ( engl . ... Negatív prediktív érték , NPV, összeadás - a téves passzok aránya, eng. False Omission Rate , FOR). Ezek arányosak az adott igaz teszteredménnyel (vagy hamis eredménnyel) rendelkező populációval, és a prevalenciától függenek.

A laboratóriumi vizsgálatok során a fő arányszámok a valódi arány oszlop – a valódi pozitívak és a valódi negatívok aránya –, ahol ezeket érzékenységnek és specificitásnak nevezik . Az információk kinyerésekor a fő összefüggések a valódi pozitív arány (sor és oszlop) - a negatív prediktív érték és a valódi pozitív arány -, ahol ezeket pontosságnak és visszahívásnak nevezik .

Lehetőség van komplementer aránypárok arányára, amely négy valószínűségi arányt ad (az arányoszlop két értéke, az aránysor két értéke). Ez elsősorban az oszloparányokra vonatkozik, amelyek valószínűségi arányokat adnak meg a labortesztekben . Az egyik csoportban az arányt figyelembe véve megkapjuk a végső diagnosztikai teszt esélyhányadosát ( Diagnostic Odds Ratio , DOR) . Ez az érték közvetlenül is definiálható: . Ennek hasznos értelmezése van esélyhányadosként , és független a prevalenciától. $(TP\times TN)/(FP\times FN)=(TP/FN)/(FP/TN)$

Számos más mérőszám is létezik, amelyek közül a legegyszerűbb a Törthelyes ( FC), amely a helyesen besorolt esetek arányát méri . Ennek az értéknek az 1-hez való hozzáadása a helytelen aránya ( English Fraction Incorrect , FiC). Az F-mérték egy számban egyesíti a pontosságot és a visszahívást egy súly kiválasztásával, amely a legegyszerűbb esetben megegyezik a kiegyensúlyozott F-mérték súlyával ( F1 intézkedés ). Egyes mérőszámok a regressziós együtthatók - jelölt és informatív -ből és azok geometriai átlagából , a Matthews-korrelációs együtthatóból származnak . További mérőszámok közé tartozik a Youden-féle J statisztika , a bizonytalansági együttható , a Phi-együttható és a Cohen-kappa.

Folyamatos értékek konvertálása binárissá

Azok a vizsgálatok, amelyek eredménye folyamatos értékek, mint például a legtöbb vérvizsgálati érték , mesterségesen binárissá tehető egy határérték meghatározásával . A teszt eredménye pozitív vagy negatív , a kapott és a határértékek összehasonlításának eredményétől függően.

Ez az átalakítás azonban információvesztést eredményez, mivel a bináris osztályozás eredménye nem jelzi , mennyivel magasabbak vagy alacsonyabbak a határértékek. A határértékhez közeli folytonos érték konvertálásakor a kapott pozitív vagy negatív prediktív érték általában magasabb, mint a folytonos értékből közvetlenül kapott prediktív Ilyen esetekben a pozitív vagy negatív teszteredmény elfogadhatatlanul nagy bizonyosságot ad, miközben maga az érték valójában a bizonytalanság tartományába esik. Például a humán chorion gonadotropin (hCG) koncentrációja a vizeletben folyamatos értékű. Az 50 mIU / ml határértékkel végzett vizelet terhességi teszt 52 mIU / ml valódi hCG koncentrációval „pozitív eredményt” mutathat. Másrészt a határértéktől távol eső teszteredmény általában pozitív vagy negatív prediktív értékkel rendelkezik, amely kisebb, mint a folytonos értékből kapott prediktív érték. Például a 200 000 mIU/ml-es hCG-érték nagyon magas fokú terhességet jelez, de a bináris eredményekre való átszámítás csak 52 mIU/ml-nél "pozitív" teszteredményt ad.

Lásd még

Osztályozási szabály
Jelérzékelési elmélet
nukleáris módszer
Többosztályos besorolás
Többértékű osztályozás
Egy osztályos besorolás
Az ügyész téveszméje
ROC görbe
Küszöb szűrés
Bizonytalansági tényező , más néven megfelelőség
Minőségi tulajdonság

Irodalom

Richard Zhang, Avideh Zakhor. Ablakterületek automatikus azonosítása beltéri pontfelhőkön LiDAR és kamerák segítségével // VIP Lab kiadványok. — 2014.
Y. Lu, C. Rasmussen. Egyszerűsített Markov véletlen mezők a 3D pontfelhők hatékony szemantikai címkézéséhez // IROS. — 2012.

Nello Cristianini, John Shawe-Taylor. Bevezetés a vektorgépek és más kernel-alapú tanulási módszerek támogatásába . - Cambridge University Press, 2000. - ISBN 0-521-78019-5 . '
John Shawe-Taylor, Nello Cristianini. Kernel módszerei mintaelemzéshez . - Cambridge University Press, 2004. - ISBN 0-521-81397-2 .
Bernhard Scholkopf, AJ Smola. Tanulás kernelekkel. - Massachusetts: MIT Press, Cambridge, 2002. - ISBN 0-262-19475-9 .

Gépi tanulás és adatbányászat
Feladatok	Osztályozási probléma Tanulás tanár nélkül Tanár által segített tanulás Regresszió analízis AutoML Egyesületi szabályzat Funkció kivonás Tulajdonságok képzése Rangsorképzés Nyelvtani levezetés Online tanulás
Tanulás tanárral	k-legközelebbi szomszéd módszer Naiv Bayes osztályozó döntési fa Támogatja a vektoros gépet Lineáris regresszió Logisztikus regresszió perceptron Modellek együttesei Zsákolás fellendítése véletlenszerű erdő Releváns vektoros módszer
klaszteranalízis	k-közép módszer Fuzzy klaszterezési módszer Hierarchikus klaszterezés EM algoritmus NYÍR GYÓGYMÓD DBSCAN OPTIKA Átlageltolás
Dimenziócsökkentés	Faktoranalízis Főkomponens módszer CCA ICA LDA Nem negatív mátrix kiterjesztése t-SNE
Strukturális előrejelzés	Grafikon valószínűségi modell Bayesi hálózat Rejtett Markov-modell CRF
Anomália észlelése	k-legközelebbi szomszéd módszer Helyi kibocsátási szint
Grafikon valószínűségi modellek	Bayesi hálózat Markov hálózat Rejtett Markov-modell
Neurális hálózatok	Limitált Boltzmann gép önszerveződő térkép Aktiválási funkció Szigma alakú softmax Radiális bázisfüggvény Hátsó szaporítási módszer Mély tanulás Többrétegű perceptron Ismétlődő neurális hálózat hosszú távú rövid távú memória Ellenőrzött visszatérő blokk Konvolúciós Neurális Hálózat U-Net Autoencoder
Megerősítő tanulás	Markov folyamat Bellman egyenlet Mohó algoritmus Q-learning SARSA Időbeli különbség (TD)
Elmélet	Vapnik-Chervonenkis elmélet Elfogultság-diszperziós dilemma Számítógépes tanuláselmélet Empirikus kockázatminimalizálás Occam tanul PAC tanulás Statisztikai tanuláselmélet
Folyóiratok és konferenciák	NeurIPS ICML ML JMLR ArXiv:cs.LG