A lineáris diszkriminanciaanalízis ( LDA , eng. Linear Discriminant Analysis , LDA ), a normál diszkriminanciaanalízis ( eng. Normal Discriminant Analysis , NDA) vagy a diszkriminancia-elemzés ( eng. Discriminant Function Analysis ) a Fisher-féle lineáris diszkriminancia , egy módszer általánosítása. statisztika , mintafelismerés és oktatógépek a funkciók lineáris kombinációjának megtalálásához , amely két vagy több osztályt vagy eseményt ír le vagy választ el egymástól. Az eredményül kapott kombináció használható lineáris osztályozóként , vagy gyakrabban az osztályozás előtti méretcsökkentésre .
Az LDA szorosan kapcsolódik a varianciaanalízishez ( analysis Of Variance =ANOVA) és a regressziós elemzéshez , amelyek egy függő változót is megpróbálnak kifejezni más jellemzők vagy mérések lineáris kombinációjaként [1] [2] . A varianciaanalízis azonban kvalitatív független változókat és folytonos függő változót használ , míg a diszkriminanciaanalízis folyamatos független változókat és egy minőségi függő változót ( azaz osztálycímkét) [3] . A logisztikus regresszió és a probit regresszió jobban hasonlít az LDA-hoz, mint a varianciaanalízishez, mivel egy minőségi változót is magyaráznak folytonos magyarázó változók formájában. Ezeket az egyéb módszereket előnyben részesítik azokban az alkalmazásokban, ahol nincs ok azt feltételezni, hogy a független változók normális eloszlásúak, ami az LDA módszer alapvető feltételezése.
Az LDA szorosan kapcsolódik a főkomponens - analízishez ( PCA) és a faktoranalízishez is, mivel olyan változók lineáris kombinációit keresik, amelyek a legjobban magyarázzák az adatokat [ 4] . Az LDA kifejezetten megpróbálja modellezni az adatosztályok közötti különbséget. A PCA ezzel szemben nem veszi figyelembe az osztályok közötti különbségeket, és a faktoranalízis nem hasonlóságok, hanem különbségek alapján építi fel a jellemzők kombinációit. A diszkriminanciaanalízis abban is különbözik a faktoranalízistől, hogy nem független technika - ahhoz, hogy működjön, különbséget kell tenni a független változók és a függő változók között (ez utóbbiakat kritériumváltozóknak is nevezik).
Az LDA akkor működik, ha az egyes megfigyelések független változóin végzett mérések folyamatosak. A kvalitatív független változók kezelésénél az ekvivalens technika a diszkrimináns korrespondencia analízis [5] [6] .
A diszkriminanciaanalízist akkor használjuk, ha a csoportok eleve ismertek (a klaszteranalízissel ellentétben ). Minden esetnek rendelkeznie kell egy értékkel a mennyiségi előrejelzés egy vagy több mérőszámában és egy értékkel a csoportmértékben [7] . Egyszerűen fogalmazva, a diszkrimináns függvényelemzés olyan osztályozás, amely az objektumokat csoportokra, osztályokra vagy valamilyen típusú kategóriákra osztja.
Az eredeti dichotóm diszkriminanciaanalízist Sir Ronald Fisher dolgozta ki 1936-ban [8] . Ez különbözik az ANOVA -tól vagy a többváltozós ANOVA -tól , amelyek egy vagy több (többváltozós ANOVA) folytonos függő változó előrejelzésére szolgálnak egy vagy több minőségi független változóból. A diszkrimináns függvényelemzés hasznos annak meghatározására, hogy egy változóhalmaz hatékony-e a kategóriatagság előrejelzésében [9] .
Fontolja meg a megfigyelések halmazát (más néven jellemzőket, attribútumokat, változókat vagy dimenziókat) egy ismert osztályú objektum vagy esemény minden egyes példányához . Ezt a mintakészletet tanítókészletnek nevezzük . Az osztályozás feladata ilyenkor jó előrejelzőt találni bármely azonos eloszlású képviselő osztályára (nem feltétlenül a képzési halmazból), ha csak a megfigyelést kapjuk [10] .
Az LDA azzal a feltételezéssel közelíti meg a problémát, hogy a feltételes valószínűségi eloszlások és normális eloszlásúak átlagos és kovariancia paraméterekkel , ill. Ezen feltevések mellett a Bayes-féle optimális megoldás azt jósolja, hogy egy pont a második osztályba tartozik, ha a valószínűségi hányados meghaladja valamelyik (küszöb) T értéket, így:
További feltevések nélkül a osztályozót QDA -nak nevezzük .
Ehelyett az LDA azt a további leegyszerűsítő feltevést teszi , hogy homoszkedasztikus ( vagyis, hogy a kovarianciaosztályok azonosak, tehát ), és hogy a kovariancia teljes rangú. Ebben az esetben több tag kizárásra kerül:
, mivel ez hermitikus , és a fent leírt döntési kritérium lesz a skalárszorzat küszöbértékevalamilyen c küszöbállandóra , ahol
Ez azt jelenti, hogy az osztályba való belépés kritériuma csak az ismert megfigyelések ezen lineáris kombinációjának függvénye.
Ezt a következtetést gyakran célszerű a geometria szemszögéből látni: az osztályba való bemenet kritériuma a többdimenziós térben lévő pont vektorra való vetületének függvénye (csak a vektor irányát vesszük figyelembe). Más szóval, egy megfigyelés akkor tartozik a -hoz , ha a megfelelő a hipersík egy adott oldalán helyezkedik el, merőlegesen -ra . A sík helyzetét a c küszöbérték határozza meg.
A diszkriminanciaanalízis feltételezései megegyeznek a többváltozós varianciaanalízissel. Az elemzés nagyon érzékeny a kiugró értékekre, és a legkisebb csoport méretének nagyobbnak kell lennie, mint a prediktor (független) változók száma [7] .
A diszkriminanciaanalízisről azt feltételezzük, hogy viszonylag stabil, tekintettel ezeknek a feltételezéseknek a kismértékű megsértésére [11] . Kimutatták, hogy a diszkriminanciaanalízis elfogadható maradhat, ha dichotóm valószínűségi változókat használnak (amikor a többváltozós normalitást gyakran megsértik) [12] .
A diszkriminanciaelemzés a prediktorok egy vagy több lineáris kombinációjának létrehozásával működik, új látens változót állítva elő minden egyes jellemzőhöz. Ezeket a jellemzőket megkülönböztető jellemzőknek nevezzük . A lehetséges jellemzők száma vagy Ng -1, ahol Ng = csoportok száma, vagy p (prediktorok száma), amelyik kisebb. Az első létrehozott szolgáltatás maximalizálja a különbséget az adott funkcióhoz tartozó csoportok között. A második függvény maximalizálja a különbséget ehhez a függvényhez képest, de nem korrelálhat az előző függvénnyel. A folyamat a funkciók sorozatának létrehozásával folytatódik, azzal a feltétellel, hogy az új szolgáltatás ne korreláljon az összes korábbi funkcióval.
Adott egy csoport mintatérkészletekkel , létezik egy diszkriminatív szabály, amely szerint ha , akkor . A diszkriminancia analízis ezután megtalálja a halmazok "jó" területeit az osztályozási hiba minimalizálása érdekében, ami magas osztályozási százalékot eredményez [13] .
Minden jellemzőt egy megkülönböztető pontszám követ, hogy meghatározza, mennyire jósolja meg a csoporttagságot.
A diszkriminanciaanalízisben a sajátérték az egyes függvények sajátértéke[ Mi a függvény sajátértéke? ] . Megmutatja, hogy a függvény hogyan választja el a csoportokat. Minél nagyobb a sajátérték, annál jobban osztoznak a függvények [7] . Itt azonban óvatosnak kell lenni, mivel a sajátértékeknek nincs felső határa [9] [7] . A sajátérték felfogható az SS közötti és a belső SS arányaként, mint az ANOVA-ban, amikor a függő változó a diszkrimináns függvény, a csoportok pedig IV . szintek [9] . Ez azt jelenti, hogy a legnagyobb sajátérték az első függvényhez, a második legnagyobb a másodikhoz és így tovább.
Egyesek azt javasolják, hogy sajátértékeket használjunk az effektus méretének mértékeként , de ez általában nem támogatott [9] . Ehelyett előnyösebb a kanonikus korrelációt használni a hatás mértékeként . Hasonló a sajátértékhez, de négyzetgyöke az SS és az SS total arányának . Ez egyenlő a csoportok és a függvény közötti korrelációval [9] .
A hatás méretének másik népszerű mérőszáma a százalékos variancia .[ tisztázni ] minden egyes funkcióhoz. Kiszámítható a következő képlettel: , ahol a függvény sajátértéke, és az összes sajátérték összege. Az érték megmondja, hogy egy adott függvény által adott előrejelzés mennyire pontos a többi függvényhez képest [9] .
A helyes besorolás százalékos aránya hatásméretként elemezhető [9] .
A kanonikus diszkriminancia analízis ( CDA ) olyan tengelyeket talál ( k -1 kanonikus koordináták , ahol k az osztályok száma), amelyek a legjobban elválasztják a kategóriákat . Ezek a lineáris függvények nem korrelálnak egymással, és ennek eredményeként meghatározzák az optimális k − 1 dimenziós teret egy n - dimenziós adatfelhőn keresztül, amely a legjobban választja el a k csoportot. Lásd alább az „ LDA több osztállyal ” című részt.
A Fisher-féle lineáris diszkrimináns és az LDA kifejezéseket gyakran felcserélhetően használják, bár Fisher eredeti írása [1] valójában egy kissé eltérő diszkriminánst ír le, amely nem teszi meg ugyanazokat a feltevéseket, mint az LDA, mint például a normál osztályeloszlás vagy az egyenlő osztály- kovariancia .
Tegyük fel, hogy a megfigyelések két osztályának átlaga és kovariancia van . Ekkor a tulajdonságok lineáris kombinációjának átlagai és eltérései lesznek . Fisher a két eloszlás közötti különbséget az osztályok közötti és az osztályokon belüli variancia arányaként határozta meg:
Ez a mérték bizonyos értelemben a jel-zaj arány mértéke az osztálycímkézésnél. Kimutatható, hogy a maximális elválasztás mikor lesz
Ha az LDA feltevések igazak, a fenti egyenlőség egyenértékű az LDA-val.
Figyeljük meg, hogy a vektor a diszkrimináns hipersík normálértéke . Például egy kétdimenziós feladatban a két csoportot legjobban elválasztó egyenes merőleges -ra .
Általánosságban elmondható, hogy a megosztó adatpontok a következőre vannak vetítve . Ezután egyváltozós eloszlás alapján kiválasztásra kerül az adatokat legjobban elválasztó küszöbérték. Nincs általános szabály a küszöb kiválasztására. Ha azonban mindkét osztály pontjainak vetületei nagyjából azonos eloszlást mutatnak, akkor a két átlag vetületei közötti hipersík és , jó választás . Ebben az esetben a c paraméter a küszöbfeltételben kifejezetten megtalálható:
.Az Otsu-módszer a Fisher-féle lineáris diszkriminánshoz kapcsolódik, és azért jött létre, hogy binarizálja a pixelek hisztogramját egy monokróm képen egy olyan fekete/fehér küszöb optimális kiválasztásával, amely minimalizálja az osztályon belüli eltéréseket és maximalizálja az osztályok közötti eltéréseket.
Abban az esetben, ha kettőnél több osztály van, a Fisher-diszkriminancia megszerzéséhez használt elemzés kiterjeszthető egy olyan alterre , amely tartalmazza az osztályok összes változatát [14] [16] . Ez az általánosítás K. R. Rao -nak köszönhető [17] . Tegyük fel, hogy a C osztályok mindegyikének átlaga és azonos kovariancia van . Ekkor az osztályvariancia szórást az osztályátlagok mintakovarianciaként definiálhatjuk
,ahol az osztályok átlagainak átlaga. Az irányban lévő osztályelválasztót ebben az esetben az érték adja meg
Ez azt jelenti, hogy amikor egy sajátvektor , az elágazáshoz tartozó érték egyenlő lesz a megfelelő sajátértékkel .
Ha diagonalizálható, a jellemzők közötti eltérés abban az altérben lesz, amelyet a C - 1 legnagyobb sajátértékeknek megfelelő sajátvektorok fednek le (mivel a rang legfeljebb C - 1). Ezeket a sajátvektorokat főleg a jellemzők kiválasztásában használják, mint például a PCA-ban. A kisebb sajátértékeknek megfelelő sajátvektorok nagyon érzékenyek a betanítási adatok pontos megválasztására, ezért gyakran szükséges a következő részben leírt regularizáció alkalmazása.
Ha osztályozásra van szükség, számos alternatív megközelítés használható a dimenziócsökkentés helyett . Például az osztályok feloszthatók, és a szabványos Fisher vagy LDA diszkrimináns használható az egyes részek osztályozására. Gyakori példa erre a megközelítésre az „egy a többi ellen”, amikor az egyik osztály pontjai egy csoportba, minden más pedig egy másik csoportba illeszkedik, akkor LDA kerül alkalmazásra. Ez olyan C osztályozókat eredményez, amelyek eredményeit összevonják. Egy másik elterjedt módszer a páronkénti osztályozás, ahol minden osztálypárhoz új osztályozót hoznak létre (ami összesen C ( C − 1)/2 osztályozót ad), és az egyes osztályozókat kombinálják a végső osztályozáshoz.
Az LDA technika tipikus megvalósítása megköveteli, hogy minden minta egyszerre legyen elérhető. Vannak azonban olyan helyzetek, amikor a teljes adatkészlet nem érhető el, és a bemenet adatfolyamként érkezik. Ebben az esetben kívánatos, hogy a számított LDA-funkciókat úgy tudjuk frissíteni, hogy új mintákat nézünk anélkül, hogy a teljes algoritmust lefuttatnánk a teljes adatkészleten az LDA-funkciók kinyerése érdekében. Például számos valós idejű alkalmazásban, mint például a mobil robotika vagy az arcfelismerés, fontos a kivont LDA-funkciók frissítése, amint elérhetővé válik egy új megfigyelés. Az LDA jellemzők kinyerési technikáját, amely az LDA jellemzőit egyszerűen új minták feldolgozásával frissíti, inkrementális LDA algoritmusnak nevezik , és ezt az ötletet intenzíven tanulmányozták az elmúlt két évtizedben [18] . Catterjee és Roychaudhary egy növekményes önszerveződő LDA algoritmust javasolt az LDA jellemzőinek frissítésére [19] . Egy másik cikkben Demir és Ozmehmet online helyi tanulási algoritmusokat javasolt az LDA jellemzőinek fokozatos frissítésére hibajavítás és Hebb tanulási szabályai segítségével [20] . A közelmúltban Aliyari, Rujic és Moghaddam egy gyors inkrementális algoritmust fejlesztettek ki az LDA jellemzőinek frissítésére új minták megfigyelésével [18] .
A gyakorlatban az osztályátlagok és a kovariancia nem ismert. A képzési készletből azonban kiértékelhetők. Mindkét egyenlőségben a pontos érték helyett a maximum likelihood módszer vagy a posterior maximum becslési módszer használható . Bár a kovarianciabecslések bizonyos értelemben optimálisnak tekinthetők, ez nem jelenti azt, hogy az ezen értékek helyettesítésével kapott diszkrimináns bármilyen értelemben optimális lenne, még akkor sem, ha a normál osztályeloszlás feltételezése helyes.
Egy másik nehézség az LDA és Fisher-féle diszkrimináns módszer valós adatokra való alkalmazásában, amikor az egyes mintákban végzett mérések száma (vagyis az egyes adatvektorok dimenziója) eléri az egyes osztályok mintáinak számát [4] . Ebben az esetben a kovarianciabecslések nem teljes rangúak, és nem fordíthatók meg. Ennek több módja is van. Az egyik mód az, hogy a fenti képletekben a szokásos inverz helyett pszeudo-inverz mátrixot használunk. Azonban jobb numerikus stabilitás érhető el, ha a problémát a [21] által átfogott altérbe vetítjük . Egy másik stratégia a kis mintaméretek kezelésére a kovarianciamátrix kompressziós becslése , amely matematikailag úgy ábrázolható, mint
ahol az identitásmátrix és a tömörítési intenzitás vagy a regularizációs paraméter . Ez a rendszeres diszkriminanciaanalízis [22] vagy a kontrakciós diszkriminancia analízis [23] fogalmához vezet .
Szintén sok gyakorlati esetben a lineáris diszkriminátorok nem megfelelőek. Az LDA és a Fisher-féle diszkrimináns kiterjeszthető a nemlineáris osztályozáshoz egy kerneltrükk segítségével . Itt az eredeti megfigyeléseket hatékonyan egy magasabb dimenziós nemlineáris térre képezik le. A lineáris osztályozás ebben a nemlineáris térben egyenértékű az eredeti tér nemlineáris osztályozásával. Ennek a megközelítésnek a leggyakrabban használt példája a Fisher-féle nukleáris diszkrimináns .
Az LDA általánosítható multi-diszkriminancia analízisre , amelyben c kvalitatív változóvá válik , amelynek kettő helyett N lehetséges állapota van. Hasonlóképpen, ha az osztályok eloszlássűrűségei normálisak és azonos kovarianciával rendelkeznek, elegendő statisztikai adat az N vetület értékei , amelyek az inverz kovariancia mátrix által affinosan kivetített N átlag által átfogott altér . Ezeket a vetületeket az általánosított sajátérték probléma megoldásával találhatjuk meg , ahol a számláló az átlagok mintaként való kezelésével kialakított kovarianciamátrix, a nevező pedig a közös kovarianciamátrix. Lásd fent az „ LDA több osztállyal ” című részt.
Az alábbi példákon kívül az LDA-nak vannak alkalmazásai a helymeghatározásban és a termékkezelésben .
A csőd számviteli ráták és egyéb pénzügyi változók alapján történő előrejelzésében a lineáris diszkriminanciaanalízis volt az első statisztikai módszer, amellyel szisztematikusan megmagyarázták, mely cégek fognak csődbe menni vagy túlélni. A korlátok ellenére, beleértve az LDA normál eloszlási feltételezésének jól ismert helytelenségét az elszámolási rátákra vonatkozóan , Edward Altman 1968-as modellje továbbra is a vezető modell a gyakorlati alkalmazásokban.
Egy számítógépes arcfelismerő rendszerben minden arcot nagyszámú pixelérték képvisel. A lineáris diszkriminanciaanalízist itt elsősorban azért alkalmazzuk, hogy a jellemzők számát kezelhetőbbre csökkentsük, mielőtt az osztályozást megkísérelnénk. Az új dimenziók mindegyike pixelértékek lineáris kombinációja, amely egy mintát alkot. A Fisher-féle lineáris diszkrimináns segítségével kapott lineáris kombinációkat Fisher- lapoknak , míg a főkomponens-analízissel kapott kombinációkat sajátfelületeknek [24] nevezzük .
A marketingben gyakran alkalmazzák a diszkriminanciaanalízist, hogy felmérések vagy más adatgyűjtési formák alapján meghatározzák azokat a tényezőket, amelyek megkülönböztetik a különböző típusú felhasználókat és/vagy termékeket. Manapság általában logisztikus regressziót vagy egyéb módszereket alkalmaznak erre a célra. A diszkriminanciaelemzés marketingben való alkalmazása a következő lépésekkel írható le:
A diszkriminanciaanalízis fő alkalmazása az orvostudományban a beteg állapota súlyosságának és a betegség lefolyásának prognózisának felmérése. Például a retrospektív elemzés során a betegeket csoportokba osztják a betegség súlyossága szerint - enyhe, közepes és súlyos formák. Ezután megvizsgálják a klinikai és laboratóriumi elemzések eredményeit, hogy olyan változókat találjanak, amelyek kellően eltérőek a vizsgálati csoportokban. Ezen változók alapján olyan diszkrimináns függvények épülnek fel, amelyek segítségével objektíven lehet osztályozni a betegek betegségének lefolyását a jövőben, legyen az enyhe, közepes vagy súlyos.
A biológiában hasonló elveket alkalmaznak a különböző biológiai objektumok csoportjainak osztályozására és meghatározására, például a Salmonella enteritis fágtípusának meghatározására az infravörös spektrum Fourier-transzformációja alapján [25] , az Escherichia coli forrásának meghatározására virulenciafaktorainak tanulmányozása [26] stb.
Ezzel a módszerrel a hidrotermális változási zónák elkülöníthetők. Például, ha a különböző zónákban különböző adatok állnak rendelkezésre, a diszkriminanciaanalízis képes mintákat találni az adatokban, és hatékonyan osztályozni tudja azokat [27] .
A diszkriminatív funkcionális elemzés nagyon hasonlít a logisztikus regresszióhoz , és mindkét módszer felhasználható a kutatók egyes kérdéseinek megválaszolására [9] . A logisztikus regressziónak nincs annyi feltevése, mint a diszkriminanciaanalízisnek. Ha azonban teljesülnek a diszkriminanciaanalízis feltételezései, az erősebb, mint a logisztikus regresszió [28] . A logisztikus regressziótól eltérően a diszkriminanciaanalízis kis mintaméretekhez használható. Kimutatták, hogy ha a minta mérete megegyezik és a variancia/kovariancia homogenitása fennáll, a diszkriminanciaanalízis pontosabb [7] . Mindezek ismeretében a logisztikus regressziót gyakrabban választják, mert a diszkriminanciaelemzési feltevések ritkán teljesülnek [8] [7] .
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|