A rangsorolás megtanulása ( learning to ranking or machine-learned ranking, MLR ) [1] a felügyelt gépi tanulási feladatok egy osztálya, amely abból áll, hogy automatikusan kiválasztanak egy rangsorolási modellt egy listákból és az elemekre adott részleges sorrendből álló képzési halmazból. minden listán belül. A részleges sorrendet általában úgy határozzák meg, hogy minden egyes tételhez pontszámot adnak meg (pl. "releváns" vagy "nem releváns"; kettőnél több fokozat is lehetséges). A rangsorolási modell célja az, hogy a legjobban (bizonyos értelemben) közelítse és általánosítsa a képzési halmazban található rangsorolási módszert az új adatokra.
A rangsorolási tanulás még meglehetősen fiatal, gyorsan fejlődő kutatási terület, amely a 2000-es években keletkezett, amikor az információ-visszakeresés területén felkelt az érdeklődés a gépi tanulási módszerek rangsorolási problémákra való alkalmazása iránt.
A keresőmotorokkal kapcsolatban minden lista olyan dokumentumkészlet, amely megfelel bizonyos keresési lekérdezéseknek.
A betanítási minta a keresési lekérdezések egy mintájából, a hozzájuk tartozó dokumentumok részhalmazából, valamint az egyes dokumentumok lekérdezés szempontjából való relevanciájára vonatkozó becslésekből áll. Elkészíthetők manuálisan, speciálisan képzett emberekkel (keresési minőségi értékelők vagy értékelők ), vagy automatikusan, a felhasználói kattintások [2] vagy olyan keresőeszközök elemzése alapján , mint a Google keresőmotor SearchWiki rendszere .
A rangsorolási modell betanítása és működése során minden dokumentum-kérés pár olyan rangsorolási jellemzők (más néven rangsorolási faktorok vagy jelek) numerikus vektorává alakul át, amelyek a dokumentum tulajdonságait, a lekérdezést és ezek kapcsolatát jellemzik. Ezek a jelek három csoportra oszthatók:
Íme néhány példa a jól ismert LETOR adatkészletben használt rangsorolási jellemzőkre ezen a kutatási területen : [5]
Számos mérőszám van, amely értékeli és összehasonlítja a rangsoroló algoritmusok teljesítményét egy mintán a szakértői értékelésekkel. A rangsorolási modell paramétereit gyakran úgy állítják be, hogy az egyik ilyen mérőszám értékét maximalizálják.
Példák mérőszámokra:
Tai-Yan Liu, a Microsoft Research Asia munkatársa a "Learning to Rank for Information Retrieval" című cikkében [1] és a tematikus konferenciákon tartott előadásaiban elemezte a jelenleg elérhető módszereket a rangsorolás elsajátításának problémájának megoldására, és három megközelítésbe való besorolást javasolt. a használt bemeneti adatábrázolásról és büntetési funkcióról:
A pontszerű megközelítésben feltételezzük , hogy minden lekérdezés-dokumentum párhoz numerikus pontszám van hozzárendelve. A rangsorolás megtanulásának feladata a regresszió felépítésére redukálódik : minden egyes lekérdezés-dokumentum pár esetében meg kell jósolni a pontszámát.
Ezen a megközelítésen belül számos gépi tanulási algoritmus alkalmazható regressziós problémákra. Ha a pontszámok csak néhány értéket vehetnek fel, akkor ordinális regressziós és osztályozási algoritmusok is használhatók.
A páros megközelítésben a rangsorolás megtanulása egy bináris osztályozó felépítésével jár, amely két, ugyanannak a lekérdezésnek megfelelő dokumentumot kap bemenetként, és meg kell határozni, hogy melyik a jobb.
Példák az algoritmusokra: [1] RankNet, FRank, RankBoost, RankSVM, IR-SVM.
A listás megközelítés egy modell felépítéséből áll, amelynek bemenete azonnal a lekérdezésnek megfelelő összes dokumentum, a kimenet pedig a permutációjuk . A modellparaméter-illesztés a fenti rangsorolási mutatók egyikének közvetlen maximalizálása érdekében történik. Ez azonban gyakran nehéz, mivel a rangsorolási mérőszámok általában nem folytonosak és nem differenciálhatók a rangsorolási modell paraméterei tekintetében, így egyes közelítéseiket vagy alacsonyabb becsléseiket maximalizálják.
Példák az algoritmusokra: [1] SoftRank, SVM map , AdaRank, RankGP, ListNet, ListMLE.
Számos modern internetes keresőmotor, köztük a Yandex , a Yahoo [7] és a Bing keresőmotorjai gépi tanulási módszerekkel felépített rangsorolási modelleket használnak. A Bing keresése a RankNet algoritmust használja . [8] A Yandex keresőmotorjában kifejlesztett és használt legújabb rangsoroló gépi tanulási algoritmus a MatrixNet; [9] A Yandex maga szponzorálta az Internet Mathematics 2009 versenyt [10] , hogy saját adatkészlete alapján rangsoroló algoritmust hozzon létre.
Egy 2008 elején készült interjúban Peter Norvig , a Google kutatási igazgatója azt mondta, hogy keresőmotorjuk még nem állt készen arra, hogy a rangsorolást teljesen a gépi tanulási algoritmusokra bízzák, arra hivatkozva, hogy egyrészt az automatikusan generált modellek kiszámíthatatlanul viselkedhetnek újonnan. olyan lekérdezések osztályai, amelyek nem hasonlítanak a képzési mintából származó lekérdezésekhez, összehasonlítva a humán szakértők által létrehozott modellekkel. Másodszor, a Google jelenlegi rangsoroló algoritmusának megalkotói abban bíznak, hogy modelljük a gépi tanulásnál is hatékonyabban képes megoldani a problémákat. [11] Az első ok számunkra sokkal fontosabb, mivel nem csak az induktív logika egy ilyen jól ismert problémájára nyúlik vissza, amelyet C.G. német matematikus fogalmazott meg. Hempel és ellentétes az intuícióval (az állítás, hogy "minden holló fekete" logikailag egyenértékű azzal, hogy "minden nem fekete tárgy nem holló"), de egyúttal arra késztet, hogy visszatérjünk F. Rosenblatt számos megoldatlan kérdéséhez, aki megteremtette a világot. első neurális hálózat , amely képes érzékelni és az észlelt ingerre adott válasz kialakulását - egyrétegű perceptron. [12] A Rosenblatt-féle elemi perceptron kritikája alapján megérthetjük ennek a minősítési modellnek a teljes sérülékenységét, amelyről a Google szakértői mesélnek: vajon a mesterséges rendszerek képesek-e általánosítani egyéni tapasztalataikat olyan helyzetek széles csoportjára, amelyekre a válasz az volt. nem közölték velük előre? Nem, a mesterséges rendszerek egyéni tapasztalata a gyakorlatban mindig korlátozott és soha nem teljes. Így vagy úgy, a gépi tanulási eszközök lehetővé teszik a spamdexelés problémájának meglehetősen nagy hatékonyságú megoldását. [13]
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|