Rangsorképzés

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2019. augusztus 2-án felülvizsgált verziótól ; az ellenőrzések 4 szerkesztést igényelnek .

A rangsorolás megtanulása ( learning to ranking or machine-learned ranking, MLR ) [1] a felügyelt gépi tanulási feladatok egy osztálya, amely abból áll, hogy automatikusan kiválasztanak egy rangsorolási modellt egy listákból és az elemekre adott részleges sorrendből álló képzési halmazból. minden listán belül. A részleges sorrendet általában úgy határozzák meg, hogy minden egyes tételhez pontszámot adnak meg (pl. "releváns" vagy "nem releváns"; kettőnél több fokozat is lehetséges). A rangsorolási modell célja az, hogy a legjobban (bizonyos értelemben) közelítse és általánosítsa a képzési halmazban található rangsorolási módszert az új adatokra.

A rangsorolási tanulás még meglehetősen fiatal, gyorsan fejlődő kutatási terület, amely a 2000-es években keletkezett, amikor az információ-visszakeresés területén felkelt az érdeklődés a gépi tanulási módszerek rangsorolási problémákra való alkalmazása iránt.

Alkalmazás az információkeresésben

A keresőmotorokkal kapcsolatban minden lista olyan dokumentumkészlet, amely megfelel bizonyos keresési lekérdezéseknek.

A betanítási minta a keresési lekérdezések egy mintájából, a hozzájuk tartozó dokumentumok részhalmazából, valamint az egyes dokumentumok lekérdezés szempontjából való relevanciájára vonatkozó becslésekből áll. Elkészíthetők manuálisan, speciálisan képzett emberekkel (keresési minőségi értékelők vagy értékelők ), vagy automatikusan, a felhasználói kattintások [2] vagy olyan keresőeszközök elemzése alapján , mint a Google keresőmotor SearchWiki rendszere .

Rangsorolási jellemzők

A rangsorolási modell betanítása és működése során minden dokumentum-kérés pár olyan rangsorolási jellemzők (más néven rangsorolási faktorok vagy jelek) numerikus vektorává alakul át, amelyek a dokumentum tulajdonságait, a lekérdezést és ezek kapcsolatát jellemzik. Ezek a jelek három csoportra oszthatók:

Lekérdezéstől független vagy statikus jellemzők - csak a dokumentumtól függenek, de nem a kéréstől. Például a PageRank vagy a dokumentum hossza. Az ilyen jellemzőket általában a dokumentumindexelés szakaszában számítják ki, és gyakran használják statikus dokumentumminőségi pontszám összeállítására, amelyet a keresőmotorok teljesítményének javítására használnak fel. [3] [4]
Jellemzők, amelyek csak a kéréstől függenek. Például: „pornóval kapcsolatos kérés vagy sem”.
Lekérdezéstől függő vagy dinamikus funkciók – mind a dokumentumtól, mind a kéréstől függően. Például a dokumentum lekérdezésnek való megfelelésének TF-IDF mértéke .

Íme néhány példa a jól ismert LETOR adatkészletben használt rangsorolási jellemzőkre ezen a kutatási területen : [5]

A TF, TF-IDF , BM25 mértékértékek és a dokumentum különböző zónáinak (cím, URL , törzsszöveg, linkszöveg) kérésének megfelelő nyelvi modellje ;
Hossz és IDF - a dokumentum zónáinak összegei;
A linkrangsorolási algoritmusok különféle változataival, például a PageRank és a HITS által elért dokumentumok rangsorai .

Minőségi mutatók rangsorolása

Számos mérőszám van, amely értékeli és összehasonlítja a rangsoroló algoritmusok teljesítményét egy mintán a szakértői értékelésekkel. A rangsorolási modell paramétereit gyakran úgy állítják be, hogy az egyik ilyen mérőszám értékét maximalizálják.

Példák mérőszámokra:

DCG és NDCG_ _
Pontosság @ n , NDCG@ n (@ n azt jelenti, hogy a metrikaértéket csak az n legjobb kibocsátási dokumentum esetében veszik figyelembe);
TÉRKÉP ;
átlagos inverz rang ;
A pfoundot a Yandex fejlesztette ki . [6]

Algoritmusok osztályozása

Tai-Yan Liu, a Microsoft Research Asia munkatársa a "Learning to Rank for Information Retrieval" című cikkében [1] és a tematikus konferenciákon tartott előadásaiban elemezte a jelenleg elérhető módszereket a rangsorolás elsajátításának problémájának megoldására, és három megközelítésbe való besorolást javasolt. a használt bemeneti adatábrázolásról és büntetési funkcióról:

Pontszerű megközelítés

A pontszerű megközelítésben feltételezzük , hogy minden lekérdezés-dokumentum párhoz numerikus pontszám van hozzárendelve. A rangsorolás megtanulásának feladata a regresszió felépítésére redukálódik : minden egyes lekérdezés-dokumentum pár esetében meg kell jósolni a pontszámát.

Ezen a megközelítésen belül számos gépi tanulási algoritmus alkalmazható regressziós problémákra. Ha a pontszámok csak néhány értéket vehetnek fel, akkor ordinális regressziós és osztályozási algoritmusok is használhatók.

Páros megközelítés

A páros megközelítésben a rangsorolás megtanulása egy bináris osztályozó felépítésével jár, amely két, ugyanannak a lekérdezésnek megfelelő dokumentumot kap bemenetként, és meg kell határozni, hogy melyik a jobb.

Példák az algoritmusokra: [1] RankNet, FRank, RankBoost, RankSVM, IR-SVM.

Lista megközelítés

A listás megközelítés egy modell felépítéséből áll, amelynek bemenete azonnal a lekérdezésnek megfelelő összes dokumentum, a kimenet pedig a permutációjuk . A modellparaméter-illesztés a fenti rangsorolási mutatók egyikének közvetlen maximalizálása érdekében történik. Ez azonban gyakran nehéz, mivel a rangsorolási mérőszámok általában nem folytonosak és nem differenciálhatók a rangsorolási modell paraméterei tekintetében, így egyes közelítéseiket vagy alacsonyabb becsléseiket maximalizálják.

Példák az algoritmusokra: [1] SoftRank, SVM map , AdaRank, RankGP, ListNet, ListMLE.

Gyakorlati alkalmazás

A nagyobb keresőkben

Számos modern internetes keresőmotor, köztük a Yandex , a Yahoo [7] és a Bing keresőmotorjai gépi tanulási módszerekkel felépített rangsorolási modelleket használnak. A Bing keresése a RankNet algoritmust használja . [8] A Yandex keresőmotorjában kifejlesztett és használt legújabb rangsoroló gépi tanulási algoritmus a MatrixNet; [9] A Yandex maga szponzorálta az Internet Mathematics 2009 versenyt [10] , hogy saját adatkészlete alapján rangsoroló algoritmust hozzon létre.

Egy 2008 elején készült interjúban Peter Norvig , a Google kutatási igazgatója azt mondta, hogy keresőmotorjuk még nem állt készen arra, hogy a rangsorolást teljesen a gépi tanulási algoritmusokra bízzák, arra hivatkozva, hogy egyrészt az automatikusan generált modellek kiszámíthatatlanul viselkedhetnek újonnan. olyan lekérdezések osztályai, amelyek nem hasonlítanak a képzési mintából származó lekérdezésekhez, összehasonlítva a humán szakértők által létrehozott modellekkel. Másodszor, a Google jelenlegi rangsoroló algoritmusának megalkotói abban bíznak, hogy modelljük a gépi tanulásnál is hatékonyabban képes megoldani a problémákat. [11] Az első ok számunkra sokkal fontosabb, mivel nem csak az induktív logika egy ilyen jól ismert problémájára nyúlik vissza, amelyet C.G. német matematikus fogalmazott meg. Hempel és ellentétes az intuícióval (az állítás, hogy "minden holló fekete" logikailag egyenértékű azzal, hogy "minden nem fekete tárgy nem holló"), de egyúttal arra késztet, hogy visszatérjünk F. Rosenblatt számos megoldatlan kérdéséhez, aki megteremtette a világot. első neurális hálózat , amely képes érzékelni és az észlelt ingerre adott válasz kialakulását - egyrétegű perceptron. [12] A Rosenblatt-féle elemi perceptron kritikája alapján megérthetjük ennek a minősítési modellnek a teljes sérülékenységét, amelyről a Google szakértői mesélnek: vajon a mesterséges rendszerek képesek-e általánosítani egyéni tapasztalataikat olyan helyzetek széles csoportjára, amelyekre a válasz az volt. nem közölték velük előre? Nem, a mesterséges rendszerek egyéni tapasztalata a gyakorlatban mindig korlátozott és soha nem teljes. Így vagy úgy, a gépi tanulási eszközök lehetővé teszik a spamdexelés problémájának meglehetősen nagy hatékonyságú megoldását. [13]

Jegyzetek

↑ 1 2 3 4 Tie-Yan Liu (2009), Learning to Rank for Information Retrieval , Foundations and Trends in Information Retrieval: Vol. 3: 3. sz. 225-331, ISBN 978-1-60198-244-5 , DOI 10.1561/1500000016 . Diák elérhetők Archiválva : 2010. március 31. T. Lew beszédéből a WWW 2009 konferencián.
↑ Keresőmotorok optimalizálása átkattintási adatok segítségével . Letöltve: 2009. november 18. Az eredetiből archiválva : 2009. december 29.. (határozatlan)
↑ Statikus minőségi pontszámok és rendelés . Letöltve: 2009. november 18. Az eredetiből archiválva : 2009. július 7.. (határozatlan)
↑ Richardson, M.; Prakash, A. és Brill, E. (2006). „Beyond PageRank: Machine Learning for Static Ranking” (PDF) . A 15. nemzetközi világhálókonferencia anyaga . pp. 707–715. Archivált (PDF) az eredetiből ekkor: 2009-08-15. Elavult használt paraméter |deadlink=( súgó )
↑ LETOR 3.0. Összehasonlító gyűjtemény az információ-visszakeresési rangsorolás megtanulásához . Letöltve: 2009. november 18. Az eredetiből archiválva : 2012. február 16.. (határozatlan)
↑ Gulin A., Karpovich P., Raskovalov D., Segalovich I. Yandex at ROMIP'2009. Rangsoroló algoritmusok optimalizálása gépi tanulási módszerekkel. Archiválva : 2009. november 22. a Wayback Machine -nél
↑ A Yahoo elindítja a világ legnagyobb Hadoop gyártási alkalmazását , archiválva 2009. december 21-én a Wayback Machine -nél
↑ Bing Search Blog: Felhasználói igények, szolgáltatások és a Bing mögötti tudomány archiválva 2009. november 25-én a Wayback Machine -nél
↑ Roem.ru: A Yandex új Sznezhinsk formulát dobott piacra, most már ezer változó van 250 helyett . Letöltve: 2009. november 20. Az eredetiből archiválva : 2009. november 13.. (határozatlan)
↑ Internet Mathematics 2009 (elérhetetlen link) . Letöltve: 2009. november 20. Az eredetiből archiválva : 2009. november 15.. (határozatlan)
↑ Hajlamosak-e katasztrofális hibákra a gépi tanult modellek? Az eredetiből archiválva : 2010. szeptember 18. (Angol)
↑ Perceptrons: An Associative Learning Network archiválva : 2011. augusztus 9. a Wayback Machine -nél
↑ Keresőmotor spamészlelés. 15. rész: Mesterséges neurális hálózatok alkalmazása archiválva : 2013. március 10. a Wayback Machine -nél (orosz)

Gépi tanulás és adatbányászat
Feladatok	Osztályozási probléma Tanulás tanár nélkül Tanár által segített tanulás Regresszió analízis AutoML Egyesületi szabályzat Funkció kivonás Tulajdonságok képzése Rangsorképzés Nyelvtani levezetés Online tanulás
Tanulás tanárral	k-legközelebbi szomszéd módszer Naiv Bayes osztályozó döntési fa Támogatja a vektoros gépet Lineáris regresszió Logisztikus regresszió perceptron Modellek együttesei Zsákolás fellendítése véletlenszerű erdő Releváns vektoros módszer
klaszteranalízis	k-módszer Fuzzy klaszterezési módszer Hierarchikus klaszterezés EM algoritmus NYÍR GYÓGYMÓD DBSCAN OPTIKA Átlageltolás
Dimenziócsökkentés	Faktoranalízis Főkomponens módszer CCA ICA LDA Nem negatív mátrix kiterjesztése t-SNE
Strukturális előrejelzés	Grafikon valószínűségi modell Bayesi hálózat Rejtett Markov-modell CRF
Anomália észlelése	k-legközelebbi szomszéd módszer Helyi kibocsátási szint
Grafikon valószínűségi modellek	Bayesi hálózat Markov hálózat Rejtett Markov-modell
Neurális hálózatok	Limitált Boltzmann gép önszerveződő térkép Aktiválási funkció Szigma alakú softmax Radiális bázisfüggvény Hátsó szaporítási módszer Mély tanulás Többrétegű perceptron Ismétlődő neurális hálózat hosszú távú rövid távú memória Ellenőrzött visszatérő blokk Konvolúciós Neurális Hálózat U-háló Autoencoder
Megerősítő tanulás	Markov folyamat Bellman egyenlet Mohó algoritmus Q-learning SARSA Időbeli különbség (TD)
Elmélet	Vapnik-Chervonenkis elmélet Elfogultság-diszperziós dilemma Számítógépes tanuláselmélet Empirikus kockázatminimalizálás Occam tanul PAC tanulás Statisztikai tanuláselmélet
Folyóiratok és konferenciák	NeurIPS ICML ML JMLR ArXiv:cs.LG