Rangsorképzés

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2019. augusztus 2-án felülvizsgált verziótól ; az ellenőrzések 4 szerkesztést igényelnek .

A rangsorolás megtanulása ( learning to ranking or machine-learned ranking, MLR ) [1] a felügyelt gépi tanulási feladatok egy   osztálya, amely abból áll, hogy automatikusan kiválasztanak egy rangsorolási modellt egy listákból és az elemekre adott részleges sorrendből álló képzési halmazból. minden listán belül. A részleges sorrendet általában úgy határozzák meg, hogy minden egyes tételhez pontszámot adnak meg (pl. "releváns" vagy "nem releváns"; kettőnél több fokozat is lehetséges). A rangsorolási modell célja az, hogy a legjobban (bizonyos értelemben) közelítse és általánosítsa a képzési halmazban található rangsorolási módszert az új adatokra.

A rangsorolási tanulás még meglehetősen fiatal, gyorsan fejlődő kutatási terület, amely a 2000-es években keletkezett, amikor az információ-visszakeresés területén felkelt az érdeklődés a gépi tanulási módszerek rangsorolási problémákra való alkalmazása iránt.

Alkalmazás az információkeresésben

A keresőmotorokkal kapcsolatban minden lista olyan dokumentumkészlet, amely megfelel bizonyos keresési lekérdezéseknek.

A betanítási minta a keresési lekérdezések egy mintájából, a hozzájuk tartozó dokumentumok részhalmazából, valamint az egyes dokumentumok lekérdezés szempontjából való relevanciájára vonatkozó becslésekből áll. Elkészíthetők manuálisan, speciálisan képzett emberekkel (keresési minőségi értékelők vagy értékelők ), vagy automatikusan, a felhasználói kattintások [2] vagy olyan keresőeszközök elemzése alapján , mint a Google keresőmotor SearchWiki rendszere .

Rangsorolási jellemzők

A rangsorolási modell betanítása és működése során minden dokumentum-kérés pár olyan rangsorolási jellemzők (más néven rangsorolási faktorok vagy jelek) numerikus vektorává alakul át, amelyek a dokumentum tulajdonságait, a lekérdezést és ezek kapcsolatát jellemzik. Ezek a jelek három csoportra oszthatók:

Íme néhány példa a jól ismert LETOR adatkészletben használt rangsorolási jellemzőkre ezen a kutatási területen : [5]

Minőségi mutatók rangsorolása

Számos mérőszám van, amely értékeli és összehasonlítja a rangsoroló algoritmusok teljesítményét egy mintán a szakértői értékelésekkel. A rangsorolási modell paramétereit gyakran úgy állítják be, hogy az egyik ilyen mérőszám értékét maximalizálják.

Példák mérőszámokra:

Algoritmusok osztályozása

Tai-Yan Liu, a Microsoft Research Asia munkatársa a "Learning to Rank for Information Retrieval" című cikkében [1] és a tematikus konferenciákon tartott előadásaiban elemezte a jelenleg elérhető módszereket a rangsorolás elsajátításának problémájának megoldására, és három megközelítésbe való besorolást javasolt. a használt bemeneti adatábrázolásról és büntetési funkcióról:

Pontszerű megközelítés

A pontszerű megközelítésben feltételezzük , hogy  minden lekérdezés-dokumentum párhoz numerikus pontszám van hozzárendelve. A rangsorolás megtanulásának feladata a regresszió felépítésére redukálódik : minden egyes lekérdezés-dokumentum pár esetében meg kell jósolni a pontszámát.

Ezen a megközelítésen belül számos gépi tanulási algoritmus alkalmazható regressziós problémákra. Ha a pontszámok csak néhány értéket vehetnek fel, akkor ordinális regressziós és osztályozási algoritmusok is használhatók.

Páros megközelítés

A páros megközelítésben a rangsorolás megtanulása  egy bináris osztályozó felépítésével jár, amely két, ugyanannak a lekérdezésnek megfelelő dokumentumot kap bemenetként, és meg kell határozni, hogy melyik a jobb.

Példák az algoritmusokra: [1] RankNet, FRank, RankBoost, RankSVM, IR-SVM.

Lista megközelítés

A  listás megközelítés egy modell felépítéséből áll, amelynek bemenete azonnal a lekérdezésnek megfelelő összes dokumentum, a kimenet pedig a permutációjuk . A modellparaméter-illesztés a fenti rangsorolási mutatók egyikének közvetlen maximalizálása érdekében történik. Ez azonban gyakran nehéz, mivel a rangsorolási mérőszámok általában nem folytonosak és nem differenciálhatók a rangsorolási modell paraméterei tekintetében, így egyes közelítéseiket vagy alacsonyabb becsléseiket maximalizálják.

Példák az algoritmusokra: [1] SoftRank, SVM map , AdaRank, RankGP, ListNet, ListMLE.

Gyakorlati alkalmazás

A nagyobb keresőkben

Számos modern internetes keresőmotor, köztük a Yandex , a Yahoo [7] és a Bing keresőmotorjai gépi tanulási módszerekkel felépített rangsorolási modelleket használnak. A Bing keresése a RankNet algoritmust használja . [8] A Yandex keresőmotorjában kifejlesztett és használt legújabb rangsoroló gépi tanulási algoritmus a MatrixNet; [9] A Yandex maga szponzorálta az Internet Mathematics 2009 versenyt [10] , hogy saját adatkészlete alapján rangsoroló algoritmust hozzon létre.

Egy 2008 elején készült interjúban Peter Norvig , a Google kutatási igazgatója azt mondta, hogy keresőmotorjuk még nem állt készen arra, hogy a rangsorolást teljesen a gépi tanulási algoritmusokra bízzák, arra hivatkozva, hogy egyrészt az automatikusan generált modellek kiszámíthatatlanul viselkedhetnek újonnan. olyan lekérdezések osztályai, amelyek nem hasonlítanak a képzési mintából származó lekérdezésekhez, összehasonlítva a humán szakértők által létrehozott modellekkel. Másodszor, a Google jelenlegi rangsoroló algoritmusának megalkotói abban bíznak, hogy modelljük a gépi tanulásnál is hatékonyabban képes megoldani a problémákat. [11] Az első ok számunkra sokkal fontosabb, mivel nem csak az induktív logika egy ilyen jól ismert problémájára nyúlik vissza, amelyet C.G. német matematikus fogalmazott meg. Hempel és ellentétes az intuícióval (az állítás, hogy "minden holló fekete" logikailag egyenértékű azzal, hogy "minden nem fekete tárgy nem holló"), de egyúttal arra késztet, hogy visszatérjünk F. Rosenblatt számos megoldatlan kérdéséhez, aki megteremtette a világot. első neurális hálózat , amely képes érzékelni és az észlelt ingerre adott válasz kialakulását - egyrétegű perceptron. [12] A Rosenblatt-féle elemi perceptron kritikája alapján megérthetjük ennek a minősítési modellnek a teljes sérülékenységét, amelyről a Google szakértői mesélnek: vajon a mesterséges rendszerek képesek-e általánosítani egyéni tapasztalataikat olyan helyzetek széles csoportjára, amelyekre a válasz az volt. nem közölték velük előre? Nem, a mesterséges rendszerek egyéni tapasztalata a gyakorlatban mindig korlátozott és soha nem teljes. Így vagy úgy, a gépi tanulási eszközök lehetővé teszik a spamdexelés problémájának meglehetősen nagy hatékonyságú megoldását. [13]

Jegyzetek

  1. 1 2 3 4 Tie-Yan Liu (2009), Learning to Rank for Information Retrieval , Foundations and Trends in Information Retrieval: Vol. 3: 3. sz. 225-331, ISBN 978-1-60198-244-5 , DOI 10.1561/1500000016  . Diák elérhetők Archiválva : 2010. március 31. T. Lew beszédéből a WWW 2009 konferencián.
  2. Keresőmotorok optimalizálása átkattintási adatok segítségével . Letöltve: 2009. november 18. Az eredetiből archiválva : 2009. december 29..
  3. Statikus minőségi pontszámok és rendelés . Letöltve: 2009. november 18. Az eredetiből archiválva : 2009. július 7..
  4. Richardson, M.; Prakash, A. és Brill, E. (2006). „Beyond PageRank: Machine Learning for Static Ranking” (PDF) . A 15. nemzetközi világhálókonferencia anyaga . pp. 707–715. Archivált (PDF) az eredetiből ekkor: 2009-08-15. Elavult használt paraméter |deadlink=( súgó )
  5. LETOR 3.0. Összehasonlító gyűjtemény az információ-visszakeresési rangsorolás megtanulásához . Letöltve: 2009. november 18. Az eredetiből archiválva : 2012. február 16..
  6. Gulin A., Karpovich P., Raskovalov D., Segalovich I. Yandex at ROMIP'2009. Rangsoroló algoritmusok optimalizálása gépi tanulási módszerekkel. Archiválva : 2009. november 22. a Wayback Machine -nél
  7. A Yahoo elindítja a világ legnagyobb Hadoop gyártási alkalmazását , archiválva 2009. december 21-én a Wayback Machine -nél 
  8. Bing Search Blog: Felhasználói igények, szolgáltatások és a Bing mögötti tudomány archiválva 2009. november 25-én a Wayback Machine -nél 
  9. Roem.ru: A Yandex új Sznezhinsk formulát dobott piacra, most már ezer változó van 250 helyett . Letöltve: 2009. november 20. Az eredetiből archiválva : 2009. november 13..
  10. Internet Mathematics 2009 (elérhetetlen link) . Letöltve: 2009. november 20. Az eredetiből archiválva : 2009. november 15.. 
  11. Hajlamosak-e katasztrofális hibákra a gépi tanult modellek? Az eredetiből archiválva : 2010. szeptember 18.  (Angol)
  12. Perceptrons: An Associative Learning Network archiválva : 2011. augusztus 9. a Wayback Machine -nél 
  13. Keresőmotor spamészlelés. 15. rész: Mesterséges neurális hálózatok alkalmazása archiválva : 2013. március 10. a Wayback Machine -nél  (orosz)