A példákból való tanulás a tanulás egy olyan fajtája, amelyben egy intellektuális rendszert pozitív és negatív példák halmazával mutatnak be, amelyek valamilyen korábban ismeretlen szabályszerűséghez kapcsolódnak. Az intelligens rendszerekben döntési szabályokat dolgoznak ki, amelyek segítségével a példasort pozitívra és negatívra osztják. Az elválasztás minőségét általában mintákból álló vizsgálati mintával ellenőrzik. [egy]
Legyen objektumok leírásainak halmaza, érvényes válaszok halmaza. Van egy ismeretlen célfüggőség – leképezés , amelynek értékei csak a végső betanítási minta objektumairól ismertek . Olyan algoritmust kell felépíteni, amely mind a minta elemeire, mind a teljes halmazra közelíti az ismeretlen célfüggést .
Azt is mondják, hogy az algoritmusnak képesnek kell lennie empirikus tények általánosítására , vagy általános ismeretek ( szabályszerűség , függőség ) származtatására bizonyos tényekből (megfigyelések, precedensek).
Egy veszteségfüggvény kerül bevezetésre , amely a válasz eltérését a helyes választól jellemzi egy tetszőleges objektumon .
A veszteségfüggvény tipikus megválasztása:
Bevezetünk egy minőségi funkcionálist , amely az algoritmus átlagos hibáját ( empirikus kockázatát ) jellemzi tetszőleges mintán
Az empirikus kockázatminimalizálási módszer az egyik legelterjedtebb megközelítés az algoritmusok precedensekből való tanulására. Ez abból áll, hogy egy adott algoritmusmodellben olyan algoritmust találunk, amely minimálisra csökkenti a tanítókészlet átlagos hibáját:
Így a tanulási probléma optimalizálásra redukálódik, és numerikus optimalizálási módszerekkel megoldható .
A minőségi függvény kis értéke a betanítási mintán nem garantálja, hogy a megszerkesztett algoritmus jól visszaállítja a célfüggést a teljes tértől . Fennáll a túlillesztés vagy a túlillesztés veszélye, ha konkrét adatokat próbálnak meg pontosabban leírni, mint amennyit az adatok zajszintje és magának a modellnek a hibája elvileg lehetővé tenne.
Könnyű példát hozni olyan algoritmusra, amely nullára minimalizálja az empirikus kockázatot, de nem rendelkezik általánosítási képességgel. Miután megkapta a betanítási mintát , megjegyzi azt, majd összehasonlítja a bemutatott objektumot a -ból származó betanítási objektumokkal . Egyezés esetén az algoritmus a helyes választ adja meg . Ellenkező esetben önkényes választ adnak ki. Az empirikus kockázat a lehető legkisebb értéket veszi fel nullával. Ez az algoritmus azonban nem képes visszaállítani a tanulási objektumon kívüli függőséget. Ez a példa meggyőzően mutatja, hogy a sikeres tanuláshoz nemcsak memorizálásra, hanem általánosításra is szükség van.
Szinte minden módszernél különös erőfeszítéseket tesznek a túlillesztés elkerülésére. Az empirikus kockázatminimalizálási módszer alkalmazhatóságának határait és a túlillesztés problémáját a tanulás statisztikai elmélete vizsgálja .
A jel egy leképezés , ahol a jel megengedett értékeinek halmaza. Ha jellemzők adottak , akkor a vektort az objektum jellemző leírásának nevezzük . Az indikatív leírások magukkal az objektumokkal azonosíthatók. Ebben az esetben a halmazt jellemzőtérnek nevezzük .
A készlettől függően a jelek a következő típusokra oszthatók:
Gyakran vannak alkalmazott problémák különböző típusú jellemzőkkel, amelyek megoldására nem minden módszer alkalmas.
A kezdeti információkat tájékoztató jellegű leírások formájában mutatjuk be. Előfordulhat, hogy egyes objektumok egyes jellemzőinek értékei hiányoznak. Ilyen esetek gyakran előfordulnak a gyakorlatban. Például előfordulhat, hogy a kísérletvezető nem rögzíti a megfigyelés eredményét; a válaszadó megtagadhatja a kérdőív kérdésének megválaszolását; a beteg nem megy át az ilyen típusú vizsgálaton; stb. Számos adatelemzési módszer azonban megköveteli, hogy a jellemzőleírások bemeneti mátrixát teljesen kitöltsék. A következő megközelítést gyakran használják a hiányzó értékek kitöltésére. Ha ezt a funkciót célnak tekintjük, egy algoritmus épül, amely megjósolja annak értékét más jellemzők függvényében. A hiányzó értékeket előrejelzésekkel töltik ki. Ez a művelet az összes hiányzó értékkel rendelkező funkcióval végrehajtódik.
Ha az előjel mennyiségi, akkor regressziós helyreállítási módszereket, ha az előjel kvalitatív (nominális), osztályozási módszereket alkalmazunk .