A jellemzők kinyerése az absztrakció egy fajtája , egy dimenziócsökkentő folyamat , amelynek során a kezdeti változók eredeti halmaza kezelhetőbb csoportokká (jellemzőkké) redukálódik további feldolgozás céljából, miközben elegendő készlet marad az eredeti adatkészlet pontos és teljes leírásához [1] . A funkciók kinyerését a gépi tanulásban , a mintafelismerésben és a képfeldolgozásban használják . A jellemzők kinyerése az eredeti adathalmazból indul ki, és olyan másodlagos értékeket ( jellemzőket ) származtat, amelyeknél informatívnak és nem redundánsnak kell lenni, ami hozzájárul a későbbi gépi tanulási folyamathoz és a lépések általánosításához, és bizonyos esetekben egy az adatok jobb emberi értelmezése .
Ha egy algoritmus bemeneti adatai túl nagyok ahhoz, hogy feldolgozzák, és fennáll annak a gyanúja, hogy az adatok redundánsak (például lábban és méterben is mérnek, vagy a képek megismételhetőségét pixelekkel ábrázolják ), akkor redukált jellemzőkészletté alakítva (úgynevezett jellemzővektor ) . A kezdeti jellemzők részhalmazának meghatározását jellemzőválasztásnak [ 2] nevezzük . A kiválasztott jellemzőket a bemeneti adatokban szereplő szükséges információkkal ellenőrzik, így a kívánt feladat az eredeti teljes adatok helyett ezzel a csökkentett készlettel hajtható végre.
A jellemzők kinyerése magában foglalja a nagy adathalmaz leírásához szükséges erőforrások számának csökkentését. Összetett adatok elemzésekor az egyik fő problémát az érintett változók száma okozza. A nagyszámú változót tartalmazó elemzés általában sok memóriát és feldolgozási teljesítményt igényel, és az osztályozási probléma algoritmusainak túlillesztését is okozhatja a betanító halmazhoz képest, ami általában rossz eredményekhez vezet az új minták esetében. A jellemzők kinyerése a fő kifejezés a változók kombinációinak létrehozására szolgáló módszerekre, amelyek segítségével megkerülhetjük ezeket a problémákat, miközben az adatokat kellő pontossággal írjuk le. Sok gépi tanulással foglalkozó szakember úgy véli, hogy a hatékony modell felépítésének kulcsa a megfelelően optimalizált jellemzők kinyerése [3] .
Az eredmények javíthatók az alkalmazás-specifikus funkciók beépített készletével, amelyeket általában szakértők készítenek. Az egyik ilyen folyamatot jellemző tervezésnek nevezik . Alternatív megoldásként általános méretcsökkentési technikákat alkalmaznak, mint például:
A funkciókivonat alkalmazásának egyik nagyon fontos területe a képfeldolgozás , amely algoritmusokat használ a digitális kép- vagy videofolyam különböző kívánt részei vagy alakjai (jellemzői) felismerésére és elkülönítésére . A módszerek egyik fontos alkalmazási területe az optikai karakterfelismerés .
Számos aggregációs csomag szolgáltatás kivonást és méretcsökkentést biztosít. Az olyan általános numerikus feldolgozó rendszerek, mint a MATLAB , a Scilab , a NumPy és az R nyelv , beépített parancsok segítségével támogatnak néhány egyszerű jellemzőkivonási technikát (például főkomponens-elemzést ). Speciálisabb algoritmusok gyakran hozzáférhetők nyilvánosan elérhető szkriptekként vagy harmadik féltől származó fejlesztésekként. Vannak olyan csomagok is, amelyeket speciális gépi tanulási alkalmazásokhoz terveztek, kifejezetten a funkciók kivonására. [négy]
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|