Tájékoztató leírás

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2017. december 2-án felülvizsgált verziótól ; az ellenőrzéshez 1 szerkesztés szükséges .

Egy objektum jellemző leírása ( magyar  jellemzővektor ) egy olyan vektor , amely egy adott objektum adott jellemzőkészletének megfelelő értékekből áll. A funkcióértékek különböző típusúak lehetnek, nem feltétlenül numerikusak . Ez az egyik leggyakoribb adatbeviteli módszer a gépi tanulásban .

Formális definíció

Jelölje X -szel valamely tárgyterület tárgyainak, helyzeteinek, precedenseinek halmazát . Például az orvostudományban előforduló gépi tanulási problémáknál a páciensek, a hitelezés területén a hitelbírálat során -  hitelfelvevők , a spamszűrési problémában  - az egyéni üzenetek lehetnek precedensek.

A jellemző ( angol  jellemző ) egy objektum, azaz egy kijelző valamilyen jellemzőjének mérésének eredménye:

,

ahol  a megengedett attribútumértékek halmaza.

A jellemzőértékek lehetnek szövegek , grafikonok , digitalizált képek , numerikus sorozatok , adatbázis rekordok stb. A készlettől függően a funkciók a következő típusokra oszthatók:

Gyakran előfordulnak különböző típusú jellemzőkkel kapcsolatos problémák, amelyekre nem minden módszer alkalmas.

Ha jellemzők adottak , akkor a vektort az objektum jellemző leírásának nevezzük .

A gépi tanulásban a jellemzőleírások magukkal az objektumokkal azonosíthatók, vagyis: . Ebben az esetben a halmazt jellemzőtérnek nevezzük .

A jellemző-objektum mátrix (információs mátrix, bemeneti adatmátrix)hosszúságú(sorok,oszlopok)írvaEnnek a mátrixnak az oszlopai jellemzőknek felelnek meg, és minden sor egy tanulási objektum jellemző leírása. Ez a fajta reprezentáció elfogadott az osztályozás és a regresszióanalízis problémáiban , és sok tanulási módszer feltételezi az adatok ilyen reprezentációját.

Alkalmazásokban

Előfordulhat, hogy a gyakorlatban felmerülő problémák nem tartalmaznak matematikai feldolgozásra alkalmas adatokat. Például a levélszemétszűrési feladatban az objektumokat - üzeneteket - tetszőleges hosszúságú szövegek jelenítik meg, tartalmazhatnak különféle formátumú mellékleteket stb. Az adatok szabványos formába hozásához egy eljárást alkalmaznak - jellemzők kivonása adatokból vagy jellemzők generálása ( .funkciógenerálás ) . Így minden leképezést egy halmazból egy értékkészletre, amely alkalmas a feldolgozásra, jellemzőnek tekinthető. Semmi sem akadályoz meg bennünket abban, hogy valamilyen osztályozási (vagy regressziós) algoritmust vegyünk ilyen leképezésnek, amely lehetővé teszi az algoritmusok összetett összetételének előállítását.   

Irodalom

Linkek