Egy objektum jellemző leírása ( magyar jellemzővektor ) egy olyan vektor , amely egy adott objektum adott jellemzőkészletének megfelelő értékekből áll. A funkcióértékek különböző típusúak lehetnek, nem feltétlenül numerikusak . Ez az egyik leggyakoribb adatbeviteli módszer a gépi tanulásban .
Jelölje X -szel valamely tárgyterület tárgyainak, helyzeteinek, precedenseinek halmazát . Például az orvostudományban előforduló gépi tanulási problémáknál a páciensek, a hitelezés területén a hitelbírálat során - hitelfelvevők , a spamszűrési problémában - az egyéni üzenetek lehetnek precedensek.
A jellemző ( angol jellemző ) egy objektum, azaz egy kijelző valamilyen jellemzőjének mérésének eredménye:
,ahol a megengedett attribútumértékek halmaza.
A jellemzőértékek lehetnek szövegek , grafikonok , digitalizált képek , numerikus sorozatok , adatbázis rekordok stb. A készlettől függően a funkciók a következő típusokra oszthatók:
Gyakran előfordulnak különböző típusú jellemzőkkel kapcsolatos problémák, amelyekre nem minden módszer alkalmas.
Ha jellemzők adottak , akkor a vektort az objektum jellemző leírásának nevezzük .
A gépi tanulásban a jellemzőleírások magukkal az objektumokkal azonosíthatók, vagyis: . Ebben az esetben a halmazt jellemzőtérnek nevezzük .
A jellemző-objektum mátrix (információs mátrix, bemeneti adatmátrix)hosszúságú(sorok,oszlopok)írvaEnnek a mátrixnak az oszlopai jellemzőknek felelnek meg, és minden sor egy tanulási objektum jellemző leírása. Ez a fajta reprezentáció elfogadott az osztályozás és a regresszióanalízis problémáiban , és sok tanulási módszer feltételezi az adatok ilyen reprezentációját.
Előfordulhat, hogy a gyakorlatban felmerülő problémák nem tartalmaznak matematikai feldolgozásra alkalmas adatokat. Például a levélszemétszűrési feladatban az objektumokat - üzeneteket - tetszőleges hosszúságú szövegek jelenítik meg, tartalmazhatnak különféle formátumú mellékleteket stb. Az adatok szabványos formába hozásához egy eljárást alkalmaznak - jellemzők kivonása adatokból vagy jellemzők generálása ( .funkciógenerálás ) . Így minden leképezést egy halmazból egy értékkészletre, amely alkalmas a feldolgozásra, jellemzőnek tekinthető. Semmi sem akadályoz meg bennünket abban, hogy valamilyen osztályozási (vagy regressziós) algoritmust vegyünk ilyen leképezésnek, amely lehetővé teszi az algoritmusok összetett összetételének előállítását.