A gépi tanulásban és a mintafelismerésben a jellemző egy megfigyelt jelenség egyéni mérhető tulajdonsága vagy jellemzője [1] . Az informatív, megkülönböztető és független jellemzők kiválasztása kritikus lépés a hatékony mintafelismerési , osztályozási és regressziós algoritmusok számára . A jellemzők általában numerikusak, de a szintaktikai mintafelismerésben strukturális jellemzőket, például karakterláncokat és gráfokat használnak . A "jellemző" fogalma a statisztikai technikákban, például a lineáris regresszióban használt magyarázó változókhoz kapcsolódik .
A numerikus jellemzők halmazát kényelmesen egy jellemzővektor írja le. Példa a jellemzővektorból ( perceptronhoz társított) két jellemzős osztályozás elérésére a jellemzővektor és a súlyvektor pontszorzatának kiszámítása , az eredmény összehasonlítása egy küszöbértékkel, és annak eldöntése, hogy az objektum melyik osztályba tartozik. az összehasonlítás alapján.
A jellemzővektorokra támaszkodó osztályozási algoritmusok közé tartozik a legközelebbi szomszéd osztályozása , neurális hálózatok és statisztikai technikák , például a Bayes-féle megközelítés .
A karakterfelismerésnél a funkciók magukban foglalhatják a hisztogramokat , beleértve a fekete pontok számát a vízszintes és függőleges irányban, a belső üregek számát, a körvonalak kiemelését és még sok mást.
A beszédfelismerésben a fonémafelismerés funkciói közé tartozhat a zaj, a hangok hossza, a relatív hangerő, a szűrőillesztés stb.
A spamészlelő algoritmusok jellemzői közé tartozhat néhány e-mail fejléc megléte vagy hiánya, az e-mail szerkezete, nyelve, bizonyos kifejezések gyakorisága, a szöveg nyelvhelyessége.
A számítógépes látásban számos lehetséges jellemző létezik , például élek és tárgyak.
A mintafelismerésben és a gépi tanulásban a jellemzővektor numerikus jellemzők n-dimenziós vektora , amely valamilyen objektumot reprezentál. A gépi tanulásban számos algoritmus megköveteli az objektumok numerikus ábrázolását, mivel az ilyen ábrázolások megkönnyítik a feldolgozást és a statisztikai elemzést. Amikor képekkel dolgozik, egy jellemző képpontoknak (pixeleknek), míg a szöveg jellemzői a szövegben előforduló kifejezések használatának gyakoriságának felelhetnek meg. A jellemzővektorok egyenértékűek a statisztikai eljárásokban, például a lineáris regresszióban használt magyarázó változók vektoraival . A jellemzővektorokat gyakran kombinálják súlyozással a pontszorzat segítségével egy lineáris előrejelző függvény létrehozásához, amelyet az előrejelzés pontszámának meghatározására használnak.
Az ezekhez a vektorokhoz társított vektorteret gyakran jellemzőtérnek nevezik . Számos dimenziócsökkentési technika használható a jellemzőtér méretének csökkentésére .
A magasabb szintű jellemzők a már ismert jellemzőkből származtathatók, és hozzáadhatók a jellemzővektorhoz. Például betegségek tanulmányozásához hasznos az „életkor” attribútum, amely a következőképpen definiálható: életkor = „halálozás éve” mínusz „születési év” . Ezt a folyamatot jellemzőépítésnek [2] [3] nevezik . A jellemzőépítés az építési operátorok halmazának alkalmazása a meglévő jellemzők halmazára, ami új funkciók létrehozását eredményezi. Ilyen szerkezeti operátorok például az egyenlőségtesztek {=, ≠}, aritmetikai operátorok {+,−,×, /}, tömboperátorok {max(S), min(S), átlag(S)} és összetettebb operátorok, például a count(S,C) [4] , amely megszámolja az S jellemzővektor azon jellemzőit, amelyek eleget tesznek valamilyen C feltételnek, vagy például egy másik felismerési osztály távolságát, amelyet valamilyen eszköz általánosít. A jellemzőépítés hatékony eszköznek számít a pontosság növelésére és a szerkezet megértésének javítására, különösen nagy dimenziós problémák esetén [5] . Az alkalmazások közé tartozik a betegségek tanulmányozása és az érzelmek felismerése beszélgetés közben [6] .
Előfordulhat, hogy a nyers funkciók kezdeti készlete redundáns és túl nagy a feldolgozáshoz. Így számos gépi tanulási és mintafelismerő alkalmazásban egy előzetes lépés a funkciók egy részhalmazának kiválasztása vagy egy új, redukált szolgáltatáskészlet létrehozása, amely az általánosság és az értelmezhetőség javítását szolgálja.
A jellemzők elkülönítése vagy kiválasztása a művészet és a tudomány kombinációja. Az erre szolgáló rendszereket jellemző tervezési rendszereknek nevezzük . A jellemzők kinyerése és kiválasztása sokféle lehetőséggel való kísérletezést, valamint az automatizált technikák intuícióval való kombinálásának képességét és egy szűk szakember tudását követeli meg ezen a területen. Ennek a folyamatnak az automatizálását funkciótanulásnak nevezik , ahol a gép nemcsak saját maga tanulására használja a szolgáltatásokat, hanem új funkciókat is megtanul.