A robusztusság ( eng. robustness ← robusztus "erős; erős; szilárd; stabil") egy statisztikai módszer olyan tulajdonsága, amely a különböző típusú kibocsátások vizsgálatának eredményére való befolyás függetlenségét, az interferencia ellenállását jellemzi.
Outlier (robusztus) módszer - olyan módszer, amely a kiugró értékek azonosítására, hatásuk csökkentésére vagy a mintából való kizárására irányul .
A gyakorlatban már kis számú kiugró érték (outlier) jelenléte a mintákban nagymértékben befolyásolhatja a vizsgálat eredményét, például a legkisebb négyzetek módszere és a maximális likelihood módszer adott eloszlásokon ilyen torzulásoknak van kitéve, és a a vizsgálat eredményeként megszerzett értékek önmaga számára elveszíthetik értelmüket. Az ilyen interferencia hatásának kiküszöbölésére különféle megközelítéseket alkalmaznak a "rossz" megfigyelések (outlierek) hatásának csökkentésére vagy teljes kiküszöbölésére. A kiugró módszerek fő feladata a „rossz” megfigyelés megkülönböztetése a „jó”-tól, és a legegyszerűbb, szubjektív (a kutató belső érzésein alapuló) megközelítés is jelentős előnyökkel járhat, azonban a motivált elutasításnál. a kutatók még mindig olyan módszereket használnak, amelyek valamilyen szigorú matematikai indokláson alapulnak. Ez a folyamat egy statisztikus számára nagyon nem triviális feladat, és a statisztikatudomány egyik területét határozza meg .
Vegyünk egy klasszikus példát a robusztus és nem robusztus jellemzőkre az átlagjövedelem kiszámításához. Legyen 10 ember, akik közül kilencen 100 rubelt keresnek, egy pedig 500 rubelt. A számok számtani átlaga 140, bár a mintában szereplők 90%-a kevesebbet keres. Ugyanakkor a minta mediánja 100: a nagyon eltérő érték nem befolyásolta a medián értékét. Így a medián egy robusztus jellemző példája, míg a számtani átlag nem.
A kiugró stabilitás (robusztusság) a statisztikában a mintában lévő különböző eltérésekre és inhomogenitásokra való érzékenységet érti , amely bizonyos, általában ismeretlen okokkal társul [1] [2] . Ezek lehetnek megfigyeléseket regisztráló detektorhibák, valaki lelkiismeretes vagy szándékos kísérlete a minta „beillesztésére”, mielőtt az bekerülne a statisztikába, tervezési hibák, becsúszott elírások és még sok más. Például az eloszlási törvény eltolási paraméterének legkiugróbb becslése a medián , ami intuitív szinten teljesen nyilvánvaló (a szigorú bizonyításhoz azt a tényt kell használni, hogy a medián egy csonka M-becslés, lásd alább ) [ 1] . A közvetlenül „hibás” megfigyeléseken kívül számos olyan megfigyelés is előfordulhat, amelyek eltérő eloszlást követnek . Az eloszlási törvények feltételessége miatt , és ez nem más, mint egy leírási modell, maga a minta tartalmazhat némi eltérést az ideálistól.
Ennek ellenére a parametrikus megközelítés olyannyira megszokta, bizonyítja egyszerűségét és célszerűségét, hogy abszurdum megtagadni. Ezért szükségessé vált a régi modellek új feladatokhoz való adaptálása.
Külön érdemes hangsúlyozni, és nem szabad elfelejteni, hogy az elutasított megfigyelések külön, közelebbi odafigyelést igényelnek. Azok a megfigyelések, amelyek az egyik hipotézishez "rossznak" tűnnek, konzisztensek lehetnek egy másik hipotézissel. Végezetül, az élesen megkülönböztetett megfigyelések korántsem mindig „házasság”. Az egyik ilyen megfigyelés például a génsebészet esetében több millió mást is megér, amelyek alig különböznek egymástól.
Az inhomogenitások befolyásának korlátozására vagy teljes kiküszöbölésére számos különböző megközelítés létezik. Közülük két fő irány emelkedik ki.
A minta csoportosításával az egyes megfigyelések befolyása drasztikusan csökkenthető anélkül, hogy elvetnénk őket. Az intervallumokra való felosztás nem különösebben nehéz, és nagyon kézzelfogható eredményt ad. Három leggyakoribb particionálási módszer létezik.
Külön megközelítés a kiugró módszerek felépítésében az eloszlási törvény paramétereinek becslése "szennyezett" mintára a Hampel által javasolt megközelítéssel [1] . Annak vizsgálatára, hogy egyetlen megfigyelés milyen hatással van az eloszlási törvény egyik vagy másik paraméterének értékelésére (a vizsgált statisztikára), Hampel bevezeti az úgynevezett befolyásolási függvényt , amely nem más, mint ennek a statisztikának a származéka .
A függvényt valamilyen minta függvényeként vezetjük be az eloszlásból a paraméterrel (ez is ). attól függ . Így van ez a törvény és a paraméter függvénye is . A következetesség és szabályosság néhány feltételének is eleget teszünk :
Ennek a függvénynek a deriváltja egy eloszlású pontban :
ahol:
Behelyettesítéskor egységnyi tömeget rendelünk az eseményhez a helyett , aminek eredményeként csak :
Ezt a függvényt befolyásoló függvénynek nevezzük .
A befolyásoló függvény jelentését a határ behelyettesítésével és cseréjével demonstráljuk , ennek eredményeként a kifejezés átalakul -ra , ami megfelel annak a helyzetnek, amikor egy újabb újat adunk az eloszlásnak engedelmeskedő megfigyelésekből álló mintához . Így nyomon követi a használt funkcionalitás reakcióját az elvégzett kiegészítésre, megmutatva egyetlen megfigyelés hozzájárulásának hatását a teljes adatkészlet értékelésére.
Az egyéni megfigyelések hatásának jellemzésére bevezetjük a nagy hibára való érzékenység fogalmát is :
Ha a befolyásoló függvény korlátozott, akkor a megfelelő becslést B(be)-robustnak nevezzük .
Az eloszlási törvények paramétereinek leghatékonyabb és legszélesebb körben használt becslései a maximum likelihood becslések (MLE), amelyeket a következő feltételek valamelyike határoz meg:
ahol csoportosítatlan minta esetén és csoportos minta esetén,
M-becslések – van egy bizonyos általánosítás a tömegpusztító fegyverekről. Hasonlóan határozzák meg őket az egyik reláció:
Ha a behelyettesítésben szabályossági feltételt szabunk , és 0-hoz képest megkülönböztetjük :
akkor nem nehéz megkapni az M-becslések befolyásoló függvényének kifejezését :
Ez a kifejezés arra enged következtetni, hogy az M-becslések ekvivalensek egy nem nulla állandó tényezőig.
Könnyen ellenőrizhető, hogy a szabványos normál eloszlási törvény MLE-jénél az eltolási paraméter és a skálaparaméter befolyásoló függvényei rendre úgy néznek ki:
Ezek a funkciók korlátlanok, ami azt jelenti, hogy az MLE nem kitöréstűrő (robusztus) a B-robusztusság szempontjából.
Ennek korrigálása érdekében az M-becslések mesterségesen korlátozzák, ezért korlátozzák (lásd az M-becslések kifejezését), felső gátat állítva a kiugró (a paraméterek várható értékétől távoli) megfigyelések befolyásának. Ez az úgynevezett csonka M-becslések bevezetésével történik, amelyeket a következő kifejezés határoz meg:
ahol , és az eltolási és skálaparaméterek becslései.
A csonka M-becslések közül a csonka MLE [1] optimális a B-robusztusság szempontjából .
Az egyenlet megoldásához
,valamilyen numerikus módszert kell alkalmazni . Ehhez ki kell választani a kezdeti közelítéseket. A nulla eltolási paraméter általában a medián , a skálaparaméter pedig a mediántól való eltérések mediánjának többszöröse.
Például, ha meg kell becsülnie az eltolási paramétert, például a normál eloszlási törvényben , használhatja Newton módszerét az egyenlet gyökereinek numerikus megtalálására . Ennek eredményeként a paraméter megtalálásának teljes eljárása a kifejezés iteratív kiszámítására redukálódik:
ahol a különböző tartományú eloszlások kiegyenlítésére használt skálaparaméter becslése.