Az első és a második típusú hibák

Az első típusú hiba ( α-hiba, hamis pozitív következtetés ) - olyan helyzet, amikor a helyes nullhipotézist elutasítják (a jelenségek vagy a kívánt hatás közötti kapcsolat hiányáról).

A második típusú hiba  ( β-hiba, hamis negatív következtetés ) olyan helyzet, amikor egy helytelen nullhipotézist fogadunk el.

A matematikai statisztikában ezek a statisztikai hipotézisvizsgálati problémák kulcsfogalmai . Ezeket a fogalmakat gyakran használják más területeken is, amikor valamilyen kritérium (teszt, ellenőrzés, mérés) alapján kell „bináris” döntést hozni (igen / nem), amely bizonyos valószínűséggel hamis eredményt ad.

Definíciók

Adjunk meg egy mintát egy ismeretlen közös eloszlásból , és állítsuk fel a statisztikai hipotézisek tesztelésének bináris problémáját:

ahol  a nullhipotézis és  az alternatív hipotézis . Tegyük fel, hogy adott egy statisztikai teszt

,

a minta egyes implementációinak összehasonlítása a rendelkezésre álló hipotézisek egyikével. Ekkor a következő négy helyzet lehetséges:

  1. A minta eloszlása ​​megfelel a hipotézisnek , és pontosan meghatározza a statisztikai kritérium, azaz .
  2. A minta eloszlása ​​megfelel a hipotézisnek , de a statisztikai teszt hibásan elutasítja, azaz .
  3. A minta eloszlása ​​megfelel a hipotézisnek , és pontosan meghatározza a statisztikai kritérium, azaz .
  4. A minta eloszlása ​​megfelel a hipotézisnek , de a statisztikai teszt hibásan elutasítja, azaz .

A második és negyedik esetben azt mondjuk, hogy statisztikai hiba lépett fel, és ezt első, illetve második típusú hibának nevezzük [1] [2] .

  Helyes hipotézis
     
A kritérium
 alkalmazásának  eredménye
   jogosan fogadták el helytelenül érkezett  ( második típusú
hiba )
   helytelenül elutasítva  ( I.
típusú hiba )
jogosan utasították el

Az első és második típusú hibák jelentéséről

A fenti definícióból látható, hogy az első és a második típusú hibák kölcsönösen szimmetrikusak, vagyis ha a és a hipotéziseket felcseréljük , akkor az első típusú hibák második típusú hibává válnak, és fordítva. A legtöbb gyakorlati helyzetben azonban nincs tévedés, hiszen általánosan elfogadott, hogy a nullhipotézis az „alapértelmezett” állapotnak (a dolgok természetes, leginkább elvárt állapotának) felel meg – például, hogy a vizsgált személy egészséges, vagy a fémdetektoron áthaladó utasnak nincsenek tiltott fémtárgyai. Ennek megfelelően az alternatív hipotézis az ellenkező helyzetet jelöli, amelyet általában kevésbé valószínűnek, rendkívülinek, valamilyen reakciót igénylőnek értelmeznek.

Ezzel együtt az I. típusú hibát gyakran téves riasztásnak , téves pozitívnak vagy téves pozitívnak nevezik . Ha például a vérvizsgálat betegség jelenlétét mutatta ki, bár az illető valójában egészséges, vagy egy fémdetektor riasztást adott egy fém övcsat kioldásával, akkor az elfogadott hipotézis nem helytálló, ezért I. típusú hiba történt. A „hamis pozitív” szónak ebben az esetben semmi köze magának az eseménynek a kívánatosságához vagy nemkívánatosságához.

A kifejezést széles körben használják az orvostudományban. Például a betegségek diagnosztizálására tervezett tesztek néha pozitív eredményt adnak (azaz kimutatják, hogy a betegnek betegsége van), amikor valójában a beteg nem szenved ebben a betegségben. Az ilyen eredményt hamis pozitívnak nevezzük .

Más területeken általában hasonló jelentésű kifejezéseket használnak, például „false pozitív”, „false alarm” stb. Az információtechnológiában az angol false pozitív kifejezést gyakran fordítás nélkül használják.

A hamis pozitív eredmények lehetősége miatt nem lehet teljesen automatizálni a sokféle fenyegetés elleni küzdelmet. Általános szabály, hogy a hamis pozitív eredmény valószínűsége korrelál az esemény kihagyásának valószínűségével (második típusú hiba). Azaz: minél érzékenyebb a rendszer, annál veszélyesebb eseményeket észlel, és ezáltal megelőz. De az érzékenység növekedésével elkerülhetetlenül nő a hamis pozitív eredmények valószínűsége. Ezért egy túl érzékeny (paranoiás) konfigurált védelmi rendszer az ellenkezőjére fajulhat, és oda vezethet, hogy az ebből származó járulékos kár meghaladja a hasznot.

Ennek megfelelően a II. típusú hibát néha elmulasztott eseménynek vagy hamis negatívnak nevezik . Az illető beteg, de a vérvétel ezt nem mutatta ki, vagy az utasnál hidegfegyver van, de a fémdetektor kerete nem észlelte (pl. amiatt, hogy a keret érzékenysége úgy van beállítva, hogy csak érzékelni tudja nagyon masszív fémtárgyak). Ezek a példák II. típusú hibára utalnak. A "hamis negatív" szónak ebben az esetben semmi köze magának az eseménynek a kívánatosságához vagy nemkívánatosságához.

A kifejezést széles körben használják az orvostudományban. Például a betegségek diagnosztizálására tervezett tesztek néha negatív eredményt adnak (vagyis azt mutatják ki, hogy a betegnek nincs betegsége), holott a beteg valójában ebben a betegségben szenved. Az ilyen eredményt fals negatívnak nevezzük .

Más területeken általában hasonló jelentésű kifejezéseket használnak, például "elmaradt egy esemény" stb.

Mivel az I. típusú hiba valószínűsége általában csökken a II. típusú hiba valószínűségének növekedésével, és fordítva, a döntéshozatali rendszer hangolása kompromisszumot kell, hogy jelentsen. Az, hogy pontosan hol található az ilyen kiigazítással elért egyensúlyi pont, mindkét típusú hiba elkövetésének következményeinek felmérésétől függ.

Hibavalószínűség ( szignifikanciaszint és teljesítmény)

A statisztikai hipotézisek tesztelése során előforduló I. típusú hiba valószínűségét szignifikanciaszintnek nevezzük , és általában görög betűvel jelöljük (innen ered a névhiba).

A második típusú hiba valószínűségének nincs külön általánosan elfogadott neve, görög betűvel jelöljük (innen a névhiba). Ez az érték azonban szorosan összefügg egy másik értékkel, amelynek nagy statisztikai jelentősége van - a kritérium erejével . A képlet alapján számítják ki. Így minél nagyobb a kritérium hatványa, annál kisebb a valószínűsége a II. típusú hiba elkövetésének.

Mindkét jellemzőt általában az úgynevezett tesztteljesítmény -függvény segítségével számítják ki. Az I. típusú hiba valószínűsége egy nullhipotézis alapján számított hatványfüggvény. Rögzített méretű mintán alapuló teszteknél a II. típusú hiba valószínűsége egy mínusz egy hatványfüggvény, amelyet úgy számítanak ki, hogy feltételezzük, hogy a megfigyelések eloszlása ​​megfelel az alternatív hipotézisnek. Az egymást követő kritériumokra ez akkor is igaz, ha a feltétel egyes valószínűséggel áll le (az alternatívából származó eloszlás alapján).

A statisztikai tesztekben általában kompromisszum van az I. és II. típusú hibák elfogadható szintje között . Gyakran egy küszöbértéket használnak a döntés meghozatalához, amely változhat annak érdekében, hogy a teszt szigorúbb, vagy fordítva, lágyabb legyen. Ez a küszöbérték a statisztikai hipotézisek tesztelésekor adott szignifikanciaszint . Például fémdetektor esetében a készülék érzékenységének növelése az 1-es típusú hiba (téves riasztás) kockázatának növekedéséhez vezet, míg az érzékenység csökkentése a 2-es típusú hiba kockázatát (a tiltott hiba hiánya) tétel).

Használati példák

Radar

A légi célpontok radarérzékelésének feladatában, elsősorban a légvédelmi rendszerben az első és második típusú hibák, a "téves riasztás" és a "cél hiányzás" szóhasználattal, mind elméleti, mind gyakorlati fő elemei. radarállomások építése . Valószínűleg ez az első példa a statisztikai módszerek következetes alkalmazására a teljes műszaki területen.

Számítógépek

Az I. és II. típusú hibák fogalmát széles körben használják a számítógépek és a szoftverek területén.

Számítógépes biztonság

A számítástechnikai rendszerek sérülékenységeinek jelenléte ahhoz a tényhez vezet, hogy egyrészt meg kell oldani a számítógépes adatok integritásának megőrzésének problémáját, másrészt biztosítani kell a legális felhasználók normál hozzáférését ezekhez az adatokhoz ( lásd a számítógép biztonságát ). Ebben az összefüggésben a következő nemkívánatos helyzetek lehetségesek [3] :

  • amikor a jogosult felhasználókat szabálysértőnek minősítik ( I. típusú hibák );
  • amikor az elkövetőket jogosult felhasználóknak minősítik ( második típusú hibák ).
Spam szűrés

Az 1-es típusú hiba akkor fordul elő, ha egy spamblokkoló/-szűrő mechanizmus tévesen spamnek minősít egy jogos e- mailt , és megakadályozza annak megfelelő kézbesítését. Míg a legtöbb anti-spam algoritmus képes blokkolni/szűrni a nem kívánt e-mailek nagy százalékát, sokkal fontosabb a "téves riasztások" (a kívánt üzenetek hibás blokkolása) számának minimalizálása.

A II. típusú hiba akkor fordul elő, ha egy levélszemét-elhárító rendszer tévesen átenged egy nem kívánt üzenetet, és „nem spamnek” minősíti. Az ilyen hibák alacsony szintje a levélszemét-elhárító algoritmus hatékonyságát jelzi.

Eddig nem sikerült olyan levélszemét-elhárító rendszert létrehozni, amelynél ne lenne összefüggés az első és a második típusú hibák valószínűsége között. A spam hiányának valószínűsége a modern rendszerekben 1% és 30% között van. Az érvényes üzenet téves elutasításának valószínűsége 0,001% és 3% között van. A rendszer megválasztása és beállításai az adott címzett körülményeitől függenek: egyes címzettek esetében a jó levelek 1%-ának elvesztésének kockázatát jelentéktelennek értékelik, másoknál pedig a 0,1%-os veszteséget is elfogadhatatlan.

Rosszindulatú szoftver

Az I. típusú hiba fogalmát akkor is használják, ha a víruskereső szoftver egy ártalmatlan fájlt tévesen vírusként minősít . A helytelen észlelést heurisztika vagy az adatbázisban lévő hibás vírusszignatúra okozhatja. Hasonló problémák adódhatnak trójai- és kémprogram -elhárító programokkal is.

Keresés számítógépes adatbázisokban

Az adatbázisban történő keresés során az első típusú hibák közé tartoznak a keresés által kiadott dokumentumok, annak ellenére, hogy a keresési lekérdezéssel irrelevánsak (inkonzisztensek). A hamis pozitív értékek jellemzőek a teljes szövegű keresésre , amikor a keresési algoritmus elemzi az adatbázisban tárolt összes dokumentum teljes szövegét, és megpróbálja megfeleltetni a felhasználó által a lekérdezésben megadott egy vagy több kifejezést.

A legtöbb téves pozitív eredmény a természetes nyelvek összetettségéből és a szavak többértelműségéből adódik: például az „otthon” egyaránt jelentheti „egy személy lakóhelyét” és „egy webhely gyökéroldalát”. Az ilyen hibák száma csökkenthető egy speciális szótár használatával . Ez a megoldás azonban viszonylag költséges, mivel az ilyen szókincs- és dokumentumjelölést ( indexelést ) szakembernek kell elkészítenie.

Optikai karakterfelismerés (OCR)

A különféle észlelési algoritmusok gyakran az első típusú hibákat adják . Az OCR-szoftver képes felismerni az "a" betűt olyan helyzetben, amikor valójában több pont van.

Utasok és poggyász átvizsgálás

I. típusú hibák rendszeresen előfordulnak minden nap a repülőtéri átvizsgáló számítógépes rendszerekben. A beléjük szerelt detektorokat úgy tervezték, hogy megakadályozzák a fegyverek repülőgép fedélzeten történő szállítását; azonban gyakran olyan magas érzékenységi szintre vannak beállítva, hogy naponta sokszor tüzelnek kisebb tárgyakra, például kulcsokra, övcsatokra, pénzérmékre, mobiltelefonokra, cipőtalpban lévő szögekre stb. (lásd: Robbanóanyag-észlelés ). anyagok, fémdetektorok ).

Így nagyon magas a téves riasztások (tisztességes utas bűnözőként való azonosítása) és a helyes riasztások (valóban tiltott tárgyak észlelése) aránya.

Biometria

Az első és a második típusú hibák nagy problémát jelentenek a biometrikus szkennelő rendszerekben, amelyek a szem íriszének vagy retinájának , arcvonásainak stb. felismerését használják. Az ilyen szkennelő rendszerek tévesen azonosíthatnak valakit egy másik, a rendszer által „ismert” személlyel, információval. kiről van tárolva az adatbázis (például lehet bejelentkezési joggal rendelkező személy, vagy gyanúsított bűnöző stb.). Az ellentétes hiba az lenne, ha a rendszer nem ismeri fel a jogos regisztrált felhasználót, vagy nem azonosítja a bűncselekmény gyanúsítottját [4] .

Tömeges orvosi diagnosztika (szűrés)

Az orvosi gyakorlatban jelentős különbség van a szűrés és a tesztelés között :

  • A szűrés viszonylag olcsó teszteket foglal magában, amelyeket emberek nagy csoportján végeznek el a betegség klinikai tüneteinek hiányában (például Pap-kenet ).
  • A tesztelés sokkal költségesebb , gyakran invazív eljárásokból áll, amelyeket csak azokon végeznek, akiknél a betegség klinikai tünetei vannak, és főként a feltételezett diagnózis megerősítésére szolgálnak.

Például az Egyesült Államok legtöbb állama megköveteli az újszülöttek szűrését hidroxi - fenil-ketonuria és hypothyreosis , többek között a veleszületett rendellenességek miatt . Az I. típusú hibák magas aránya ellenére ezeket a szűrési eljárásokat érdemesnek tartják, mert jelentősen megnövelik e rendellenességek nagyon korai stádiumban történő kimutatásának valószínűségét [5] .

A potenciális donorok HIV és hepatitis szűrésére használt egyszerű vérvizsgálatok jelentős I. típusú hibaszinttel rendelkeznek ; az orvosok azonban sokkal pontosabb (és ezért drágább) tesztekkel rendelkeznek annak ellenőrzésére, hogy egy személy valóban fertőzött-e e vírusok bármelyikével.

Talán a legszélesebb körben vitatott az I. típusú hiba az emlőrákszűrési eljárásokban ( mammográfia ). Az Egyesült Államokban a mammográfiás vizsgálatok I. típusú hibaaránya eléri a 15%-ot, ami a legmagasabb a világon [6] . A legalacsonyabb szintet Hollandiában figyelték meg , 1% [7] .

Orvosi vizsgálat

A II. típusú hibák jelentős problémát jelentenek az orvosi vizsgálatok során . Azt a hamis hiedelmet keltik a betegben és az orvosban, hogy a betegség nincs jelen, pedig a valóságban az. Ez gyakran nem megfelelő vagy nem megfelelő kezeléshez vezet. Tipikus példa a kerékpár-ergometria eredményeibe vetett bizalom a koszorúér érelmeszesedés kimutatásában , bár köztudott, hogy a kerékpár-ergometria a koszorúér véráramlásának csak azokat az akadályait tárja fel , amelyeket szűkület okoz .

A második típusú hibák súlyos és nehezen érthető problémákat okoznak, különösen akkor, ha a kívánt állapot széles körben elterjedt. Ha egy 10%-os II. típusú hibaarányú tesztet használnak olyan populáción, ahol az "igazi pozitív" esetek valószínűsége 70%, akkor sok negatív teszteredmény hamis lesz. (Lásd Bayes tételét ).

Az I. típusú hibák súlyos és nehezen érthető problémákat is okozhatnak. Ez akkor fordul elő, ha a keresett állapot ritka. Ha egy teszt I. típusú hibaaránya egy a tízezerhez, de a vizsgált minták (vagy személyek) csoportjában átlagosan egy az egymillióhoz az "igazi pozitív" esetek valószínűsége, akkor a pozitív eredmények többsége abból a tesztből hamis lesz [8] .

Vizsgálatok a természetfelettiben

Az I. típusú hiba kifejezést a paranormális jelenségekkel és a szellemekkel foglalkozó kutatók találták meg egy fénykép vagy felvétel vagy bármely más bizonyíték leírására, amelyet tévesen paranormális eredetűnek értelmeznek – ebben az összefüggésben az I. típusú hiba  bármilyen tarthatatlan "média bizonyítékok" (kép, videó, hang stb.), amelyek a szokásos magyarázattal rendelkeznek. [9]

Lásd még

Jegyzetek

  1. GOST R 50779.10-2000. "Statisztikai módszerek. A statisztika valószínűsége és alapjai. Kifejezések és meghatározások". — 26. o. Archiválva : 2018. november 9. a Wayback Machine -nél
  2. Easton VJ, McColl JH Statisztikai Szószedet: Hipotézisek tesztelése. Archiválva : 2011. szeptember 24. a Wayback Machine -nél
  3. Moulton RT Network Security   // Adatkezelés . - 1983. - 1. évf. 29 , iss. 7 . - 121-127 . o .
  4. Ez a példa csak azt az esetet jellemzi, amikor a hibák osztályozása a rendszer céljától függ: ha biometrikus szkennelést alkalmaznak az alkalmazottak befogadására ( null hipotézis : „a vizsgálaton átesett személy valóban alkalmazott”), akkor a hibás azonosítás legyen a második típusú hiba , és a „felismerés” – az első típusú hiba ; ha szkennelést használnak a bűnözők azonosítására ( null hipotézis : „a vizsgált személy nem bűnöző”), akkor a hibás azonosítás I. típusú hiba , a „felismeréstelenség” pedig II. típusú hiba lesz .
  5. Az újszülöttek szűrésével kapcsolatban a legújabb tanulmányok kimutatták, hogy az első típusú hibák száma 12-szerese a helyes felismerések számának (Gambrill, 2006. [1] )
  6. ↑ Az USA-ban előforduló I-es típusú hibák ilyen magas arányának egyik következménye, hogy egy tetszőleges 10 éves időszak alatt a megkérdezett amerikai nők fele legalább egy álpozitív mammográfiát kap. Ezek a hibás mammográfiák költségesek, így az utólagos (felesleges) kezelések éves költsége 100 millió dollár. Ráadásul a nőkben szükségtelen szorongást okoznak. Az Egyesült Államokban tapasztalható I-es típusú hibák magas aránya miatt azoknak a nőknek körülbelül 90-95%-a, akik életében legalább egyszer pozitív mammográfiás vizsgálatot kaptak, valójában nem szenvednek ebben a betegségben.
  7. Ezeknek a hibáknak a legalacsonyabb szintje Észak-Európában figyelhető meg, ahol a mammográfiás filmeket kétszer olvassák le, és megnövelt küszöbértéket határoznak meg a további vizsgálatokhoz ( a magas küszöb csökkenti a teszt statisztikai hatékonyságát ).
  8. Annak valószínűsége, hogy egy teszt eredménye I. típusú hiba , kiszámítható a Bayes-tétel segítségével .
  9. Egyes webhelyek példákat kínálnak az I. típusú hibákra, például: The Atlantic Paranormal Society (TAPS) Archiválva : 2005. március 28.  (lefelé mutató 2013. 05. 13-i állapot [3457 nap]) és Moorestown Ghost Research Archivált 2006. 06. 14 .  (downlink 2013. 05. 13. óta [3457 nap] - előzmények ) .