Lindley paradoxona

A Lindley-féle paradoxon egy ellentétes helyzet a statisztikában , amelyben a bayesi és a gyakori megközelítések a hipotézisek tesztelésének problémájára különböző eredményeket adnak az előzetes eloszlás bizonyos választásaira . A két megközelítés közötti nézeteltérés kérdését Harold Jeffreys [1] 1939 -es könyve tárgyalta . A probléma Lindley paradoxonaként vált ismertté, miután Dennis Lindley egy 1957-es cikkében nem értett egyet a paradoxonnal [2] .

Bár a helyzetet paradoxonként írják le, a Bayes-féle és a gyakori megközelítések közötti különbség inkább azzal magyarázható, hogy alapvetően eltérő kérdések megválaszolására használják őket, semmint a két módszer közötti tényleges nézeteltéréssel.

Bárhogy is legyen, egy nagy osztály esetében a gyakori és a bayesi megközelítés közötti a priori különbségek a szignifikanciaszint megőrzéséből fakadnak. Ahogy Lindley megértette, „az elmélet nem igazolhatja a szignifikanciaszint fenntartásának gyakorlatát”, sőt „egyes számítások, amelyeket Pearson professzor a jelen cikk tárgyalása során végzett, rávilágít arra, hogy a szignifikanciaszint mennyire változhat a minta méretével, ha a veszteségek és az előzetes valószínűségek változatlanok maradnak”. [2] . Valójában, ha a kritikus érték elég gyorsan növekszik a minta méretével, akkor a gyakori és a Bayes-féle megközelítések közötti eltérés elhanyagolhatóvá válik [3] [4] .

A paradoxon leírása

Tekintsük néhány kísérlet eredményét két lehetséges magyarázattal, hipotézisekkel és , valamint néhány előzetes eloszlással , amelyek azt a bizonytalanságot jelentik, hogy melyik hipotézis pontosabb, mielőtt megvizsgálnánk .

Lindley paradoxona a következő esetekben található:

  1. Az eredmény "szignifikáns" a gyakorisági hipotézis tesztje szempontjából, jelentős bizonyítékot mutatva a hipotézis elutasítására , mondjuk 5%-os szinten.
  2. Az eredmény által adott hipotézis utólagos valószínűsége magas, ami erősen arra utal, hogy a hipotézis konzisztensebb, mint a hipotézis .

Ezek az eredmények egyszerre is megtörténhetnek, ha nagyon specifikusak, homályosabbak, és az előző eloszlás egyiküknek sem kedvez, amint az alább látható.

Számpélda

Lindley paradoxonát számpéldával illusztrálhatjuk. Képzeljünk el egy várost, ahol 49 581 fiú és 48 870 lány született egy bizonyos idő alatt. A fiúk megfigyelt aránya 49581/98451 ≈ 0,5036. Feltételezzük, hogy a fiú születések száma binomiális változó paraméterrel . Azt akarjuk ellenőrizni, hogy egyenlő-e 0,5 vagy más értékkel. Vagyis nullhipotézisünk : , az alternatív hipotézis pedig .

Frekvencia megközelítés

A gyakorisági tesztelés módszere egy p-érték kiszámítása , a fiúk egy részének megfigyelésének valószínűsége, legalábbis feltételezve, hogy a hipotézis igaz. Mivel a születések száma nagy, használhatjuk a normál közelítést a fiúk születési arányára , és kiszámításához

Azon is meglepődnénk, ha 48870 lány születését vesszük figyelembe, vagyis a gyakorisági teszt normál esetben kétirányú tesztet végezne , amelyre a p-érték . A p-érték mindkét esetben kisebb, mint az 5%-os szignifikancia szint, így a gyakori megközelítés elveti a hipotézist , mint a megfigyelt adatokkal összeegyeztethetetlent.

Bayesi megközelítés

Feltételezve, hogy nincs ok az egyik hipotézist előnyben részesíteni a másikkal szemben, a Bayes-féle megközelítés szerint a hipotézishez előzetes valószínűségeket , egyenletes eloszlást rendelnek , majd kiszámítják a utólagos valószínűséget a Bayes -tétel felhasználásához .

Az újszülött fiúk születésének megfigyelése után a binomiális változó tömegeloszlási függvényével kiszámíthatjuk az egyes hipotézisek utólagos valószínűségét ,

hol van a béta függvénye .

Ezekből az értékekből megtaláljuk az utólagos valószínűséget , amely erősen előnyben részesíti a -t .

A két megközelítés, a gyakori és a bayesi, ütközik egymással, és ez a „paradoxon”.

A bayesi és a gyakori megközelítések összeegyeztetése

Mindazonáltal, legalábbis Lindley példájában, ha olyan szignifikanciaszint-sorozatot veszünk , hogy c , akkor a nullhipotézis utólagos valószínűsége 0, ami összhangban van a nullhipotézis elutasításával [3] . Numerikus példánkban, ha vesszük , az eredmény 0,00318 szignifikanciaszint, tehát a gyakorisági megközelítés nem utasítja el a nullhipotézist, amely nagyjából összhangban áll a Bayes-féle megközelítéssel.

Ha informatív előzetes eloszlást használunk , és olyan hipotézist tesztelünk, amely jobban hasonlít a gyakorisági megközelítésben szereplő hipotézishez, a paradoxon eltűnik.

Például, ha kiszámítjuk az utólagos eloszlást az egységes prior használatával (azaz ), azt kapjuk

Ha ezzel teszteljük annak valószínűségét, hogy az újszülött nagyobb valószínűséggel fiú, mint lány, akkor a következőt kapjuk:

Vagyis nagyon valószínű, hogy a fiúk születési aránya 0,5 felett van.

Egyik elemzés sem ad közvetlenül becslést a hatás méretére , de mindkettő felhasználható például annak meghatározására, hogy a fiúk születési aránya meghaladja-e valamelyik meghatározott küszöböt.

Nincs igazi paradoxon

A két megközelítés közötti látszólagos eltérés több tényező együttes következménye. Először is, a frekvencia-megközelítés a fenti ellenőrzéseket nem veszi figyelembe . A bayesi megközelítés a k alternatívájaként számol, és úgy találja, hogy az első hipotézis jobban megfelel a megfigyeléseknek. Ennek az az oka, hogy az utóbbi hipotézis lényegesen homályosabb, mivel az érték bármi lehet az intervallumban , ami nagyon alacsony posterior valószínűséget eredményez. Hogy megértsük, miért, érdemes két hipotézist figyelembe venni a megfigyelések generátoraként:

A hipotézisben szereplő lehetséges értékek nagy részét megfigyelések nagyon rosszul támasztják alá. Mint ilyen, a módszerek közötti látszólagos nézeteltérés egyáltalán nem nézeteltérés, hanem két különböző állítás az adatokkal kapcsolatban:

Az újszülöttek (fiúk/lányok) 50/50 aránya a gyakorisági teszt szerint valószínűtlen. Ennek ellenére az 50/50 arány jobb közelítés, mint a legtöbb, de nem minden más arány. A hipotézis sokkal jobban illeszkedne a megfigyelésekhez, mint az összes többi arány, beleértve a .


Például [5] ebből a hipotézis- és előzetes valószínűség-választásból a következő állítás következik: "Ha > 0,49 és < 0,51, akkor annak előzetes valószínűsége, hogy pontosan 0,5, 0,50/0,51 98%. Ha ilyen erős előnyben részesítjük a -t, könnyen belátható, hogy a bayesi megközelítés a -t részesíti előnyben , még akkor is, ha a megfigyelt érték 0,5 -en belül van . A frekventista megközelítésben szignifikánsnak tekintjük az ettől nagyobb eltérést , de a Bayes-féle megközelítésben a szignifikanciát eleve elutasítják.

Más oldalról nézve láthatjuk, hogy a korábbi eloszlás lényegében lapos, delta függvénnyel . Nyilvánvaló, hogy ez kétséges. Valójában, ha a valós számokat folytonosként próbálja rajzolni, logikus lenne azt feltételezni, hogy ez egy adott paraméternél nem lehetséges .

Az alternatív hipotézis reálisabb eloszlása ​​kevésbé meglepő eredményeket ad a hipotézis utólagos valószínűségére vonatkozóan . Például, ha helyettesítjük , azaz a maximális valószínűségi becsléssel , akkor a hipotézis utólagos valószínűsége csak 0,07, szemben a hipotézis 0,93-mal (természetesen a maximális valószínűségi becslést valójában nem használhatjuk az előzetes eloszlás részeként ).

Modern vita

A paradoxonról továbbra is aktívan beszélnek [3] [6] [7] .

Lásd még

Jegyzetek

  1. Jeffreys, 1939 .
  2. 1 2 Lindley, 1957 , p. 187–192.
  3. 1 2 3 Spanos, 2013 , p. 73–93.
  4. Naaman, 2016 , p. 1526–1550
  5. Az angol verzióban ezt a részt kritizálják, mivel teljes újraírást igényel.
  6. Sprenger, 2013 , p. 733–744.
  7. Robert, 2014 .

Irodalom