A becslési statisztika ( Estimation Statistics ) az adatelemzés olyan megközelítése, amely a következő módszerek kombinációját foglalja magában: hatásméret , konfidenciaintervallumok , tervezési pontosság és metaanalízis a kísérletek tervezéséhez , adatok elemzéséhez és eredmények értelmezéséhez. [1] Ez a megközelítés eltér a nullhipotézis szignifikancia teszttől (NHST), amely kevésbé informatív. [2] [3] A pontozási statisztikát, vagy egyszerűen pontozást , más néven új statisztikákat [3] a pszichológiában , az orvosi kutatásban, az élettudományokban és számos más kísérleti tudományban használják, ahol a A nullhipotézis még mindig elterjedt megközelítés, [4] annak ellenére, hogy az elmúlt néhány évtizedben a becslési statisztikákat javasolták előnyben részesített megközelítésnek. [5] [6]
A becslési statisztika fő célja, hogy jelentse a hatás méretét (pontbecslés) a konfidenciaintervallumával együtt , amely a becslés pontosságához kapcsolódik. [7] A konfidenciaintervallum a fő populációs hatás valószínű értékeinek tartományát összegzi. A pontozási statisztika támogatói a p-szignifikancia szintjei helyett inkább a hatásméreteket a konfidenciaintervallumokkal jelzik [8] , és úgy gondolják, hogy a pontozási statisztikáknak fel kell váltaniuk az adatelemzés szignifikancia - vizsgálati módszerét . [9]
A fizika régóta használja a súlyozott átlagok módszerét , hasonlóan a metaanalízishez . [tíz]
A becslési statisztikák története Jacob Cohen által az 1960-as években kidolgozott szabványos hatásméretekkel kezdődött. Az első értékelő statisztikákat használó tanulmányok úttörője Gene W. Glass volt, a metaanalízis módszerének kifejlesztésével együtt az 1970-es években. [11] Azóta Larry Hedges, Michael Borenstein, Doug Altman, Martin Gardner, Jeff Cumming és mások finomították a becslési statisztikai módszereket. A metaanalízissel kombinált szisztematikus áttekintés egy rokon módszer, amelyet széles körben alkalmaznak az orvosi kutatásban. A metaanalízis széles körben elterjedt alkalmazása ellenére a pontozásos statisztikai megközelítést még mindig nem alkalmazzák következetesen a mainstream orvosbiológiai kutatásokban. [négy]
Az 1990-es években Kenneth Rothman szerkesztő betiltotta a p-értékek használatát az Epidemiology folyóiratban ; a szerzők támogatták a kezdeményezést, de ez nem befolyásolta elemző gondolkodásukat a kutatás során. [12]
Újabban az értékelési statisztikai módszereket olyan területeken alkalmazzák, mint az idegtudomány , az oktatáspszichológia és a pszichológia . [13]
Az American Psychological Association publikációs irányelvei a hipotézisek tesztelése (tesztelése) helyett inkább becslést (becslést) javasolnak. [14] A Biomedical Journalsba benyújtott kéziratok egységes követelményei című dokumentum hasonló ajánlást tesz: „Ne hagyatkozzon kizárólag statisztikai hipotézisvizsgálatokra, például p-értékekre , amelyek nem közvetíthetnek fontos információkat a hatások méretéről .” [tizenöt]
2019-ben a Society for Neuroscience folyóirat, az eNeuro olyan irányelvet vezetett be, amely a pontszám statisztikai diagramok használatát javasolja az adatok bemutatásának preferált módszereként. [16]
Sok szignifikanciatesztnek van megfelelője az értékelési statisztikákban. [17] Szinte minden esetben a teszt eredménye (vagy annak p-értéke ) egyszerűen helyettesíthető egy hatásmérettel és egy precíziós pontszámmal . Például a Student-féle t-próba használata helyett egy elemző összehasonlíthat két független csoportot az átlagos különbség és annak 95%-os konfidenciaintervallumának kiszámításával . Megfelelő módszerek használhatók páros t-próbára és többszörös összehasonlításra. Hasonlóképpen a regressziós elemzéshez az elemzőnek a determinációs együtthatót (R 2 ) és a modell egyenletét kell megadnia a modell p-értéke helyett .
Az értékelő statisztika hívei azonban a numerikus számítások mellett az adatok adatvizualizációval történő elemzését és bemutatását javasolják. [2] [6] [7] Példák a megfelelő vizualizációkra a regressziós szórásdiagram és a két független csoport Gardner-Altman diagramja. [18] Míg a klasszikus cselekmények (például hisztogramok , bajuszdobozok és hegedűrajzok) nem mutatnak összehasonlítást, a pontszámstatisztikai diagramok egy második tengelyt adnak hozzá az effektus méretének egyértelmű megjelenítéséhez . [19]
A Gardner-Altman átlagos különbség diagramot először Martin Gardner és Doug Altman írta le 1986-ban [18] Ez a statisztikai diagram két független csoport adatait jeleníti meg. [6] A gráfnak van egy olyan változata is, amely alkalmas linkelt mintákra . A diagram elkészítéséhez a legfontosabb utasítások a következők: (1) ábrázolja egymás mellett az összes megfigyelt értéket mindkét csoporthoz; (2) helyezze el a második tengelyt jobbra, eltolva azt, hogy az átlagos különbségi skálát mutassa ; és (3) ábrázolja az átlagos különbséget a konfidenciaintervallumával , mint egy hibaértékkel rendelkező markert . [3] A Gardner-Altman parcellák egyéni kóddal generálhatók a Ggplot2 , seaborn vagy DABEST csomagok használatával ; alternatív megoldásként az elemző használhat egy praktikus szoftvert, például a Becslési Statisztikák alkalmazást .
Több csoport esetén Jeff Cumming egy további panelt vezetett be két vagy több átlagos különbség és azok konfidenciaintervallumának ábrázolására , amelyet a megfigyelt értékek első panelje alá helyeztek [3] : ez az elrendezés megkönnyíti az átlagos különbségek ("delták") összehasonlítását . több adatcsoporton keresztül. Cumming diagramok generálhatók az ESCI , a DABEST vagy az Estimation Stats alkalmazás segítségével .
Az átlagos különbségen kívül számos más típusú hatásméret létezik , amelyeknek megvannak a maga előnyei egymáshoz képest. A fő típusok közé tartozik a Cohen-féle d típusú hatásméret és a determinációs együttható (R 2 ) a regressziós elemzéshez . A nem normál eloszlások esetében számos robusztusabb módszer létezik a hatásméretek kiszámítására , beleértve a Cliff-deltát és a Kolmogorov-Smirnov statisztikát .
A hipotézisvizsgálat során a statisztikai számítások fő célja egy p-érték , egy adott eredmény látásának valószínűsége vagy egy szélsőségesebb eredmény megszerzése, ha feltételezzük, hogy a nullhipotézis igaz. Ha a p -érték alacsony (általában <0,05), a statisztikusnak azt tanácsoljuk, hogy utasítsa el a nullhipotézist . A becslési statisztikák támogatói a következő okok miatt utasítják el a hipotézisvizsgálati megközelítés érvényességét [3] [7] :
A bizalmi intervallumok kiszámíthatóan viselkednek. Definíció szerint a 95%-os konfidenciaintervallumok 95%-os eséllyel rögzítik a populáció átlagát (μ). Ez a funkció a minta méretének növekedésével változatlan marad ; ami változik, hogy az intervallum kisebb lesz (pontosabban). Ezen túlmenően a 95%-os konfidenciaintervallumok egyben 83%-os előrejelzési intervallumok is: egyetlen kísérleti konfidenciaintervallum 83%-os eséllyel rögzíti bármely jövőbeli kísérlet átlagát . [3] Így egy egyedi kísérlet 95%-os konfidenciaintervallumának ismerete az elemző számára elfogadható tartományt ad a populáció átlagához és a későbbi replikációs kísérletekből származó valószínű eredményekhez .
A statisztikák észlelésével kapcsolatos pszichológiai tanulmányok azt mutatják, hogy a pontozási intervallumok pontosabban érzékelik az adatokat, mint a p-értékekről szóló jelentések . [25]
A becslés pontosságát formálisan 1/ varianciaként definiálják , és akárcsak a hatványt , amely a minta méretével növekszik. Az erőhöz hasonlóan a nagy pontosság is munkaigényes. A kutatási támogatási kérelmeknek ideális esetben pontossági/költségelemzést kell tartalmazniuk. A becslési statisztika támogatói úgy vélik, hogy a pontossági tervezésnek kell felváltania a hatalmat , mivel maga a statisztikai teljesítmény fogalmilag összefügg a szignifikanciavizsgálattal . [3]