A statisztikában a mintavételi torzítás olyan torzítás , amelyben a mintavétel olyan módon történik, hogy a kívánt sokaság egyes tagjai a többihez képest kisebb vagy nagyobb mintavételi valószínűséggel rendelkeznek . Ennek eredményeképpen van egy torz minta [1] a populációból (vagy nem humán faktorból), amelyben az összes alanyt vagy példányt különböző valószínűséggel választották ki. [2] Ha ezt a torzítást nem vesszük figyelembe, az eredmények tévesen a vizsgált jelenségnek tekinthetők, nem pedig mintavételi módszernek .
Az orvostudomány területén előforduló mintavételi hibát néha ítélkezési torzításnak tekintik [3] [4] . Valójában a tisztázási hiba megegyezik a mintavételi torzítással, [5] [6] azonban néha mégis megkülönböztetik a statisztikai hiba külön típusaként [5] .
A mintavételi torzítást általában a szelekciós torzítás egy altípusaként jellemzik , [7] sőt néha kifejezetten mintavételi torzításként definiálják, [8] [9] [10] , mások azonban a statisztikai hiba külön típusaként határozzák meg. [11] Különbségük, bár a többség nem ismeri fel, hogy a mintavételi torzítás az a hiba, amely megkérdőjelezi a teszt külső érvényességét (eredményeinek a teljes sokaságra való alkalmazhatóságát), míg a szelekciós hiba korrelál. csak a tesztek során talált különbségek vagy hasonlóságok belső érvényességével . Ezért a mintavétel vagy a kohorsz meghatározása során előforduló hibák mintavételi torzításhoz, az ezt követően előforduló hibák pedig kiválasztási torzításhoz vezethetnek.
A mintavételi torzítást és a kiválasztási hibát azonban gyakran felcserélhetően használják. [12]
Az orvosi jelentéseket tanulmányozva önkéntelenül is paradox-anekdotikus állapotba kerülsz. Szerkezetükben az ilyen jelentések csak a kezelési és diagnosztikai módszerekről tartalmaznak információkat. Azon gyereknél, akinek problémái vannak a tanulással és az iskolai élettel, nagy valószínűséggel diszlexiát diagnosztizálnak , de egy olyan gyereknél, aki próbálkozik, tanul, de nem megy jól, az nem. A korábban megvizsgált, diagnózissal rendelkező gyermeket gyakrabban vizsgálják meg és új állapotba állítják, ami torzítja a komorbiditási statisztikákat . Ennek megfelelően az emberek, ha hallottak ilyen diagnózisokat, nagyobb valószínűséggel hozzák összefüggésbe őket viselkedési zavarokkal vagy mentális retardációval , míg a szülők megpróbálják megvédeni gyermekeiket az ilyen címkéktől, ami még nagyobb elfogultságot vált ki velük szemben. A gondosan kiválasztott és tanulmányozott kutatási jelentések viszont azt mutatják, hogy az ilyen állapotok sokkal gyakoribbak, és nem olyan kegyetlenek a hordozójukkal szemben, mint korábban gondolták.
A genetikusok korlátozottak abban, hogy adatokat gyűjtsenek az emberekről. Tehát például egy személy bármely jellemzőjére vonatkozó adatok. Kíváncsiak vagyunk arra, hogy ez a tulajdonság veleszületett-e, ahogy Mendel szerint az egyszerű öröklődés mondja . Én ennek a törvénynek a szabályait követem, ha a szülők nem rendelkeznek ezzel a tulajdonsággal, de van egy allél, amely hordozza, akkor potenciálisan öröklődés útján továbbadhatják (vagyis a heterozigóta nincs meghatározva). Ebben a forgatókönyvben 25% az esélye annak, hogy egy gyermek örökölje ezt a tulajdonságot. Felmerül azonban a következő kérdés: meg tudjuk-e mondani, hogy melyik családban mindkét szülő hordozó (heterozigóta), ha nem egy olyan gyermek ítéli meg, aki már rendelkezik ezekkel a tulajdonságokkal? A leírás Sutton tankönyvéből származik. [13]
Az ábrán az összes lehetséges kétgyermekes család törzskönyve látható, ahol a szülők hordozók (Aa).
Az ábra azt is mutatja, hogy mekkora valószínűséggel fordulhat elő a családválasztás, valamint a beteg gyermekek szelekciójának gyakorisága. Az alkalmazott csonka szelekció típusától függően a kutató 4⁄7 vagy 5⁄8 gyakoriságot választ , ha a tulajdonság jelen van .
A szelekciós torzítás megfigyelhető példája a barlangi ember effektus. A legtöbb modern elképzelés az őskori népekről olyan barlangrajzokon alapul, amelyek körülbelül 40 000 évvel ezelőtt készültek el. Hasonlóképpen érintetlenek maradnak a tűzrakók , ásók , temetkezések stb. Ha az emberek fákra, állatbőrökre vagy hegyoldalakra festenének, akkor ez az összes információ elveszne. Az ősembereket nem azért kötjük a barlangokhoz, mert mindannyian barlangokban éltek egész életükben, hanem azért, mert csak a barlangok rajzaiban szereplő információk jutottak el hozzánk. [13]
A mintavételi torzítás előfordulása miatt problémák merülnek fel, mert fennáll annak a lehetősége, hogy a minta elemzéséhez gyűjtött statisztikák szisztematikusan hibásak. A mintavétel torzítása a releváns populációs paraméter szisztematikus túl- vagy alulbecsléséhez vezethet . A mintavétel torzítása abból adódik, hogy szinte lehetetlen biztosítani a minta tiszta véletlenszerűségét. Ha az alulreprezentáltság százalékos aránya kicsi, a minta egy véletlenszerű mintához képest ésszerűen átlagos értéknek tekinthető. Ezenkívül, ha a minta nem tér el szignifikánsan a vizsgált paraméterben, akkor egy torzított minta is elfogadható becslésként működhet.
Az előítélet szónak kifejezett negatív konnotációja van. Előfordul tehát, hogy a kutatási eredmények eltorzítására irányuló előzetes szándék vagy a tudományos csalás miatt hibák merülnek fel . A statisztikai elemzésben a szisztematikus hibák gyakori matematikai tulajdonságok, akár szándékosak, akár nem, vagy a tökéletlen kutatási eszközök következményei. Bár egyes egyének szándékosan torzított mintavételt alkalmaznak a kutatási eredmények torzítására, a mintavételi torzítás gyakran egyszerűen csak nehézséget jelent a natívan reprezentatív adatok biztosításában, vagy nem ismeri a torzítás lehetőségét a teljes kutatási és elemzési folyamat során. Példa arra, hogy nem ismerjük az elfogultság tényét, az általánosan használt arány (más néven szorzóváltás ) a biológiában a különbségek mértékeként. Mivel könnyebb két kis szám nagy arányát kapni adott eltéréssel, mint két nagy szám nagy arányát szignifikáns eltéréssel, ezért a jelentős eltéréseket figyelmen kívül hagyjuk, ilyenkor két viszonylag nagy numerikus mérést hasonlítunk össze. Néha a különbség (kivonás) helyett az arány (osztás) használata miatt "elhatárolási torzítás" hallható, aminek következtében a kutatási eredmények a tudomány területéről az áltudományok felé tolódnak el (lásd: " A demarkációs probléma ").
Egyes minták elfogult statisztikai számításokat használnak, amelyek ennek ellenére lehetővé teszik a paraméter becslését. Az Egyesült Államok Nemzeti Egészségügyi Statisztikai Központja például a legtöbb országos felmérésben szándékosan túlmintázza a kisebb populációkat, hogy kellő pontosságot szerezzen ezeknek a csoportoknak a becslésében. [14] Az említett felmérések mintasúlyt használnak (lásd alább). Lehetővé teszi az összes etnikai csoport megfelelő értékelését. Ha minden egyedi feltétel teljesül (főleg az együttható helyes kiszámításával és használatával), akkor ez a minta a vizsgált populációs paraméter pontos becslését jelenti.
A minta elfogultságának és az ebből következő félrevezetésnek klasszikus példája 1936-ban történt. A közvélemény-kutatás első napjaiban a Literary Digest amerikai magazin kutatói csaknem kétmillió levélben küldött szavazást gyűjtöttek össze, amelyek a republikánus jelölt , Alfred Landon elsöprő többségi győzelmét jósolták a közelgő amerikai elnökválasztáson Franklin Roosevelt akkori hivatalban lévő elnökkel szemben . Valójában minden pont az ellenkezője volt. A Literary Digest újságírói által összegyűjtött felmérés mintapopulációja a magazin olvasóiból, valamint regisztrált autóval rendelkező személyekből és telefonhasználókból állt. Ez a minta túlreprezentálta a gazdag embereket, akik külön csoportként nagyobb valószínűséggel szavaztak a republikánus jelöltre. Másrészt George Gallup mindössze 50 000 polgár részvételével végzett közvélemény-kutatása sikeresen megjósolta a közelgő választások eredményét, ami biztosította a Gallup közvélemény-kutatások népszerűségét a jövőben is .
Egy másik klasszikus példa az 1948-as elnökválasztáson történt . A választások előtti este a Chicago Tribune egy újságot adott ki "Dew Beats Truman" címmel, amiről később kiderült, hogy hazugság. Reggel Harry S. Truman megválasztott elnököt , aki az újságot tartotta, gúnyos mosollyal fényképezték le. A Tribune azért tévedett, mert a kutatást végző szerkesztőjük csak telefonos közvélemény-kutatást végzett. A felmérések technológiája ekkor még gyerekcipőben járt, ezért kevés tudós nem tudta, hogy a telefonos minta reprezentativitása a nullához szokott fordulni, mivel nem veszi figyelembe a teljes lakosság érdekeit. A telefonok ekkor még nem voltak elterjedve, ezért nagy valószínűséggel tehetős, állandó lakóhellyel rendelkező emberek rendelkeztek vele. (A legtöbb városban a Bell rendszer telefonkönyve ugyanazokat a neveket tartalmazza, mint a Társaság Almanachja.) Az újságírók a Gallup közvélemény-kutatására alapozták feltételezéseiket, de figyelmen kívül hagyták azt a tényt, hogy ez 2 hetes volt. [16]
A levegőminőség-elemzések szennyező anyagokat ( szén-monoxidot , nitrogén -oxidot, nitrogén-dioxidot vagy ózont ) vizsgálnak, amelyek gyakran magas korrelációt mutatnak , mivel mindegyiket ugyanazon kémiai folyamat(ok) állítják elő. Ez a korreláció a helytől (azaz a helytől) és az időtől (azaz időszaktól) függ. Ezért egy adott szennyezőanyag eloszlása nem feltétlenül mindenhol és mindig egyformán képviselteti magát. Ha egy olcsó mérőeszközt terepen, többdimenziós adatokhoz kalibrálnak, mégpedig egy referencia műszerrel való összehasonlítással, akkor a különböző vegyületek aránya már a modell szabványosítása során használatos. A mérőműszer mozgatásakor hibás adatok jelenhetnek meg. [17]
A mintavételi torzítás legkorábbi példája a COVID-19 világjárvány , amikor a halálozási arányok és az esetek országonkénti életkor szerinti megoszlásának elemzésekor eltérések mutatkoztak az adatok között a COVID-19-teszten átesett mintán belüli torzítás miatt . [18] [19]
Ha a sokaság teljes kohorszait kizárjuk a mintából, akkor nincsenek olyan korrekciók, amelyek alapján a teljes sokaságot becsüljük. Ha azonban néhány csoport többségben van, és a felülreprezentáltságuk szintje megbecsülhető, akkor a minta súlya kompenzálhatja a torzítást. A sikeres korrekció lehetőségét azonban korlátozza a kiválasztási modell. Ha néhány változó értéke hiányzik, akkor a torzítás korrekciójára általában használt módszerek visszaüthetnek. [húsz]
Például az átvitt populáció 10 millió férfit és 10 millió nőt foglal magában. Tegyük fel, hogy az elfogult minta 100 fő: 20 férfi és 80 nő. A kutató úgy tudja kompenzálni ezt az egyensúlyhiányt, hogy 2,5-ös súlyozási tényezőt használ minden férfira és 0,625-öt minden nőre. Ezek a manipulációk a becslést ugyanazon eredmények szintjére igazítják, mintha a minta 50 férfiból és 50 nőből állna, kivéve azokat az eseteket, amikor a férfiak vagy nők részvételének valószínűsége a vizsgálatban véletlenszerű vagy nem egyenlő.