Adatátalakítás (statisztika)

Az adattranszformáció egy determinisztikus matematikai függvény alkalmazása az adathalmaz minden pontjára , azaz minden z i adatpontota transzformált értékkel helyettesítünk, ahol f egy függvény. A transzformációkat általában azért alkalmazzák, hogy az adatok alkalmasabbak legyenek az alkalmazni kívánt statisztikai következtetési eljárásra , az értelmezhetőség javítására, vagy grafikus megjelenítésére.

Az adatok átalakítására használt függvény szinte mindig megfordítható , és általában folyamatos . Az átalakítást általában összehasonlítható mérőszámok gyűjteményére alkalmazzák. Például, ha az emberek jövedelmére vonatkozó adatokkal dolgozunk valamilyen pénznemben , akkor általában minden egyes személy jövedelmét logaritmikus függvény segítségével konvertálják.

Motiváció

Az adatok konvertálásához, vagy egyáltalán szükséges-e az adatok konvertálásához, az adott statisztikai elemzésből kell származnia. Például egy egyszerű módja annak, hogy nagyjából 95%-os konfidenciaintervallumot hozzunk létre a sokaság-várakozáshoz, ha a számtani átlagot plusz vagy mínusz két standard hiba adja meg . Az itt használt állandó 2-es tényező azonban normál eloszlásra vonatkozik, és csak akkor alkalmazható, ha a számtani átlag megközelítőleg a normáltörvény szerint változik. A Central Limit Theorem kimondja, hogy sok esetben az aritmetikai átlag normálisan változik, ha a minta mérete elég nagy. Ha azonban a sokaság lényegesen torz , és a minta mérete mérsékelt, akkor a centrális határérték tétel által adott közelítés gyenge lehet, és az így kapott konfidenciaintervallum valószínűleg rossz konfidenciaszintű Ezután abban az esetben, ha bizonyíték van az adatok jelentős ferdítésére, gyakori, hogy az adatokat szimmetrikus eloszlásba transzformáljuk, mielőtt egy konfidenciaintervallumot szerkesztünk. Ha szükséges, a konfidenciaintervallum az adatok transzformációjához használt inverzével visszakonvertálható az eredeti skálára.

Az adatok a könnyebb megjelenítés érdekében átalakíthatók is. Tegyük fel például, hogy van egy szórásdiagramunk , amelyben a pontok a világ országait jelölik, és az ábrázolt adatértékek az egyes országok területét és lakosságát jelentik. Ha a grafikon nem transzformált adatokból készül (például négyzetkilométer a területre és a népességszámra), a legtöbb ország egy sűrű klaszterbe kerül a grafikon bal alsó sarkában. Néhány nagyon nagy területtel és/vagy népességgel rendelkező ország vékonyan eloszlik a grafikon fő területén. A mértékegységek egyszerű méretezése (például több ezer négyzetkilométerre vagy több millió emberre) nem változtat a helyzeten. A terület és a népesség logaritmikus transzformációjával azonban a pontok egyenletesebben oszlanak el a grafikonon.

Az adatok átalakításának végső oka az értelmezhetőség javítása lehet, még akkor is, ha nem szándékozunk formális statisztikai elemzést vagy megjelenítést. Tegyük fel például, hogy összehasonlítjuk az autókat üzemanyag-fogyasztásuk szempontjából. Ezeket az adatokat általában "kilométer per liter" vagy " mpg " formában jelentik. Ha azonban az a cél, hogy meghatározzuk, mennyi plusz üzemanyagot kell évente személyenként felhasználni, ha egy járművet használnak a másikkal szemben, akkor természetesebb, ha az 1/x függvény segítségével konvertált adatokkal dolgozunk , ami literenkénti ill. gallon per mérföld.

Regresszióban

A lineáris regresszió egy statisztikai módszer egy függő Y változó többé-kevésbé független X változókhoz való viszonyítására . A legegyszerűbb regressziós modellek lineáris kapcsolatot mutatnak ki Y átlaga és az egyes független változók között (ha a többi független változó rögzített). Ha a linearitás még csak megközelítőleg sem áll fenn, néha lehetséges a regressziós modellben a független változók vagy a függő változók transzformálása a linearitás javítása érdekében.

A lineáris regresszió másik feltételezése az, hogy a variancia minden lehetséges várható értékre azonos (ezt homoszkedaszticitásnak nevezzük ). Az egydimenziós normalitás nem szükséges ahhoz, hogy a regressziós paraméterek legkisebb négyzetes becslése értelmes legyen (lásd " A Gauss-Markov-tétel " című cikket). A konfidenciaintervallumok és a hipotézisvizsgálat azonban jobb statisztikai tulajdonságokkal rendelkezik, ha a változók többváltozós normalitásúak. Ezt empirikusan úgy kaphatjuk meg, hogy az értékeket a maradékok függvényében ábrázoljuk , és megnézzük a maradékok normál kvantilisei diagramját . Megjegyzendő, hogy nem számít, hogy az Y függő változó normális eloszlású-e vagy sem.

Alternatív

Az általánosított lineáris modellek (GLM-ek) a hagyományos lineáris regresszió rugalmas általánosítását biztosítják, amely lehetővé teszi a kimeneti változók nem normális hibaeloszlási mintázatát. A GLM lehetővé teszi a lineáris modellnek a kimeneti változókhoz való viszonyítását linkfüggvénnyel, és lehetővé teszi, hogy az egyes mérések varianciája a számított érték függvénye legyen.

Példák

Az egyenlet:

Jelentése: X egyszeri növekedése átlagosan az Y b-szeres növekedésével jár.

Egyenlőség:      (Az egyenlet mindkét oldalának logaritmusának felvételével kapjuk meg )

Jelentése: X egyszeri növekedése átlagosan az Y értékének b%-os növekedésével jár.

Egyenlőség:

Jelentése: X 1%-os növekedése átlagosan Y b/100-szoros növekedésével jár.

Egyenlőség:      (Az egyenlet mindkét oldalának logaritmusának felvételével kapjuk meg )

Jelentése: X 1%-os növekedése átlagosan Y b%-os növekedésével jár.

Általános esetek

Pozitív adatokhoz általában a logaritmikus és négyzetgyök transzformációt , míg a nem nulla adatokhoz a szorzási reciprok (1/x) transzformációt alkalmazzuk. A hatványtranszformáció egy λ nem negatív értékkel paraméterezett transzformációcsalád, amely speciális esetként tartalmazza a logaritmikus transzformációt, a négyzetgyök transzformációt és a reciprok transzformációt (1/x). A célzott adattranszformáció eléréséhez statisztikai becslési technikával meg lehet becsülni a teljesítménytranszformáció λ paraméterét, így meghatározható az adott körülmények között legmegfelelőbb transzformáció. Mivel a hatványtranszformációk családjába tartozik az identitástranszformáció is , ez a megközelítés azt is megmutathatja, hogy jobb-e az adatokat transzformáció nélkül elemezni. A regressziós elemzésben ezt a technikát Box-Cox technikának nevezik .

Az ellentétes értékre (1/x) való transzformáció és néhány hatványtranszformáció sikeresen alkalmazható pozitív és negatív értékeket is tartalmazó adatokra (a hatványtranszformáció minden valós számra megfordítható, ha λ páratlan egész szám). Ha azonban pozitív és negatív értékeket is megfigyelünk, általában úgy kell kezdeni, hogy az összes értékhez hozzáadunk egy állandót, hogy megkapjuk a nem negatív számok halmazát, amelyre ezután bármilyen teljesítménytranszformáció alkalmazható. Gyakori szituáció, amikor adattranszformációt alkalmaznak, amikor a szóban forgó értékek szórása több nagyságrendű . Számos fizikai és társadalmi jelenség mutat ilyen viselkedést – például a jövedelmek, a populáció mérete, a galaxisok mérete és a csapadék. Hatványtranszformációk, és különösen a logaritmus gyakran használhatók az ilyen adatok szimmetriájának eléréséhez. A logaritmust gyakran előnyben részesítik, mert könnyebben értelmezhető az eredmények a "hajtásváltozások" szempontjából.

A logaritmusnak a törtekre is van egy hasznos tulajdonsága. Ha X és Y pozitív értékeit az X / Y arány segítségével hasonlítjuk össze , akkor X <  Y  esetén az arány a  (  0,1 ) egységszegmensre esik, ha pedig X  >  Y , akkor az arány a féltengely (1,∞), és az 1-es arány egyenlősége az értékek egyenlőségének felel meg. Az elemzés során, ha X -et és Y -t szimmetrikusan kezeljük, a log( X  /  Y ) arány logaritmusa egyenlőség esetén nullával egyenlő, és van egy tulajdonság, hogy abban az esetben, ha X K - szer nagyobb, mint Y , az arány logaritmusa egyenlő távolságra van a nullától attól az esettől, amikor Y K -szer nagyobb, mint X (az arány logaritmusa ezekben a helyzetekben egyenlő log( K ) és −log( K )).

Ha az értékek kezdetben 0 és 1 között vannak, a határértékek nélkül, akkor a logit transzformáció megfelelő lehet - a (−∞,∞) tartományba eső értékeket ad.

Átalakítás normál eloszlásra

Nem mindig szükséges vagy kívánatos egy adathalmazt normál eloszlásúvá alakítani. Ha azonban szimmetria vagy normalitás kívánatos, ez gyakran megtehető valamelyik hatványtranszformációval.

Annak értékelésére, hogy elértük-e a normalitást, a grafikus megközelítés gyakran informatívabb, mint a formális statisztikai teszt. Általában annak értékelésére használják, hogy kaptunk-e normális eloszlású populációt, normál kvantilis diagramot . Alternatív megoldásként univerzális szabályokat használnak a ferdeség és a gördülés példáján alapulva , ahol a ferdeség -0,8 és 0,8 között van, a ferdeség pedig -3,0 és 3,0 között van.

Átalakítás egységes vagy tetszőleges eloszlásra

Ha egy n értékből álló halmazt figyelünk meg, ahol nincs egyezés (azaz minden n érték különbözik), akkor X i -t helyettesíthetjük a konvertált értékkel , ahol k úgy van definiálva, hogy X i a k - edik legnagyobb érték minden X érték. Ezt rangsorolási transzformációnak nevezik , és olyan adatokat hoz létre, amelyek tökéletesen kompatibilisek az egységes eloszlással .

Ha az valószínűségi integráltranszformációt használjuk , ha X bármely valószínűségi változó , és F az X érték kumulatív eloszlásfüggvénye , akkor F reverzibilitása esetén az U = F ( X ) valószínűségi változó kielégíti. egyenletes eloszlás a [0, egy] egységintervallumon .

Reverzibilis kumulatív eloszlásfüggvény segítségével egy homogén eloszlást bármilyen eloszlásra transzformálhatunk. Ha G egy reverzibilis kumulatív eloszlásfüggvény, és U egy egyenletes eloszlású valószínűségi változó, akkor a valószínűségi változó G kumulatív eloszlásfüggvénye.

Vagyis ha X bármely valószínűségi változó, F az X mennyiség reverzibilis kumulatív eloszlásfüggvénye , és G a reverzibilis kumulatív eloszlásfüggvény, akkor a valószínűségi változónak G a kumulatív eloszlásfüggvénye.

Varianciastabilizáló transzformációk

Sok fajta statisztika mutat " variancia és átlag" összefüggést, ami azt jelenti, hogy a variabilitás eltérő a különböző matematikai elvárásokkal rendelkező adatértékeknél . Például, ha a világ különböző népességét hasonlítjuk össze, a jövedelmi szóródás növekedése a jövedelem átlagának növekedéséhez vezet. Ha figyelembe vesszük a kis területi egységek számát (például az Amerikai Egyesült Államok megyéi), és megkapjuk az egyes megyék jövedelmének átlagát és szórását, általában azt tapasztaljuk, hogy a nagy átlagjövedelemekkel rendelkező megyékben nagy a szórás.

A variancia-stabilizáló transzformáció célja a variancia és az átlag közötti kapcsolat megszüntetése, így a variancia állandóvá válik az átlag körül. A varianciastabilizáló transzformációk példái a Fisher transzformáció a minta korrelációs együtthatójához, a négyzetgyök vagy Anscombe transzformáció a Poisson adatokhoz (diszkrét adatok), a Box-Cox transzformáció a regressziós elemzéshez és a konverzió négyzetgyök arcszinuszává, vagy trigonometrikus konverzió az arányokhoz ( binomiális adatok). Az arányos adatok statisztikai elemzésére általánosan használt, a négyzetgyök arcszinuszává történő transzformáció nem javasolt, mert a logisztikus regresszió vagy a logit transzformáció alkalmasabb binomiális vagy nem binomiális arányokra, különösen a II-es típusú hibák csökkentése miatt. [1] .

Transzformációk a többváltozós statisztikákhoz

Az egydimenziós függvények pontonként alkalmazhatók többváltozós adatokra a részleges eloszlásuk megváltoztatására. A többváltozós eloszlások egyes tulajdonságainak megváltoztatására is lehetőség van megfelelően felépített transzformációk segítségével. Például az idősorok és más típusú szekvenciális adatok kezelésekor gyakori, hogy az adatok véges különbségeire térünk át a stacionaritás javítása érdekében . Ha az X véletlenvektor által generált adatokat X i megfigyelési vektorokként figyeljük meg Σ kovarianciamátrixszal , akkor lineáris leképezés használható az adatok dekorrelálására. Ehhez a Cholesky-felbontást használjuk , hogy megkapjuk Σ = A A' . Ekkor a transzformált vektornak az identitásmátrixa van kovarianciamátrixként.

Lásd még

Jegyzetek

  1. Warton, Hui, 2011 , p. 3–10.

Irodalom

Linkek