Minőségi változó

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. december 28-án felülvizsgált verziótól ; az ellenőrzések 5 szerkesztést igényelnek .

A kvalitatív , diszkrét vagy kategorikus változó olyan változó , amely korlátozott és általában rögzített számú lehetséges érték valamelyikét veheti fel , és minden megfigyelési egységet valamilyen minőségi tulajdonság alapján egy meghatározott csoporthoz vagy névleges kategóriához rendel [1] . A számítástechnikában és a matematika egyes ágaiban a kvalitatív változókat felsorolásnak vagy kategorikus eloszlásnak nevezik .

Kapcsolódó fogalmak

A kvalitatív adat egy statisztikai adattípus , amely minőségi változókból áll, vagy olyan adatokból, amelyeket ilyen formára alakítanak át, például csoportosított adatok . Pontosabban, kvalitatív adatok nyerhetők kvalitatív adatokból megfigyelésekből, amelyek számlálók vagy kereszttáblázatok formájában vannak összefoglalva , vagy kvantitatív adatok megfigyelésekből , amelyeket adott intervallumok szerint csoportosítanak. A tisztán kvalitatív adatokat gyakran kontingencia táblázat formájában fogalmazzák meg . A "kvalitatív adatok " kifejezés azonban olyan adatkészletekre vonatkozik, amelyek bár tartalmaznak minőségi változókat, tartalmazhatnak olyan változókat is, amelyek nem minőségiek.

Egy minőségi változót, amely pontosan két értéket vehet fel, bináris változónak vagy dichotóm változónak nevezzük . Fontos speciális eset a Bernoulli törvény szerint elosztott érték . A kettőnél több lehetséges értékkel rendelkező kvalitatív változókat politom változóknak nevezzük . A kvalitatív változókat gyakran politómnak tekintik, hacsak másként nem jelezzük. A diszkretizálás a folyamatos adatok minőségi kezelését jelenti. A dichotomizálás a folytonos adatok bináris változókként való kezelése. A regressziós elemzést gyakran kvalitatívként kezelik egy vagy több kvantitatív álváltozóval .

Példák minőségi változókra

Példák minőségi változóként ábrázolható értékekre:

Emberi vércsoport : A (II), B (III), AB (IV) vagy O (I).
A régió, ahol a személy él.
Politikai párt , amelyre például szavazhat Európában - Kereszténydemokrata Párt , Szociáldemokrata Párt , Zöld Párt stb.
Kőzettípus : magmás , üledékes vagy metamorf .
Minden egyes szó (például a nyelvi modellben ) egy V méretű szótár V lehetséges értékének egyike .

Jelölés

A statisztikai feldolgozás kényelme érdekében kvalitatív változókhoz numerikus indexeket rendelhetünk, például 1-től K -ig egy K -értékű kvalitatív változóhoz (vagyis olyan változóhoz, amely pontosan K lehetséges értéket tud felvenni). Általános szabályként azonban a számok tetszőlegesek, és nem sok más jelentéssel bírnak, mint egy adott érték egyszerű címkézése. Más szóval, egy minőségi változó értékei névleges skálán léteznek – az értékek külön fogalmak, nem rendezhetők , és nem manipulálhatók, mint a szabályos számok. Érvényes műveletek csak az ekvivalencia , a halmaztagság és a halmazokon végzett egyéb műveletek lehetnek.

Ennek eredményeként a minőségi változók halmazának központi tendenciáját a módus adja meg . Sem az átlag, sem a medián nem határozható meg. Például egy emberek halmaza esetén a vezetéknevüknek megfelelő minőségi változók halmazát tekinthetjük. Tekinthetünk olyan műveleteket, mint az ekvivalencia (hogy két embernek ugyanaz a vezetékneve), beállítandó tagság (van-e egy vezetéknév egy adott listán), számlálás (hány embernek van egy adott vezetékneve) vagy divatkeresés (ami utolsó név a leggyakoribb). Azonban nem tudjuk értelmesen kiszámítani Smith + Johnson "összegét", vagy kérdést feltenni, vagy "összehasonlítani" Smitht és Johnsont. Ennek eredményeként nem kérdezhetjük meg, hogy a vezetéknevek halmazában mi a "középső vezetéknév" ( középérték ) vagy a "középponthoz legközelebbi vezetéknév" ( Medián (statisztika) |medián).

Vegye figyelembe, hogy ez figyelmen kívül hagyja az ábécé sorrend fogalmát , amely egy olyan tulajdonság, amelyet nem magukból a vezetéknevekből örököltek, hanem a címkék létrehozásának egyik módja. Például, ha a vezetékneveket cirill betűkkel írjuk, és feltételezzük a cirill betűrendet, akkor a "Smith" < "Holmes" kifejezéstől eltérő eredményt kaphatunk, amelyet akkor kapunk, ha a vezetékneveket a szabványos latin ábécével írjuk . És ha a neveket kínai karakterekkel írjuk le, akkor egyáltalán nem tudjuk értelmesen írni a "Smith" < "Holms" kifejezést, mert nincs meghatározva számukra a sorrend. Ha azonban a neveket úgy tekintjük, mint amilyenek például a latin ábécé írják, és a szokásos ábécé sorrendjének megfelelő sorrendet definiálunk, akkor rendes változókká alakíthatjuk , amelyeket a közönséges skálán ] definiálunk .

Lehetséges értékek száma

A kvalitatív valószínűségi változókat statisztikailag kvalitatív eloszlás írja le , amely lehetővé teszi egy tetszőleges K értékű minőségi változó kifejezését úgy, hogy minden K lehetséges kimenetelre külön valószínűségeket adunk meg. Az ilyen többkategóriás minőségi változókat gyakran többnévleges eloszlással vizsgálják , amely a különböző kategóriákból származó számok minden lehetséges kombinációjának gyakoriságát számolja. A kvalitatív eredmények regressziós elemzése multinomiális logisztikus regresszió , multinomiális többszörös probit vagy hasonló típusú diszkrét választási modellek használatával történik .

Azokat a minőségi változókat, amelyeknek csak két lehetséges kimenetele van (például igen/nem vagy siker/sikertelenség), bináris változóknak (vagy Bernoulli-változóknak ) nevezzük. Fontosságuk miatt ezeket a változókat gyakran külön kategóriának tekintik, külön eloszlással ( Bernoulli-eloszlás ) és külön regressziós modellekkel ( Logisztikai regresszió , Probit regresszió stb.). Ennek eredményeként a „minőségi változó” kifejezést gyakran 3 vagy több kimenetelű esetekre tartják fenn, és ezeket többértékű változóknak nevezik, szemben a bináris változókkal.

Olyan minőségi változókat is figyelembe vehetünk, amelyeknél a kategóriák száma nincs előre rögzítve. Ilyen minőségi változó lehet egy szót leíró változó, és nem tudhatjuk előre a szótár méretét, így megengedhetjük, hogy olyan szavakkal is találkozzunk, amelyeket korábban nem láttunk. A minőségi eloszlást és a multinomiális logisztikus regressziót tartalmazó standard statisztikai modellek feltételezik, hogy a kategóriák száma előre ismert, és a kategóriák számának menet közbeni megváltoztatása problémás. Ilyen esetekben fejlettebb technikákat kell alkalmazni. Példa erre a Dirichlet-folyamat , amely a nem paraméteres statisztikák birodalmába tartozik . Ilyen esetben logikusan feltételezzük, hogy végtelen számú kategória létezik, de a legtöbbjüket (valójában véges szám kivételével) soha nem tekintjük meg. Minden képlet a ténylegesen eltalált kategóriák számának megfelelően van megfogalmazva, nem pedig a potenciális kategóriák (végtelen) teljes számában, és módszereket hoznak létre a növekményes valószínűségi eloszlások frissítésére, beleértve az "új" kategóriák hozzáadását is.

Kvalitatív változók és regresszió

A kvalitatív változók az adatok kvalitatív (szemben a mennyiségi) értékelésének módszerét képviselik (azaz kategóriákat vagy csoporttagságot jelentenek). Ezek szerepelhetnek független változóként egy regressziós elemzésben, vagy függő változóként egy logisztikus vagy probit regresszióban , de számokká kell konvertálni adatok elemzéséhez. Ez kódrendszerek használatával történik. Az elemzést úgy végezzük, hogy csak g −1 ( g egyenlő a csoportok számával) értékek legyenek kódolva. Ez minimálisra csökkenti a redundanciát, de továbbra is a teljes adathalmazt képviseli, mivel az összes g csoport kódolásával nem nyerünk további információkat. Például ha nemet kódolunk ( g =2: férfi és nő), ha csak nőket kódolunk, a többi férfi lesz. Jellemzően egy olyan csoport, amely nincs kódolva, minimális érdeklődésre tart számot [2] .

A regressziós minőségi változók elemzéséhez általában három fő kódrendszert használnak: álkódolás, hatáskódolás és kontrasztkódolás. A regressziós egyenlet Y=bX + a formátumú , ahol b a meredekségi tényező, és megadja a magyarázathoz empirikusan rendelt súlyt, X a magyarázó változó, a pedig az y tengellyel való metszéspont , és ezek az értékek különböző értékeket vesz fel az elfogadott kódrendszertől függően. A kódrendszer megválasztása nem befolyásolja az F vagy R 2 statisztikát . A kódolási rendszert azonban a kategóriák iránti érdeklődéstől függően választjuk meg, mivel attól függ b [2] értéke .

Dummy kódolás

Dummy kódolást [3] használunk, ha van kontroll vagy összehasonlító csoport. Ezért az adatokat az összehasonlító csoporthoz viszonyítva elemezzük – a a kontrollcsoport átlagát jelenti, b pedig a kísérleti csoport átlaga és a kontrollcsoport átlaga közötti különbséget . Feltételezzük, hogy a kontrollcsoport alkalmasságának három feltétele teljesül - a csoportnak jól definiáltnak kell lennie (például nem lehet "egyéb" kategória), logikus oka van annak, hogy ezt a csoportot választották összehasonlító csoportnak. (például várhatóan a csoport kapja a legmagasabb pontszámot a függő változón), és végül a csoport mintanagysága szignifikáns legyen, és ne legyen kisebb a többi csoporthoz képest [4] .

Az álkódolásnál a referenciacsoport minden kódolási változóhoz 0 értéket kap. A változók halmazában minden válaszadónál csak egy vehet fel 1 értéket, ez pedig az [5] [2] kategóriának megfelelő . A b értékeket úgy kell értelmezni, hogy a kísérleti csoportot összehasonlítsák a kontrollcsoporttal. Ezért ha b-re negatív értéket kapunk, az azt jelenti, hogy a kísérleti csoport a függő változón alacsonyabb pontszámot kap, mint a kontrollcsoport . Ennek illusztrálására tegyük fel, hogy optimizmust mérünk több nemzetiség között, és úgy döntünk, hogy a franciákat használjuk kontrollcsoportként. Ha összehasonlítjuk őket az olaszokkal, és negatív b értéket kapunk , ez arra utal, hogy az olaszok átlagosan kevésbé optimisták.

A következő táblázat példát mutat be egy fiktív kódolásra, amelyben a franciák a kontrollcsoport, a C1, C2 és C3 pedig az olaszok , németek és mások (sem franciák, sem olaszok, sem németek) kódjai:

Állampolgárság	C1	C2	C3
francia emberek	0	0	0
olaszok	egy	0	0
németek	0	egy	0
Egyéb	0	0	egy

Befolyásoló kódolás

Egy hatáskódoló rendszerben az adatok elemzése egy csoport és az összes többi csoport összehasonlításával történik. A színlelt kódolással ellentétben nincs kontrollcsoport. Ehelyett az összehasonlítás az összes csoport átlagával történik ( a most a teljes átlag ). Ezért nem az adatok más csoportokkal való kapcsolatát, hanem az összátlaggal való kapcsolatot keresik [2] .

A befolyásoló kódolás lehet súlyozott vagy nem. A súlyozott hatáskódolás egyszerűen kiszámítja a súlyozott összátlagot, így figyelembe veszi az egyes változók mintanagyságát. Ez a legmegfelelőbb olyan helyzetekben, amikor a minta reprezentálja a sokaságot. A súlyozatlan befolyásoló kódolás a legmegfelelőbb olyan helyzetekben, amikor a mintaméret különbsége véletlenszerű tényezők eredménye. A b értelmezése ezekben az esetekben eltérő - súlyozatlan kódolás esetén b hatása a kísérleti csoport átlagának és az összátlagnak a különbsége, míg súlyozott kódolás esetén egyenlő a kísérleti csoport átlagával mínusz a súlyozott átlag [2] .

A hatáskódolásnál ugyanúgy kódoljuk a vizsgált csoportot, mint az álkódolásnál. Az alapvető különbség az, hogy a minket legkevésbé érdeklő csoporthoz a -1 kódot rendeljük. Mivel továbbra is a g - 1 kódolási sémát használjuk, a -1 kódolású csoport nem termel adatot, mivel ez a csoport érdekel minket a legkevésbé.

A b -értékeket úgy kell értelmezni, hogy a kezelt csoportot az összes csoport átlagához (vagy súlyozott befolyáskódolás esetén a súlyozott összátlaghoz) hasonlítsák. Így a b negatív értékének megszerzése azt jelenti, hogy a kódolt csoport pontszáma kisebb, mint a függő változó összes csoportjának átlaga. Az optimizmus nemzetenkénti pontozására vonatkozó korábbi példánkat használva, ha egy olasz csoportot vesszük figyelembe, a b megfigyelt negatív értéke azt jelenti, hogy alacsony optimizmuspontszámmal rendelkeznek.

A következő táblázat egy példa a hatáskódolásra, ahol a legkevésbé érdekes csoport a többi .

Állampolgárság	C1	C2	C3
francia emberek	0	0	egy
olaszok	egy	0	0
németek	0	egy	0
mások	−1	−1	−1

Kontrasztos kódolás

A kontrasztkódolási (vagy ortogonális kódolási ) rendszer lehetővé teszi a kutató számára, hogy konkrét kérdéseket közvetlenül tegyen fel. Ahelyett, hogy egy kódolási rendszer diktálná az összehasonlításokat (azaz egy kontrollcsoporttal szemben, mint az álkódolásnál, vagy az összes csoporttal szemben, mint a befolyáskódolásnál), egyedi összehasonlítási kritériumot lehet kidolgozni egy adott kutatási kérdéshez. Ezek az egyéni hipotézisek általában korábbi kutatásokon és/vagy elméleteken alapulnak. A hipotézisek általában a következők. Van egy központi hipotézis, amely nagy különbséget feltételez a két csoport között. A második hipotézis azt sugallja, hogy mindegyik halmazban kicsi a különbség a csoportok között. Ezeken az a priori hipotéziseken keresztül a kontrasztkódolás növelheti a statisztikai vizsgálati teljesítményt a korábbi kódolórendszerekhez képest [2] .

Némi különbségek mutatkoznak meg, ha összehasonlítjuk a prioritásainkat az ANOVA és a regresszió között. Ellentétben a varianciaanalízissel, amikor a kutató dönti el, hogy az együtthatók értékei ortogonálisak -e vagy sem, regresszió alkalmazásakor elengedhetetlen, hogy a kontrasztkódolás során hozzárendelt együtthatók értékei ortogonális. Ezenkívül a regresszió során az együtthatók értékének (közönséges) tört vagy tizedes tört formájában kell lennie. Nem lehetnek intervallumértékek.

A kontrasztkódok felépítését három szabály korlátozza:

Az egyes kódváltozókhoz (minden csoporthoz) tartozó kontrasztegyütthatók összegének nullának kell lennie. Esetünkben 1/3 + 1/3 - 2/3 = 0, 1/2 - 1/2 + 0 = 0.
A pozitív (különböző) együtthatók összege és a negatív (különböző) együtthatók összege közötti különbségnek 1-nek kell lennie. Esetünkben 1/3 - (-2/3) = 1, 1/2 - (-1) /2) = 1.
A kódváltozóknak ortogonálisnak kell lenniük [2] .

A 2. szabály megsértése R 2 és F értékeket ad, ami azt mutatja, hogy ugyanazokat a következtetéseket kell levonnunk arról, hogy van-e szignifikáns különbség; A b értékeit azonban már nem tudjuk értelmezni az átlagok közötti különbségként.

A kontrasztkódok felépítésének szemléltetéséhez vegye figyelembe a következő táblázatot. Az együtthatókat a korábbi hipotéziseink illusztrálására választottuk: 1. hipotézis: A franciák és az olaszok optimistábbak, mint a németek (franciák=+0,33, olaszok=+0,33, németek=0,66). Ezt szemlélteti azzal, hogy ugyanazt az együtthatót rendeljük a francia és az olasz kategóriákhoz, és egy másik együtthatót a némethez. A hozzárendelt jelek a kapcsolat irányát mutatják (a németeknél a negatív előjel kevésbé hipotetikus optimizmusukat mutatja). 2. hipotézis: A franciák és az olaszok optimizmusa várhatóan eltérő lesz (francia = +0,50, olasz = -0,50, német = 0). Ezért a nulla érték hozzárendelése a németekhez azt mutatja, hogy nem vették figyelembe ezt a hipotézist az elemzésben. A hozzárendelt jelek ismét a feltételezett kapcsolatokat jelzik.

Állampolgárság	C1	C2
francia emberek	+0,33	+0,50
olaszok	+0,33	−0,50
németek	−0,66	0

Értelmetlen kódolás

Az értelmetlen kódolás akkor fordul elő, ha az előző kódolási rendszerben tetszőleges értékeket használnak a "0", "1" és "-1" helyett. Noha ez a kódolás a változók helyes értékeit állítja elő, értelmetlen kódolás használata nem javasolt, mivel az kiszámíthatatlan statisztikai eredményekhez vezet [2] .

Mellékletek

A beágyazások kategorikus értékek kódolása valós értékű (néha összetett értékű ) vektorterekbe, általában oly módon, hogy a "hasonló" értékeket "hasonló" vektorokhoz rendelik, vagy valamilyen kritériumnak vetik alá őket, ami a megfelelő alkalmazáshoz hasznos vektorok. Gyakori speciális eset a szóbeágyazás , ahol a minőségi változók lehetséges értékei a nyelv szavai , és hasonló vektorok vannak hozzárendelve a hasonló értékű szavakhoz.

Interakciók

Egy interakció létrejöhet, ha három vagy több változót veszünk figyelembe, és olyan helyzetet ír le, amelyben két változó egyidejű hatása egy harmadikra nem additív. A minőségi változókkal kétféleképpen jöhet létre kölcsönhatás: vagy egy minőségi változó kölcsönhatása egy minőségi változóval, vagy egy minőségi változó kölcsönhatása egy folytonos változóval.

Kvalitatív változó kölcsönhatása kvalitatív változóval

Ez a fajta interakció akkor következik be, ha két minőségi változónk van. Az ilyen típusú interakciók feltárásához a rendszert úgy kell kódolni, hogy a legmegfelelőbb módon kezelje a kutató hipotézisét. A kódolás eredménye reprodukálja az interakciót. Ezután kiszámíthatja b értékét, és meghatározhatja, hogy ez a kölcsönhatás szignifikáns-e [2] .

Kvalitatív változó kölcsönhatása folytonos változóval

Az egyszerű lejtőelemzés a regresszióban használt általános utólagos elemzés , amely hasonló az interakcióelemzésben használt ANOVA egyszerű hatáselemzéséhez. Ebben a tesztben egy független változó meredekségét teszteljük egy másik független változó bizonyos értékeivel szemben. Egy ilyen teszt nem korlátozódik folytonos változókra, és akkor is használható, ha a független változó kvalitatív. Az interakciós vizsgálatokhoz nem választhatunk egyszerűen értékeket, mint a folytonos változó esetében, az adatok nominális jellegéből adódóan (azaz folytonos esetben magas, közepes és alacsony szinten is elemezhetjük az adatokat úgy, hogy hozzárendelve egy szórást az átlag felett, középen, és egyet az átlag alatt). Esetünkben egy egyszerű csoportonkénti regressziós egyenletet használunk a lejtők feltárására. Bevett gyakorlat a változók szabványosítása vagy központosítása, hogy az adatok jobban értelmezhetőek legyenek a meredekség elemzésében. A minőségi változókat azonban nem szabad szabványosítani vagy központosítani. Ez a teszt minden kódolórendszerrel használható [2] .

Lásd még

Skála
Minőségi adatok
Statisztikai adattípus

Jegyzetek

↑ Yates, Moore, Starnes, 2003 .
↑ 1 2 3 4 5 6 7 8 9 10 Cohen J., Cohen P., West, Aiken, 2003 .
↑ Léteznek bináris kódolás vagy indikátorkódolás elnevezések is . Lásd például: SPSS Multiple Regression Archived 2019. január 8. a Wayback Machine -nél . Bár a Multivariate Statistical Data Analysis archivált 2018. június 19-én a Wayback Machine -nél című tankönyv különbséget tesz az álkódolás és az indikátorkódolás között. Ez utóbbiban a dichotóm indikátorváltozók száma egybeesik a kategóriák számával
↑ Hardy, 1993 .
↑ Terescsenko, Kurilovics, Knyazeva, 2012 , p. 33.

Irodalom

Tereshchenko O. V., Kurilovich N. V., Knyazeva E. I. Többváltozós statisztikai adatelemzés a társadalomtudományokban. - Minszk: BGU, 2012. - ISBN 978-985-518-711-1 .

Daniel S. Yates, David S. Moore, Daren S. Starnes. A statisztika gyakorlata . — 2. - New York: Freeman , 2003. - ISBN 978-0-7167-4773-4 . Archiválva : 2005. február 9. a Wayback Machine -nél
Cohen J., Cohen P., West SG, Aiken LS Alkalmazott többszörös regressziós/korrelációs elemzés a viselkedéstudományok számára (3. kiadás). – New York, NY: Routledge, 2003.
Melissa Hardy. Regresszió álváltozókkal. – Newbury Park, CA: Sage, 1993.

Olvasás további olvasáshoz

Andersen, Erling B. 1980. Diszkrét statisztikai modellek társadalomtudományi alkalmazásokkal . Észak-Hollandia, 1980.
Bishop YMM, Fienberg SE, Holland PW Discrete Multivariate Analysis: Theory and Practice . - MIT Press, 1975. - ISBN 978-0-262-02113-5 .
Ronald Christensen. Log-lineáris modellek és logisztikus regresszió. — Másodszor. - New York: Springer-Verlag, 1997. - P. xvi + 483. - (Tavaszi szövegek a statisztikában). — ISBN 0-387-98247-7 .
Barátságos, Michael. Kategorikus adatok megjelenítése Archiválva : 2019. július 12. a Wayback Machine -nél . SAS Institute, 2000.
Steffen L. Lauritzen. Előadások a kontingenciatáblázatokról . - az (University of Aalborg) 3. frissített elektronikus változata (1989). – 2002.
NIST/SEMATEK (2008) Statisztikai módszerek kézikönyve archiválva 2009. február 27-én a Wayback Machine -nél