A kvalitatív , diszkrét vagy kategorikus változó olyan változó , amely korlátozott és általában rögzített számú lehetséges érték valamelyikét veheti fel , és minden megfigyelési egységet valamilyen minőségi tulajdonság alapján egy meghatározott csoporthoz vagy névleges kategóriához rendel [1] . A számítástechnikában és a matematika egyes ágaiban a kvalitatív változókat felsorolásnak vagy kategorikus eloszlásnak nevezik .
A kvalitatív adat egy statisztikai adattípus , amely minőségi változókból áll, vagy olyan adatokból, amelyeket ilyen formára alakítanak át, például csoportosított adatok . Pontosabban, kvalitatív adatok nyerhetők kvalitatív adatokból megfigyelésekből, amelyek számlálók vagy kereszttáblázatok formájában vannak összefoglalva , vagy kvantitatív adatok megfigyelésekből , amelyeket adott intervallumok szerint csoportosítanak. A tisztán kvalitatív adatokat gyakran kontingencia táblázat formájában fogalmazzák meg . A "kvalitatív adatok " kifejezés azonban olyan adatkészletekre vonatkozik, amelyek bár tartalmaznak minőségi változókat, tartalmazhatnak olyan változókat is, amelyek nem minőségiek.
Egy minőségi változót, amely pontosan két értéket vehet fel, bináris változónak vagy dichotóm változónak nevezzük . Fontos speciális eset a Bernoulli törvény szerint elosztott érték . A kettőnél több lehetséges értékkel rendelkező kvalitatív változókat politom változóknak nevezzük . A kvalitatív változókat gyakran politómnak tekintik, hacsak másként nem jelezzük. A diszkretizálás a folyamatos adatok minőségi kezelését jelenti. A dichotomizálás a folytonos adatok bináris változókként való kezelése. A regressziós elemzést gyakran kvalitatívként kezelik egy vagy több kvantitatív álváltozóval .
Példák minőségi változóként ábrázolható értékekre:
A statisztikai feldolgozás kényelme érdekében kvalitatív változókhoz numerikus indexeket rendelhetünk, például 1-től K -ig egy K -értékű kvalitatív változóhoz (vagyis olyan változóhoz, amely pontosan K lehetséges értéket tud felvenni). Általános szabályként azonban a számok tetszőlegesek, és nem sok más jelentéssel bírnak, mint egy adott érték egyszerű címkézése. Más szóval, egy minőségi változó értékei névleges skálán léteznek – az értékek külön fogalmak, nem rendezhetők , és nem manipulálhatók, mint a szabályos számok. Érvényes műveletek csak az ekvivalencia , a halmaztagság és a halmazokon végzett egyéb műveletek lehetnek.
Ennek eredményeként a minőségi változók halmazának központi tendenciáját a módus adja meg . Sem az átlag, sem a medián nem határozható meg. Például egy emberek halmaza esetén a vezetéknevüknek megfelelő minőségi változók halmazát tekinthetjük. Tekinthetünk olyan műveleteket, mint az ekvivalencia (hogy két embernek ugyanaz a vezetékneve), beállítandó tagság (van-e egy vezetéknév egy adott listán), számlálás (hány embernek van egy adott vezetékneve) vagy divatkeresés (ami utolsó név a leggyakoribb). Azonban nem tudjuk értelmesen kiszámítani Smith + Johnson "összegét", vagy kérdést feltenni, vagy "összehasonlítani" Smitht és Johnsont. Ennek eredményeként nem kérdezhetjük meg, hogy a vezetéknevek halmazában mi a "középső vezetéknév" ( középérték ) vagy a "középponthoz legközelebbi vezetéknév" ( Medián (statisztika) |medián).
Vegye figyelembe, hogy ez figyelmen kívül hagyja az ábécé sorrend fogalmát , amely egy olyan tulajdonság, amelyet nem magukból a vezetéknevekből örököltek, hanem a címkék létrehozásának egyik módja. Például, ha a vezetékneveket cirill betűkkel írjuk, és feltételezzük a cirill betűrendet, akkor a "Smith" < "Holmes" kifejezéstől eltérő eredményt kaphatunk, amelyet akkor kapunk, ha a vezetékneveket a szabványos latin ábécével írjuk . És ha a neveket kínai karakterekkel írjuk le, akkor egyáltalán nem tudjuk értelmesen írni a "Smith" < "Holms" kifejezést, mert nincs meghatározva számukra a sorrend. Ha azonban a neveket úgy tekintjük, mint amilyenek például a latin ábécé írják, és a szokásos ábécé sorrendjének megfelelő sorrendet definiálunk, akkor rendes változókká alakíthatjuk , amelyeket a közönséges skálán ] definiálunk .
A kvalitatív valószínűségi változókat statisztikailag kvalitatív eloszlás írja le , amely lehetővé teszi egy tetszőleges K értékű minőségi változó kifejezését úgy, hogy minden K lehetséges kimenetelre külön valószínűségeket adunk meg. Az ilyen többkategóriás minőségi változókat gyakran többnévleges eloszlással vizsgálják , amely a különböző kategóriákból származó számok minden lehetséges kombinációjának gyakoriságát számolja. A kvalitatív eredmények regressziós elemzése multinomiális logisztikus regresszió , multinomiális többszörös probit vagy hasonló típusú diszkrét választási modellek használatával történik .
Azokat a minőségi változókat, amelyeknek csak két lehetséges kimenetele van (például igen/nem vagy siker/sikertelenség), bináris változóknak (vagy Bernoulli-változóknak ) nevezzük. Fontosságuk miatt ezeket a változókat gyakran külön kategóriának tekintik, külön eloszlással ( Bernoulli-eloszlás ) és külön regressziós modellekkel ( Logisztikai regresszió , Probit regresszió stb.). Ennek eredményeként a „minőségi változó” kifejezést gyakran 3 vagy több kimenetelű esetekre tartják fenn, és ezeket többértékű változóknak nevezik, szemben a bináris változókkal.
Olyan minőségi változókat is figyelembe vehetünk, amelyeknél a kategóriák száma nincs előre rögzítve. Ilyen minőségi változó lehet egy szót leíró változó, és nem tudhatjuk előre a szótár méretét, így megengedhetjük, hogy olyan szavakkal is találkozzunk, amelyeket korábban nem láttunk. A minőségi eloszlást és a multinomiális logisztikus regressziót tartalmazó standard statisztikai modellek feltételezik, hogy a kategóriák száma előre ismert, és a kategóriák számának menet közbeni megváltoztatása problémás. Ilyen esetekben fejlettebb technikákat kell alkalmazni. Példa erre a Dirichlet-folyamat , amely a nem paraméteres statisztikák birodalmába tartozik . Ilyen esetben logikusan feltételezzük, hogy végtelen számú kategória létezik, de a legtöbbjüket (valójában véges szám kivételével) soha nem tekintjük meg. Minden képlet a ténylegesen eltalált kategóriák számának megfelelően van megfogalmazva, nem pedig a potenciális kategóriák (végtelen) teljes számában, és módszereket hoznak létre a növekményes valószínűségi eloszlások frissítésére, beleértve az "új" kategóriák hozzáadását is.
A kvalitatív változók az adatok kvalitatív (szemben a mennyiségi) értékelésének módszerét képviselik (azaz kategóriákat vagy csoporttagságot jelentenek). Ezek szerepelhetnek független változóként egy regressziós elemzésben, vagy függő változóként egy logisztikus vagy probit regresszióban , de számokká kell konvertálni adatok elemzéséhez. Ez kódrendszerek használatával történik. Az elemzést úgy végezzük, hogy csak g −1 ( g egyenlő a csoportok számával) értékek legyenek kódolva. Ez minimálisra csökkenti a redundanciát, de továbbra is a teljes adathalmazt képviseli, mivel az összes g csoport kódolásával nem nyerünk további információkat. Például ha nemet kódolunk ( g =2: férfi és nő), ha csak nőket kódolunk, a többi férfi lesz. Jellemzően egy olyan csoport, amely nincs kódolva, minimális érdeklődésre tart számot [2] .
A regressziós minőségi változók elemzéséhez általában három fő kódrendszert használnak: álkódolás, hatáskódolás és kontrasztkódolás. A regressziós egyenlet Y=bX + a formátumú , ahol b a meredekségi tényező, és megadja a magyarázathoz empirikusan rendelt súlyt, X a magyarázó változó, a pedig az y tengellyel való metszéspont , és ezek az értékek különböző értékeket vesz fel az elfogadott kódrendszertől függően. A kódrendszer megválasztása nem befolyásolja az F vagy R 2 statisztikát . A kódolási rendszert azonban a kategóriák iránti érdeklődéstől függően választjuk meg, mivel attól függ b [2] értéke .
Dummy kódolást [3] használunk, ha van kontroll vagy összehasonlító csoport. Ezért az adatokat az összehasonlító csoporthoz viszonyítva elemezzük – a a kontrollcsoport átlagát jelenti, b pedig a kísérleti csoport átlaga és a kontrollcsoport átlaga közötti különbséget . Feltételezzük, hogy a kontrollcsoport alkalmasságának három feltétele teljesül - a csoportnak jól definiáltnak kell lennie (például nem lehet "egyéb" kategória), logikus oka van annak, hogy ezt a csoportot választották összehasonlító csoportnak. (például várhatóan a csoport kapja a legmagasabb pontszámot a függő változón), és végül a csoport mintanagysága szignifikáns legyen, és ne legyen kisebb a többi csoporthoz képest [4] .
Az álkódolásnál a referenciacsoport minden kódolási változóhoz 0 értéket kap. A változók halmazában minden válaszadónál csak egy vehet fel 1 értéket, ez pedig az [5] [2] kategóriának megfelelő . A b értékeket úgy kell értelmezni, hogy a kísérleti csoportot összehasonlítsák a kontrollcsoporttal. Ezért ha b-re negatív értéket kapunk, az azt jelenti, hogy a kísérleti csoport a függő változón alacsonyabb pontszámot kap, mint a kontrollcsoport . Ennek illusztrálására tegyük fel, hogy optimizmust mérünk több nemzetiség között, és úgy döntünk, hogy a franciákat használjuk kontrollcsoportként. Ha összehasonlítjuk őket az olaszokkal, és negatív b értéket kapunk , ez arra utal, hogy az olaszok átlagosan kevésbé optimisták.
A következő táblázat példát mutat be egy fiktív kódolásra, amelyben a franciák a kontrollcsoport, a C1, C2 és C3 pedig az olaszok , németek és mások (sem franciák, sem olaszok, sem németek) kódjai:
Állampolgárság | C1 | C2 | C3 |
francia emberek | 0 | 0 | 0 |
olaszok | egy | 0 | 0 |
németek | 0 | egy | 0 |
Egyéb | 0 | 0 | egy |
Egy hatáskódoló rendszerben az adatok elemzése egy csoport és az összes többi csoport összehasonlításával történik. A színlelt kódolással ellentétben nincs kontrollcsoport. Ehelyett az összehasonlítás az összes csoport átlagával történik ( a most a teljes átlag ). Ezért nem az adatok más csoportokkal való kapcsolatát, hanem az összátlaggal való kapcsolatot keresik [2] .
A befolyásoló kódolás lehet súlyozott vagy nem. A súlyozott hatáskódolás egyszerűen kiszámítja a súlyozott összátlagot, így figyelembe veszi az egyes változók mintanagyságát. Ez a legmegfelelőbb olyan helyzetekben, amikor a minta reprezentálja a sokaságot. A súlyozatlan befolyásoló kódolás a legmegfelelőbb olyan helyzetekben, amikor a mintaméret különbsége véletlenszerű tényezők eredménye. A b értelmezése ezekben az esetekben eltérő - súlyozatlan kódolás esetén b hatása a kísérleti csoport átlagának és az összátlagnak a különbsége, míg súlyozott kódolás esetén egyenlő a kísérleti csoport átlagával mínusz a súlyozott átlag [2] .
A hatáskódolásnál ugyanúgy kódoljuk a vizsgált csoportot, mint az álkódolásnál. Az alapvető különbség az, hogy a minket legkevésbé érdeklő csoporthoz a -1 kódot rendeljük. Mivel továbbra is a g - 1 kódolási sémát használjuk, a -1 kódolású csoport nem termel adatot, mivel ez a csoport érdekel minket a legkevésbé.
A b -értékeket úgy kell értelmezni, hogy a kezelt csoportot az összes csoport átlagához (vagy súlyozott befolyáskódolás esetén a súlyozott összátlaghoz) hasonlítsák. Így a b negatív értékének megszerzése azt jelenti, hogy a kódolt csoport pontszáma kisebb, mint a függő változó összes csoportjának átlaga. Az optimizmus nemzetenkénti pontozására vonatkozó korábbi példánkat használva, ha egy olasz csoportot vesszük figyelembe, a b megfigyelt negatív értéke azt jelenti, hogy alacsony optimizmuspontszámmal rendelkeznek.
A következő táblázat egy példa a hatáskódolásra, ahol a legkevésbé érdekes csoport a többi .
Állampolgárság | C1 | C2 | C3 |
francia emberek | 0 | 0 | egy |
olaszok | egy | 0 | 0 |
németek | 0 | egy | 0 |
mások | −1 | −1 | −1 |
A kontrasztkódolási (vagy ortogonális kódolási ) rendszer lehetővé teszi a kutató számára, hogy konkrét kérdéseket közvetlenül tegyen fel. Ahelyett, hogy egy kódolási rendszer diktálná az összehasonlításokat (azaz egy kontrollcsoporttal szemben, mint az álkódolásnál, vagy az összes csoporttal szemben, mint a befolyáskódolásnál), egyedi összehasonlítási kritériumot lehet kidolgozni egy adott kutatási kérdéshez. Ezek az egyéni hipotézisek általában korábbi kutatásokon és/vagy elméleteken alapulnak. A hipotézisek általában a következők. Van egy központi hipotézis, amely nagy különbséget feltételez a két csoport között. A második hipotézis azt sugallja, hogy mindegyik halmazban kicsi a különbség a csoportok között. Ezeken az a priori hipotéziseken keresztül a kontrasztkódolás növelheti a statisztikai vizsgálati teljesítményt a korábbi kódolórendszerekhez képest [2] .
Némi különbségek mutatkoznak meg, ha összehasonlítjuk a prioritásainkat az ANOVA és a regresszió között. Ellentétben a varianciaanalízissel, amikor a kutató dönti el, hogy az együtthatók értékei ortogonálisak -e vagy sem, regresszió alkalmazásakor elengedhetetlen, hogy a kontrasztkódolás során hozzárendelt együtthatók értékei ortogonális. Ezenkívül a regresszió során az együtthatók értékének (közönséges) tört vagy tizedes tört formájában kell lennie. Nem lehetnek intervallumértékek.
A kontrasztkódok felépítését három szabály korlátozza:
A 2. szabály megsértése R 2 és F értékeket ad, ami azt mutatja, hogy ugyanazokat a következtetéseket kell levonnunk arról, hogy van-e szignifikáns különbség; A b értékeit azonban már nem tudjuk értelmezni az átlagok közötti különbségként.
A kontrasztkódok felépítésének szemléltetéséhez vegye figyelembe a következő táblázatot. Az együtthatókat a korábbi hipotéziseink illusztrálására választottuk: 1. hipotézis: A franciák és az olaszok optimistábbak, mint a németek (franciák=+0,33, olaszok=+0,33, németek=0,66). Ezt szemlélteti azzal, hogy ugyanazt az együtthatót rendeljük a francia és az olasz kategóriákhoz, és egy másik együtthatót a némethez. A hozzárendelt jelek a kapcsolat irányát mutatják (a németeknél a negatív előjel kevésbé hipotetikus optimizmusukat mutatja). 2. hipotézis: A franciák és az olaszok optimizmusa várhatóan eltérő lesz (francia = +0,50, olasz = -0,50, német = 0). Ezért a nulla érték hozzárendelése a németekhez azt mutatja, hogy nem vették figyelembe ezt a hipotézist az elemzésben. A hozzárendelt jelek ismét a feltételezett kapcsolatokat jelzik.
Állampolgárság | C1 | C2 |
francia emberek | +0,33 | +0,50 |
olaszok | +0,33 | −0,50 |
németek | −0,66 | 0 |
Az értelmetlen kódolás akkor fordul elő, ha az előző kódolási rendszerben tetszőleges értékeket használnak a "0", "1" és "-1" helyett. Noha ez a kódolás a változók helyes értékeit állítja elő, értelmetlen kódolás használata nem javasolt, mivel az kiszámíthatatlan statisztikai eredményekhez vezet [2] .
A beágyazások kategorikus értékek kódolása valós értékű (néha összetett értékű ) vektorterekbe, általában oly módon, hogy a "hasonló" értékeket "hasonló" vektorokhoz rendelik, vagy valamilyen kritériumnak vetik alá őket, ami a megfelelő alkalmazáshoz hasznos vektorok. Gyakori speciális eset a szóbeágyazás , ahol a minőségi változók lehetséges értékei a nyelv szavai , és hasonló vektorok vannak hozzárendelve a hasonló értékű szavakhoz.
Egy interakció létrejöhet, ha három vagy több változót veszünk figyelembe, és olyan helyzetet ír le, amelyben két változó egyidejű hatása egy harmadikra nem additív. A minőségi változókkal kétféleképpen jöhet létre kölcsönhatás: vagy egy minőségi változó kölcsönhatása egy minőségi változóval, vagy egy minőségi változó kölcsönhatása egy folytonos változóval.
Kvalitatív változó kölcsönhatása kvalitatív változóvalEz a fajta interakció akkor következik be, ha két minőségi változónk van. Az ilyen típusú interakciók feltárásához a rendszert úgy kell kódolni, hogy a legmegfelelőbb módon kezelje a kutató hipotézisét. A kódolás eredménye reprodukálja az interakciót. Ezután kiszámíthatja b értékét, és meghatározhatja, hogy ez a kölcsönhatás szignifikáns-e [2] .
Kvalitatív változó kölcsönhatása folytonos változóvalAz egyszerű lejtőelemzés a regresszióban használt általános utólagos elemzés , amely hasonló az interakcióelemzésben használt ANOVA egyszerű hatáselemzéséhez. Ebben a tesztben egy független változó meredekségét teszteljük egy másik független változó bizonyos értékeivel szemben. Egy ilyen teszt nem korlátozódik folytonos változókra, és akkor is használható, ha a független változó kvalitatív. Az interakciós vizsgálatokhoz nem választhatunk egyszerűen értékeket, mint a folytonos változó esetében, az adatok nominális jellegéből adódóan (azaz folytonos esetben magas, közepes és alacsony szinten is elemezhetjük az adatokat úgy, hogy hozzárendelve egy szórást az átlag felett, középen, és egyet az átlag alatt). Esetünkben egy egyszerű csoportonkénti regressziós egyenletet használunk a lejtők feltárására. Bevett gyakorlat a változók szabványosítása vagy központosítása, hogy az adatok jobban értelmezhetőek legyenek a meredekség elemzésében. A minőségi változókat azonban nem szabad szabványosítani vagy központosítani. Ez a teszt minden kódolórendszerrel használható [2] .