Korreláció

Korreláció (a latin  correlatio "ratio" szóból), vagy korrelációs függőség  - két vagy több valószínűségi változó statisztikai kapcsolata (vagy olyan változó, amely elfogadható pontossággal annak tekinthető), miközben egy vagy több valószínűségi változó értékének változása. ezen mennyiségek közül többet egy másik vagy más mennyiség értékeinek szisztematikus változása kísér [1] .

Két valószínűségi változó korrelációjának matematikai mértéke a korrelációs arány [2] vagy a korrelációs együttható (vagy ) [1] . Ha az egyik valószínűségi változó változása nem egy másik valószínűségi változó szabályos változásához, hanem ennek a valószínűségi változónak egy másik statisztikai jellemzőjében változáshoz vezet, akkor az ilyen összefüggés nem tekinthető korrelációnak, bár statisztikai jellegű [3] .

A korreláció kifejezést először Georges Cuvier francia paleontológus vezette be a tudományos forgalomba a 18. században. Kidolgozta az élőlények részeinek és szerveinek "korrelációs törvényét", amelynek segítségével vissza lehet állítani egy fosszilis állat megjelenését, amelynek csak egy része áll a rendelkezésére. A statisztikákban a "korreláció" szót először Francis Galton angol biológus és statisztikus használta a 19. század végén [4] .

Mennyiségek korrelációja és összekapcsolása

Két valószínűségi változó közötti szignifikáns korreláció mindig bizonyíték arra, hogy egy adott mintában valamilyen statisztikai összefüggés létezik, de ennek a kapcsolatnak nem feltétlenül kell egy másik mintánál megfigyelhetőnek lennie, és ok-okozati jellegűnek kell lennie. A korrelációs vizsgálat gyakran csábító egyszerűsége arra ösztönzi a kutatót, hogy hamis intuitív következtetéseket vonjon le a tulajdonságpárok közötti ok-okozati összefüggés meglétéről, míg a korrelációs együtthatók csak statisztikai összefüggéseket állapítanak meg. Például egy város tüzét vizsgálva nagyon magas összefüggést találhatunk a tűz okozta károk és a tűz oltásában részt vevő tűzoltók száma között, és ez az összefüggés pozitív lesz. Ez azonban nem vezet arra a következtetésre, hogy "a tűzoltók számának növekedése az okozott károk növekedéséhez vezet", és még kevésbé lesz sikeres kísérlet a tűzkár minimalizálására a tűzoltók felszámolásával [ 5] . Két mennyiség korrelációja jelezheti közös ok meglétét, bár maguk a jelenségek nem hatnak közvetlenül egymásra. Például a jegesedés az esések miatti sérülések számának növekedését és a járművek közötti balesetek számának növekedését okozza. Ebben az esetben két mennyiség (a gyalogos esések és járműbalesetek miatti sérülések) összefügg egymással, bár ezek nincsenek ok-okozati összefüggésben egymással, hanem csak egy harmadik fél közös okuk van - a fekete jég .

Ugyanakkor az, hogy nincs összefüggés két mennyiség között, nem jelenti azt, hogy nincs kapcsolat közöttük. Például a függőségnek lehet összetett nemlineáris jellege, amit a korreláció nem tár fel.

A korrelációs együtthatók bizonyos típusai lehetnek pozitívak vagy negatívak. Az első esetben feltételezzük, hogy csak a kapcsolat meglétét vagy hiányát tudjuk meghatározni, a második esetben pedig annak irányát is. Ha feltételezzük, hogy a változók értékei szigorú sorrendű összefüggést kapnak , akkor a negatív korreláció  olyan korreláció, amelyben az egyik változó növekedése egy másik változó csökkenésével jár. Ebben az esetben a korrelációs együttható negatív lesz. Ilyen feltételek mellett az a pozitív korreláció , amelyben az egyik változó növekedése egy másik változó növekedésével jár. Az is lehetséges, hogy nincs statisztikai kapcsolat - például független valószínűségi változók esetében .

Korrelációs intézkedések

A korrelációs együttható kiszámításának módja attól függ, hogy a változók milyen skálatípusra vonatkoznak. Tehát a változók intervallum- és mennyiségi skálákkal történő méréséhez a Pearson-féle korrelációs együtthatót (szorzatmomentumok korrelációját ) kell használni . Ha a két változó közül legalább az egyik ordinális skálájú, vagy nem normális eloszlású , akkor Spearman vagy (tau) Kendall rangkorrelációját kell használni. Abban az esetben, ha a két változó közül az egyik dichotóm , akkor pont kétsoros korrelációt használunk, ha pedig mindkét változó dichotóm  , akkor négymezős korrelációt használunk. Két nem dichotóm változó közötti korrelációs együttható számításának csak akkor van értelme, ha közöttük a kapcsolat lineáris (egyirányú).

A korreláció paraméteres mutatói

Kovariancia

Két valószínűségi változó együttes eloszlásának fontos jellemzője a kovariancia (vagy korrelációs momentum ). A kovariancia egy másodrendű közös központi momentum [6] . A kovariancia a valószínűségi változók eltéréseinek szorzatának matematikai elvárása [7] :

,

hol  van a matematikai elvárás (az angol nyelvű szakirodalomban a várható értékből való megjelölés elfogadott ).

Kovariancia tulajdonságai :

  • Két független valószínűségi változó kovarianciája és egyenlő nullával [8] .
Bizonyíték

Mivel és független valószínűségi változók, eltéréseik és szintén függetlenek. Felhasználva azt a tényt, hogy a független valószínűségi változók szorzatának matematikai elvárása egyenlő a faktorok matematikai elvárásainak szorzatával, az eltérés matematikai elvárása pedig nulla, azt kaptuk.

  • Két valószínűségi változó kovarianciájának abszolút értéke, és nem haladja meg diszperzióik geometriai átlagát : [9] .
Bizonyíték

Vezessünk be egy valószínűségi változót (ahol a szórása ) és keressük meg a varianciáját . A számítások elvégzése után a következőket kapjuk:

Minden eltérés nem negatív, tehát

Innen

Hasonlóképpen egy valószínűségi változó bevezetésével

A kapott egyenlőtlenségeket összevonva megkapjuk

Vagy

Így,

  • A kovariancia dimenziója megegyezik a valószínűségi változók dimenziójának szorzatával, vagyis a kovariancia nagysága függ a független változók mértékegységeitől. A kovariancia ezen tulajdonsága megnehezíti a korrelációanalízis céljára való felhasználását [8] .
Lineáris korrelációs együttható

A kovariancia hiányának kiküszöbölésére egy lineáris korrelációs együtthatót (vagy Pearson-féle korrelációs együtthatót ) vezettek be, amelyet Karl Pearson , Francis Edgeworth és Raphael Weldon dolgozott ki a XIX. század 90-es éveiben. A korrelációs együtthatót a [10] [8] képlettel számítjuk ki :

ahol ,  a minták átlagértéke.

A korrelációs együttható mínusz egytől plusz egyig változik [11] .

Bizonyíték

A kettős egyenlőtlenség mindkét részét elosztva kapjuk

A lineáris korrelációs együttható a regressziós együtthatóhoz kapcsolódik a következő függés formájában: ahol  a regressziós együttható,  a megfelelő faktorattribútum szórása [12] . A regressziós együttható és az Y szórás aránya nem függ Y egységeitől. Az adathalmaz lineáris transzformációjával a lineáris korrelációs együttható egyenlő lesz .

A korreláció nem paraméteres mértékei

Kendall rangkorrelációs együtthatója

A mennyiségi vagy minőségi mutatók közötti kapcsolat azonosítására szolgál, amennyiben rangsorolhatók. Az X mutató értékei növekvő sorrendben vannak beállítva, és rangokhoz vannak rendelve. Az Y mutató értékeit rangsoroljuk, és kiszámítjuk a Kendall -korrelációs együtthatót :

,

ahol .

 a jelenlegi megfigyeléseket követő, nagy Y-rangú megfigyelések teljes száma.

 az aktuális megfigyeléseket követő, alacsonyabb Y-rangú megfigyelések összessége. (az egyenlő rangokat nem vesszük figyelembe!)

Ha a vizsgált adatok ismétlődnek (azonos rangúak), akkor a korrigált Kendall-korrelációs együtthatót használjuk a számításokhoz:

 a kapcsolódó rangok száma az X és Y sorozatban.

Spearman-féle rangkorrelációs együttható

Két valószínűségi változó (jellemzők) függésének mértéke és a kapott eredmények elemzése alapján jellemezhető . Minden mutatóhoz rangsor tartozik . Az értékek sorrendje természetes sorrendben van . A rangot úgy írjuk, és annak a pár rangjának felel meg , amelynek a rangja . A kapott rangok és azok különbségei alapján kiszámítjuk a Spearman korrelációs együtthatót :

Az együttható értéke −1-től (a rangsorok teljesen ellentétesek) és +1-ig (a rangsorok teljesen azonosak) változik. A nulla érték azt jelzi, hogy a jellemzők függetlenek.

Fechner-jel korrelációs együttható

Kiszámítják a mutatók értékeinek átlagos értékétől való eltérésének jeleinek egybeesésének és eltéréseinek számát.

C azon párok száma, amelyeknél az értékek átlagtól való eltérésének előjele egybeesik.

H azoknak a pároknak a száma, amelyeknél az értékek átlagtól való eltérésének előjele nem egyezik.

Többszörös korrelációs együttható Többes rangú korrelációs együttható (konkordancia)

 a rangsorolt ​​csoportok száma.

 a változók száma.

az y -egy -tényezőjének  rangja .

Jelentőség:

, akkor a kapcsolat hiányának hipotézise elvetődik.

Rokon beosztás esetén:

A korrelációs együttható tulajdonságai

ha a kovarianciát két valószínűségi változó skaláris szorzatának vesszük , akkor a valószínűségi változó normája egyenlő lesz , és a Cauchy-Bunyakovsky egyenlőtlenség következménye: .
  • A korrelációs együttható akkor és csak akkor egyenlő, ha és lineárisan függ (kivéve a nulla valószínűségű eseményeket, amikor több pont "kiüt" az egyenesből, ami a valószínűségi változók lineáris függését tükrözi):
, ahol . Ezenkívül ebben az esetben a jelek és egybeesnek: . Bizonyíték

Tekintsük az X és Y valószínűségi változókat nulla átlaggal és szórással, amelyek rendre egyenlőek és . Számítsuk ki a valószínűségi változó varianciáját :

Feltéve, hogy a korrelációs együttható

akkor az előző kifejezés át lesz írva az űrlapba

Mivel az a és b számokat mindig úgy is megválaszthatjuk, hogy (például ha , akkor tetszőleges a-t és -t veszünk ), akkor ezekre az a és b szórása , tehát szinte biztosan. De ez lineáris kapcsolatot jelent X és Y között. A bizonyítást nyilvánvalóan általánosítjuk X és Y esetére, nem nulla átlaggal, csak a fenti számításoknál kell X-et helyettesíteni Y-vel .

  • Legyenek a valószínűségi változók olyanok, hogy , . Ezután: , hol van a feltételes matematikai elvárás.
  • Ha független valószínűségi változók, akkor . Ennek a fordítottja általában nem igaz.

Korrelációelemzés

A korrelációelemzés egy statisztikai  adatfeldolgozási módszer , amely két vagy több változó közötti kapcsolat erősségét méri. A korrelációelemzés szorosan kapcsolódik a regresszióanalízishez (gyakran előfordul az általánosabb statisztikai fogalom „ korrelációs-regressziós elemzés ” kifejezés is ), meghatározza, hogy a többszörös regressziós egyenletbe be kell-e venni bizonyos tényezőket, és kiértékeli a eredő regressziós egyenlet a megfelelőségi azonosított kapcsolatokhoz ( a determinációs együttható felhasználásával ) [1] [2] .

A korrelációelemzés korlátai

  1. Alkalmazása akkor lehetséges, ha elegendő megfigyelés áll rendelkezésre a tanulmányozáshoz. A gyakorlatban az a vélemény, hogy a megfigyelések számának legalább 5-6-szorosának kell lennie a tényezők számának (a faktorszám legalább 10-szeresének megfelelő arány alkalmazása is javasolt). Ha a megfigyelések száma tízszeresen meghaladja a tényezők számát, akkor a nagy számok törvénye lép életbe , amely biztosítja a véletlenszerű ingadozások kölcsönös kioltását [13] .
  2. Szükséges, hogy az összes faktoriális és effektív jellemző értékeinek összessége engedelmeskedjen a többváltozós normális eloszlásnak . Ha a sokaság térfogata nem elegendő az eloszlás normalitásának formális teszteléséhez, akkor az eloszlási törvényt vizuálisan határozzuk meg a korrelációs mező alapján . Ha ebben a mezőben lineáris trend figyelhető meg a pontok elhelyezkedésében, akkor feltételezhető, hogy a kezdeti adatok halmaza megfelel a normál eloszlási törvénynek [14] .
  3. A kezdeti értékkészletnek minőségileg homogénnek kell lennie [13] .
  4. A korreláció ténye önmagában nem ad alapot annak állítására, hogy az egyik változó megelőzi vagy okozza a változásokat, vagy hogy a változók általában oksági kapcsolatban állnak egymással, és a harmadik tényező hatása nem figyelhető meg [5] ] .

Hatókör

A statisztikai adatok feldolgozásának ez a módszere nagyon népszerű a közgazdaságtanban , az asztrofizikában és a társadalomtudományokban (különösen a pszichológiában és a szociológiában ), bár a korrelációs együtthatók hatóköre kiterjedt: ipari termékek minőségellenőrzése , kohászat , mezőgazdasági kémia , hidrobiológia , biometria és mások . . A különböző alkalmazott iparágakban a kapcsolat szorosságának és jelentőségének értékelésére eltérő intervallumhatárokat fogadnak el.

A módszer népszerűsége két szempontnak köszönhető: a korrelációs együtthatók viszonylag könnyen kiszámíthatók, alkalmazása nem igényel különösebb matematikai felkészültséget. Az egyszerű értelmezhetőség mellett az együttható alkalmazásának egyszerűsége a statisztikai adatelemzés területén való széleskörű alkalmazásához vezetett.

Lásd még

Jegyzetek

  1. 1 2 3 Shmoylova, 2002 , p. 272.
  2. 1 2 Eliszeeva, Juzbasev, 2002 , p. 232.
  3. Eliseeva, Juzbasev, 2002 , p. 228.
  4. Eliseeva, Juzbasev, 2002 , p. 228-229.
  5. 1 2 Eliszeeva, Juzbasev, 2002 , p. 229.
  6. Szuszlov, Ibragimov, Talysheva, Ciplakov, 2005 , p. 141.
  7. Gmurman, 2004 , p. 176-177.
  8. 1 2 3 Gmurman, 2004 , p. 177.
  9. Gmurman, 2004 , p. 178-179.
  10. Shmoylova, 2002 , p. 300.
  11. Gmurman, 2004 , p. 179.
  12. Shmoylova, 2002 , p. 301.
  13. 1 2 Eliszeeva, Juzbasev, 2002 , p. 230.
  14. Shmoylova, 2002 , p. 275.

Irodalom

  • Gmurman V. E. Valószínűségszámítás és matematikai statisztika: Tankönyv középiskolák számára. — 10. kiadás, sztereotip. - Moszkva: Felsőiskola, 2004. - 479 p. —ISBN 5-06-004214-6.
  • Eliseeva I. I. , Yuzbashev M. M. A statisztika általános elmélete: Tankönyv / Szerk. I. I. Eliseeva. - 4. kiadás, átdolgozva és bővítve. - Moszkva: Pénzügy és Statisztika, 2002. - 480 p. — ISBN 5-279-01956-9 .
  • Korrelációelemzés  / A. V. Prohorov // Nagy Orosz Enciklopédia  : [35 kötetben]  / ch. szerk. Yu. S. Osipov . - M .  : Nagy orosz enciklopédia, 2004-2017.
  • A statisztika általános elmélete: Tankönyv / Szerk. R. A. Shmoylova . — 3. kiadás, átdolgozva. - Moszkva: Pénzügy és Statisztika, 2002. - 560 p. — ISBN 5-279-01951-8 .
  • Suslov V. I., Ibragimov N. M., Talysheva L. P., Tsyplakov A. A. Econometrics. - Novoszibirszk: SO RAN, 2005. - 744 p. — ISBN 5-7692-0755-8 .

Linkek