Korreláció (a latin correlatio "ratio" szóból), vagy korrelációs függőség - két vagy több valószínűségi változó statisztikai kapcsolata (vagy olyan változó, amely elfogadható pontossággal annak tekinthető), miközben egy vagy több valószínűségi változó értékének változása. ezen mennyiségek közül többet egy másik vagy más mennyiség értékeinek szisztematikus változása kísér [1] .
Két valószínűségi változó korrelációjának matematikai mértéke a korrelációs arány [2] vagy a korrelációs együttható (vagy ) [1] . Ha az egyik valószínűségi változó változása nem egy másik valószínűségi változó szabályos változásához, hanem ennek a valószínűségi változónak egy másik statisztikai jellemzőjében változáshoz vezet, akkor az ilyen összefüggés nem tekinthető korrelációnak, bár statisztikai jellegű [3] .
A korreláció kifejezést először Georges Cuvier francia paleontológus vezette be a tudományos forgalomba a 18. században. Kidolgozta az élőlények részeinek és szerveinek "korrelációs törvényét", amelynek segítségével vissza lehet állítani egy fosszilis állat megjelenését, amelynek csak egy része áll a rendelkezésére. A statisztikákban a "korreláció" szót először Francis Galton angol biológus és statisztikus használta a 19. század végén [4] .
Két valószínűségi változó közötti szignifikáns korreláció mindig bizonyíték arra, hogy egy adott mintában valamilyen statisztikai összefüggés létezik, de ennek a kapcsolatnak nem feltétlenül kell egy másik mintánál megfigyelhetőnek lennie, és ok-okozati jellegűnek kell lennie. A korrelációs vizsgálat gyakran csábító egyszerűsége arra ösztönzi a kutatót, hogy hamis intuitív következtetéseket vonjon le a tulajdonságpárok közötti ok-okozati összefüggés meglétéről, míg a korrelációs együtthatók csak statisztikai összefüggéseket állapítanak meg. Például egy város tüzét vizsgálva nagyon magas összefüggést találhatunk a tűz okozta károk és a tűz oltásában részt vevő tűzoltók száma között, és ez az összefüggés pozitív lesz. Ez azonban nem vezet arra a következtetésre, hogy "a tűzoltók számának növekedése az okozott károk növekedéséhez vezet", és még kevésbé lesz sikeres kísérlet a tűzkár minimalizálására a tűzoltók felszámolásával [ 5] . Két mennyiség korrelációja jelezheti közös ok meglétét, bár maguk a jelenségek nem hatnak közvetlenül egymásra. Például a jegesedés az esések miatti sérülések számának növekedését és a járművek közötti balesetek számának növekedését okozza. Ebben az esetben két mennyiség (a gyalogos esések és járműbalesetek miatti sérülések) összefügg egymással, bár ezek nincsenek ok-okozati összefüggésben egymással, hanem csak egy harmadik fél közös okuk van - a fekete jég .
Ugyanakkor az, hogy nincs összefüggés két mennyiség között, nem jelenti azt, hogy nincs kapcsolat közöttük. Például a függőségnek lehet összetett nemlineáris jellege, amit a korreláció nem tár fel.
A korrelációs együtthatók bizonyos típusai lehetnek pozitívak vagy negatívak. Az első esetben feltételezzük, hogy csak a kapcsolat meglétét vagy hiányát tudjuk meghatározni, a második esetben pedig annak irányát is. Ha feltételezzük, hogy a változók értékei szigorú sorrendű összefüggést kapnak , akkor a negatív korreláció olyan korreláció, amelyben az egyik változó növekedése egy másik változó csökkenésével jár. Ebben az esetben a korrelációs együttható negatív lesz. Ilyen feltételek mellett az a pozitív korreláció , amelyben az egyik változó növekedése egy másik változó növekedésével jár. Az is lehetséges, hogy nincs statisztikai kapcsolat - például független valószínűségi változók esetében .
A korrelációs együttható kiszámításának módja attól függ, hogy a változók milyen skálatípusra vonatkoznak. Tehát a változók intervallum- és mennyiségi skálákkal történő méréséhez a Pearson-féle korrelációs együtthatót (szorzatmomentumok korrelációját ) kell használni . Ha a két változó közül legalább az egyik ordinális skálájú, vagy nem normális eloszlású , akkor Spearman vagy (tau) Kendall rangkorrelációját kell használni. Abban az esetben, ha a két változó közül az egyik dichotóm , akkor pont kétsoros korrelációt használunk, ha pedig mindkét változó dichotóm , akkor négymezős korrelációt használunk. Két nem dichotóm változó közötti korrelációs együttható számításának csak akkor van értelme, ha közöttük a kapcsolat lineáris (egyirányú).
Két valószínűségi változó együttes eloszlásának fontos jellemzője a kovariancia (vagy korrelációs momentum ). A kovariancia egy másodrendű közös központi momentum [6] . A kovariancia a valószínűségi változók eltéréseinek szorzatának matematikai elvárása [7] :
,hol van a matematikai elvárás (az angol nyelvű szakirodalomban a várható értékből való megjelölés elfogadott ).
Kovariancia tulajdonságai :
Mivel és független valószínűségi változók, eltéréseik és szintén függetlenek. Felhasználva azt a tényt, hogy a független valószínűségi változók szorzatának matematikai elvárása egyenlő a faktorok matematikai elvárásainak szorzatával, az eltérés matematikai elvárása pedig nulla, azt kaptuk.
Vezessünk be egy valószínűségi változót (ahol a szórása ) és keressük meg a varianciáját . A számítások elvégzése után a következőket kapjuk:
Minden eltérés nem negatív, tehát
Innen
Hasonlóképpen egy valószínűségi változó bevezetésével
A kapott egyenlőtlenségeket összevonva megkapjuk
Vagy
Így,
A kovariancia hiányának kiküszöbölésére egy lineáris korrelációs együtthatót (vagy Pearson-féle korrelációs együtthatót ) vezettek be, amelyet Karl Pearson , Francis Edgeworth és Raphael Weldon dolgozott ki a XIX. század 90-es éveiben. A korrelációs együtthatót a [10] [8] képlettel számítjuk ki :
ahol , a minták átlagértéke.
A korrelációs együttható mínusz egytől plusz egyig változik [11] .
BizonyítékA kettős egyenlőtlenség mindkét részét elosztva kapjuk
A lineáris korrelációs együttható a regressziós együtthatóhoz kapcsolódik a következő függés formájában: ahol a regressziós együttható, a megfelelő faktorattribútum szórása [12] . A regressziós együttható és az Y szórás aránya nem függ Y egységeitől. Az adathalmaz lineáris transzformációjával a lineáris korrelációs együttható egyenlő lesz .
A mennyiségi vagy minőségi mutatók közötti kapcsolat azonosítására szolgál, amennyiben rangsorolhatók. Az X mutató értékei növekvő sorrendben vannak beállítva, és rangokhoz vannak rendelve. Az Y mutató értékeit rangsoroljuk, és kiszámítjuk a Kendall -korrelációs együtthatót :
,
ahol .
a jelenlegi megfigyeléseket követő, nagy Y-rangú megfigyelések teljes száma.
az aktuális megfigyeléseket követő, alacsonyabb Y-rangú megfigyelések összessége. (az egyenlő rangokat nem vesszük figyelembe!)
Ha a vizsgált adatok ismétlődnek (azonos rangúak), akkor a korrigált Kendall-korrelációs együtthatót használjuk a számításokhoz:
a kapcsolódó rangok száma az X és Y sorozatban.
Spearman-féle rangkorrelációs együtthatóKét valószínűségi változó (jellemzők) függésének mértéke és a kapott eredmények elemzése alapján jellemezhető . Minden mutatóhoz rangsor tartozik . Az értékek sorrendje természetes sorrendben van . A rangot úgy írjuk, és annak a pár rangjának felel meg , amelynek a rangja . A kapott rangok és azok különbségei alapján kiszámítjuk a Spearman korrelációs együtthatót :
Az együttható értéke −1-től (a rangsorok teljesen ellentétesek) és +1-ig (a rangsorok teljesen azonosak) változik. A nulla érték azt jelzi, hogy a jellemzők függetlenek.
Fechner-jel korrelációs együtthatóKiszámítják a mutatók értékeinek átlagos értékétől való eltérésének jeleinek egybeesésének és eltéréseinek számát.
C azon párok száma, amelyeknél az értékek átlagtól való eltérésének előjele egybeesik.
H azoknak a pároknak a száma, amelyeknél az értékek átlagtól való eltérésének előjele nem egyezik.
Többszörös korrelációs együttható Többes rangú korrelációs együttható (konkordancia)
a rangsorolt csoportok száma.
a változók száma.
az y -egy -tényezőjének rangja .
Jelentőség:
, akkor a kapcsolat hiányának hipotézise elvetődik.
Rokon beosztás esetén:
Tekintsük az X és Y valószínűségi változókat nulla átlaggal és szórással, amelyek rendre egyenlőek és . Számítsuk ki a valószínűségi változó varianciáját :
Feltéve, hogy a korrelációs együttható
akkor az előző kifejezés át lesz írva az űrlapba
Mivel az a és b számokat mindig úgy is megválaszthatjuk, hogy (például ha , akkor tetszőleges a-t és -t veszünk ), akkor ezekre az a és b szórása , tehát szinte biztosan. De ez lineáris kapcsolatot jelent X és Y között. A bizonyítást nyilvánvalóan általánosítjuk X és Y esetére, nem nulla átlaggal, csak a fenti számításoknál kell X-et helyettesíteni Y-vel .
A korrelációelemzés egy statisztikai adatfeldolgozási módszer , amely két vagy több változó közötti kapcsolat erősségét méri. A korrelációelemzés szorosan kapcsolódik a regresszióanalízishez (gyakran előfordul az általánosabb statisztikai fogalom „ korrelációs-regressziós elemzés ” kifejezés is ), meghatározza, hogy a többszörös regressziós egyenletbe be kell-e venni bizonyos tényezőket, és kiértékeli a eredő regressziós egyenlet a megfelelőségi azonosított kapcsolatokhoz ( a determinációs együttható felhasználásával ) [1] [2] .
A statisztikai adatok feldolgozásának ez a módszere nagyon népszerű a közgazdaságtanban , az asztrofizikában és a társadalomtudományokban (különösen a pszichológiában és a szociológiában ), bár a korrelációs együtthatók hatóköre kiterjedt: ipari termékek minőségellenőrzése , kohászat , mezőgazdasági kémia , hidrobiológia , biometria és mások . . A különböző alkalmazott iparágakban a kapcsolat szorosságának és jelentőségének értékelésére eltérő intervallumhatárokat fogadnak el.
A módszer népszerűsége két szempontnak köszönhető: a korrelációs együtthatók viszonylag könnyen kiszámíthatók, alkalmazása nem igényel különösebb matematikai felkészültséget. Az egyszerű értelmezhetőség mellett az együttható alkalmazásának egyszerűsége a statisztikai adatelemzés területén való széleskörű alkalmazásához vezetett.
Szótárak és enciklopédiák | |
---|---|
Bibliográfiai katalógusokban |
|