Meghatározási együttható

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2022. április 22-én felülvizsgált verziótól ; az ellenőrzéshez 1 szerkesztés szükséges .

A determinációs együttható ( -R  - négyzet ) a függő változó szórásának azon hányada , amelyet a kérdéses függőségi modell , azaz a magyarázó változók magyaráznak. Pontosabban: egy mínusz a megmagyarázhatatlan variancia (a modell véletlenszerű hibájának szórása, vagy a függő változó varianciájának tényezőitől függő) aránya a függő változó varianciájában. Egy valószínűségi változó sok mástól való függésének univerzális mérőszámának tekintik. A lineáris kapcsolat speciális esetben a függő változó és a magyarázó változók közötti úgynevezett többszörös korrelációs együttható négyzete. Egy páros lineáris regressziós modell esetében a determinációs együttható egyenlő az y és x közötti szokásos korrelációs együttható négyzetével .

Definíció és képlet

Az y valószínűségi változó x tényezőktől való függésének modelljének valódi meghatározási együtthatóját a következőképpen határozzuk meg:

ahol az y  valószínűségi változó varianciája , és  a függő változó feltételes ( x faktorokkal ) szórása (a modellhiba varianciája).

Ez a meghatározás valódi paramétereket használ, amelyek a valószínűségi változók eloszlását jellemzik . Ha a megfelelő varianciák értékeinek mintabecslését használjuk , akkor megkapjuk a minta determinációs együtthatójának képletét (amelyet általában a determinációs együttható alatt értünk):

ahol  a regressziós maradékok négyzeteinek összege, a  magyarázott változó tényleges és számított értéke.

 a négyzetek teljes összege.

Állandósságú lineáris regresszió esetén hol  van a magyarázott négyzetösszeg, így ebben az esetben egyszerűbb definíciót kapunk - a determinációs együttható a magyarázott négyzetösszeg hányada a teljes összegben :

Hangsúlyozni kell, hogy ez a képlet csak konstans modellre érvényes, általános esetben az előző képletet kell használni .

Értelmezés

  1. Egy konstans modell determinációs együtthatója 0 és 1 közötti értékeket vesz fel. Minél közelebb van az együttható értéke 1-hez, annál erősebb a függőség. A regressziós modellek értékelésekor ezt a modellnek az adatokhoz való illeszkedéseként értelmezzük. Az elfogadható modelleknél feltételezzük, hogy a determinációs együtthatónak legalább 50%-nak kell lennie (ebben az esetben a többszörös korrelációs együttható abszolút értékben meghaladja a 70%-ot). A 80% feletti determinációs együtthatóval rendelkező modellek egészen jónak tekinthetők (a korrelációs együttható meghaladja a 90%-ot). A determinációs együttható 1 értéke a változók közötti funkcionális kapcsolatot jelenti.
  2. A magyarázott változó és a faktorok közötti statisztikai kapcsolat hiányában a lineáris regresszió statisztikája aszimptotikus eloszlású , ahol  a modelltényezők száma (lásd a Lagrange-szorzó tesztet ). Normális eloszlású véletlenszerű hibákkal rendelkező lineáris regresszió esetén a statisztika pontos (bármilyen méretű minták esetén) Fisher-eloszlást tartalmaz (lásd F-próba ). Az ezen értékek eloszlására vonatkozó információk lehetővé teszik a regressziós modell statisztikai szignifikanciájának ellenőrzését a determinációs együttható értéke alapján. Valójában ezek a tesztek azt a hipotézist tesztelik, hogy a valódi determinációs együttható nullával egyenlő.
  3. A determinációs együttható nem lehet negatív, ez a következtetés a determinációs együttható tulajdonságaiból adódik. A korrigált determinációs együttható azonban negatív értékeket vehet fel.

Az R 2 és az alternatív indikátorok hiánya

A (szelektív) alkalmazással az a fő probléma, hogy értéke nő ( nem csökken) attól, hogy új változókat adunk a modellhez, még akkor is, ha ezeknek a változóknak semmi közük a magyarázott változóhoz! Ezért a determinációs együtthatót használó, különböző számú faktorral rendelkező modellek összehasonlítása általában véve helytelen. Erre a célra alternatív mutatók használhatók.

Korrigált R 2

Annak érdekében, hogy a különböző faktorszámú modelleket össze lehessen hasonlítani úgy, hogy a regresszorok (tényezők) száma ne befolyásolja a statisztikát , általában korrigált determinációs együtthatót használnak , amely torzítatlan varianciabecsléseket használ:

ami büntetést ad a kiegészítő tényezőkre, ahol n  a megfigyelések száma és k a paraméterek száma.

Ez a mutató mindig kisebb egynél, de elméletileg kisebb is lehet nullánál (csak a szokásos determinációs együttható nagyon kis értékével és sok tényezővel). Ezért a mutató „részvényként” való értelmezése elvész. Mindazonáltal a mutató használata az összehasonlításban meglehetősen indokolt.

Az azonos függő változókkal és azonos mintamérettel rendelkező modellek esetében a modellek korrigált determinációs együtthatóval történő összehasonlítása egyenértékű a modell maradék varianciájával vagy standard hibájával történő összehasonlítással . Az egyetlen különbség az, hogy minél alacsonyabb az utolsó kritérium, annál jobb.

Információs kritériumok

Az AIC  - Akaike információs kritérium  - kizárólag modellek összehasonlítására szolgál. Minél alacsonyabb az érték, annál jobb. Gyakran használják különböző késleltetésű idősor -modellek összehasonlítására . , ahol k a modellparaméterek száma. A BIC vagy SC  – Bayes-féle Schwartz Information Criteria – az AIC-hez hasonlóan használatos és értelmezhető. . Nagyobb büntetést ad, ha extra késéseket tartalmaz a modellben, mint az AIC.


R 2 -általánosított (bővített)

Ha a lineáris többszörös LSM regresszióban nincs konstans, akkor a determinációs együttható tulajdonságai sérülhetnek egy adott megvalósításnál . Ezért a regressziós modellek szabad taggal és anélkül nem hasonlíthatók össze a kritériummal . Ezt a problémát úgy oldjuk meg, hogy létrehozunk egy általánosított determinációs együtthatót , amely megegyezik a kezdeti értékkel az LSM regresszió esetén, és amelyre a fent felsorolt ​​négy tulajdonság teljesül. Ennek a módszernek az a lényege, hogy egy egységvektornak a magyarázó változók síkjára vetítését vesszük figyelembe.

Szabad tag nélküli regresszió esetén: , ahol X nxk faktorértékek mátrixa,  egy X síkra vetített vetület , ahol  egy nx1 egységvektor.

enyhe módosítás feltételével alkalmas az LSM, általánosított legkisebb négyzetek (GMLS), feltételes legkisebb négyzetek (GMLS), általánosított feltételes legkisebb négyzetek (GMLS) felhasználásával épített regressziók összehasonlítására is.

Történelem

A determinációs együttható alapja a regresszióanalízis és a korrelációs együttható . Sir Francis Galton (1822–1911) brit természettudós alapította a regressziós elemzést az 1870-es években. Ő, akárcsak unokatestvére , Charles Darwin , Erasmus Darwin unokája volt . Galton arról volt ismert, hogy szenvedélyesen gyűjtött mindenféle adatot. Például adatokat gyűjtött a borsómagról . A vetőmagátmérők összehasonlításával összeállította a ma közismerten korrelációs diagramot. Az ebben a tevékenységben felfedezett összefüggést először „visszafordításnak” (visszafordításnak) nevezte el; később azonban a „regresszió” nevet választotta. A magvakat elemezve felfedezte a centrum felé való regresszió jelenségét, mely szerint - egy igen szerencsétlen változás után a későbbi változás ismét megközelíti az átlagot: a nagyobb magvak utódainak átlagos átmérője kisebb volt, mint a szülők átlagos átmérője. magvak (a változások kibontakoznak). Korrelációs diagramjaiban trendvonalat húzott, amelyhez a korrelációs együtthatót használta meredekségként. [egy]

A " diszperzió " kifejezést Ronald Fisher (1890-1962) statisztikus alkotta meg 1918-as, " The Correlation between Relatives on the Suppposition of Mendelian Heritance " [2] című tanulmányában . Fisher a 20. század egyik legjelentősebb statisztikusa volt, és az evolúcióelmélethez való hozzájárulásáról ismert. A determinációs együtthatóhoz szorosan kapcsolódó F-próba is az ő nevéhez fűződik. Karl Pearson (1857-1936), a biometria megalapítója formális matematikai indoklást adott a korrelációs együtthatóhoz, amelynek négyzete a determinációs együttható. [3]

A determinációs együtthatót a következő években élesen bírálták. Ez azért történt, mert az a tulajdonsága, hogy minél nagyobb a független változók száma , annál nagyobb lesz. És ez független attól, hogy a további "magyarázó változók" hozzájárulnak-e a "magyarázó erőhöz". Ennek figyelembevételére Henri Theil (1924–2000) ökonometrikus 1961-ben egy Adjusted coefficient of  determination [4] -et javasolt , amely figyelembe veszi a magyarázó változók számának növekedésével járó szabadságfokok elvesztését. A korrigált determinációs együttható a változók számának növekedésével a modellre kiszabott büntetés miatt változik. Horst Rinne német tudós azonban bírálta ezt a megközelítést [5] amiatt , hogy a magyarázó változók számának növekedésével nem bünteti eléggé a szabadságfok elvesztését.

Megjegyzés

A determinációs együttható magas értékei általában nem jelzik a változók közötti ok-okozati összefüggés jelenlétét (valamint a szokásos korrelációs együttható esetében). Például, ha a magyarázott változó és azok a tényezők, amelyek valójában nem kapcsolódnak a magyarázott változóhoz, növekvő dinamikával rendelkeznek, akkor a determinációs együttható meglehetősen magas lesz. Ezért a modell logikai és szemantikai megfelelősége kiemelten fontos. Ezenkívül kritériumokat kell alkalmazni a modell minőségének átfogó elemzéséhez.

Lásd még

Jegyzetek

  1. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6 , S. 116.  (német)
  2. Ronald Aylmer Fisher: A rokonok közötti összefüggés a mendeli öröklődés feltételezésével. In: Transz. Roy. szoc. Edinb. 52, 1918, S. 399-433. (Angol)
  3. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6 , S. 117.  (német)
  4. Henri Theil: Gazdasági előrejelzések és politika. Amsterdam 1961, S. 213  .
  5. Horst Rinne: Ökonometrie: Grundlagen der Makroökonometrie. Vahlen, 2004.  (német)

Irodalom

Linkek