A determinációs együttható ( -R - négyzet ) a függő változó szórásának azon hányada , amelyet a kérdéses függőségi modell , azaz a magyarázó változók magyaráznak. Pontosabban: egy mínusz a megmagyarázhatatlan variancia (a modell véletlenszerű hibájának szórása, vagy a függő változó varianciájának tényezőitől függő) aránya a függő változó varianciájában. Egy valószínűségi változó sok mástól való függésének univerzális mérőszámának tekintik. A lineáris kapcsolat speciális esetben a függő változó és a magyarázó változók közötti úgynevezett többszörös korrelációs együttható négyzete. Egy páros lineáris regressziós modell esetében a determinációs együttható egyenlő az y és x közötti szokásos korrelációs együttható négyzetével .
Az y valószínűségi változó x tényezőktől való függésének modelljének valódi meghatározási együtthatóját a következőképpen határozzuk meg:
ahol az y valószínűségi változó varianciája , és a függő változó feltételes ( x faktorokkal ) szórása (a modellhiba varianciája).
Ez a meghatározás valódi paramétereket használ, amelyek a valószínűségi változók eloszlását jellemzik . Ha a megfelelő varianciák értékeinek mintabecslését használjuk , akkor megkapjuk a minta determinációs együtthatójának képletét (amelyet általában a determinációs együttható alatt értünk):
ahol a regressziós maradékok négyzeteinek összege, a magyarázott változó tényleges és számított értéke.
a négyzetek teljes összege.
Állandósságú lineáris regresszió esetén hol van a magyarázott négyzetösszeg, így ebben az esetben egyszerűbb definíciót kapunk - a determinációs együttható a magyarázott négyzetösszeg hányada a teljes összegben :
Hangsúlyozni kell, hogy ez a képlet csak konstans modellre érvényes, általános esetben az előző képletet kell használni .
A (szelektív) alkalmazással az a fő probléma, hogy értéke nő ( nem csökken) attól, hogy új változókat adunk a modellhez, még akkor is, ha ezeknek a változóknak semmi közük a magyarázott változóhoz! Ezért a determinációs együtthatót használó, különböző számú faktorral rendelkező modellek összehasonlítása általában véve helytelen. Erre a célra alternatív mutatók használhatók.
Annak érdekében, hogy a különböző faktorszámú modelleket össze lehessen hasonlítani úgy, hogy a regresszorok (tényezők) száma ne befolyásolja a statisztikát , általában korrigált determinációs együtthatót használnak , amely torzítatlan varianciabecsléseket használ:
ami büntetést ad a kiegészítő tényezőkre, ahol n a megfigyelések száma és k a paraméterek száma.
Ez a mutató mindig kisebb egynél, de elméletileg kisebb is lehet nullánál (csak a szokásos determinációs együttható nagyon kis értékével és sok tényezővel). Ezért a mutató „részvényként” való értelmezése elvész. Mindazonáltal a mutató használata az összehasonlításban meglehetősen indokolt.
Az azonos függő változókkal és azonos mintamérettel rendelkező modellek esetében a modellek korrigált determinációs együtthatóval történő összehasonlítása egyenértékű a modell maradék varianciájával vagy standard hibájával történő összehasonlítással . Az egyetlen különbség az, hogy minél alacsonyabb az utolsó kritérium, annál jobb.
Az AIC - Akaike információs kritérium - kizárólag modellek összehasonlítására szolgál. Minél alacsonyabb az érték, annál jobb. Gyakran használják különböző késleltetésű idősor -modellek összehasonlítására . , ahol k a modellparaméterek száma.
A BIC vagy SC – Bayes-féle Schwartz Information Criteria – az AIC-hez hasonlóan használatos és értelmezhető. . Nagyobb büntetést ad, ha extra késéseket tartalmaz a modellben, mint az AIC.
Ha a lineáris többszörös LSM regresszióban nincs konstans, akkor a determinációs együttható tulajdonságai sérülhetnek egy adott megvalósításnál . Ezért a regressziós modellek szabad taggal és anélkül nem hasonlíthatók össze a kritériummal . Ezt a problémát úgy oldjuk meg, hogy létrehozunk egy általánosított determinációs együtthatót , amely megegyezik a kezdeti értékkel az LSM regresszió esetén, és amelyre a fent felsorolt négy tulajdonság teljesül. Ennek a módszernek az a lényege, hogy egy egységvektornak a magyarázó változók síkjára vetítését vesszük figyelembe.
Szabad tag nélküli regresszió esetén:
,
ahol X nxk faktorértékek mátrixa, egy X síkra vetített vetület , ahol egy nx1 egységvektor.
enyhe módosítás feltételével alkalmas az LSM, általánosított legkisebb négyzetek (GMLS), feltételes legkisebb négyzetek (GMLS), általánosított feltételes legkisebb négyzetek (GMLS) felhasználásával épített regressziók összehasonlítására is.
A determinációs együttható alapja a regresszióanalízis és a korrelációs együttható . Sir Francis Galton (1822–1911) brit természettudós alapította a regressziós elemzést az 1870-es években. Ő, akárcsak unokatestvére , Charles Darwin , Erasmus Darwin unokája volt . Galton arról volt ismert, hogy szenvedélyesen gyűjtött mindenféle adatot. Például adatokat gyűjtött a borsómagról . A vetőmagátmérők összehasonlításával összeállította a ma közismerten korrelációs diagramot. Az ebben a tevékenységben felfedezett összefüggést először „visszafordításnak” (visszafordításnak) nevezte el; később azonban a „regresszió” nevet választotta. A magvakat elemezve felfedezte a centrum felé való regresszió jelenségét, mely szerint - egy igen szerencsétlen változás után a későbbi változás ismét megközelíti az átlagot: a nagyobb magvak utódainak átlagos átmérője kisebb volt, mint a szülők átlagos átmérője. magvak (a változások kibontakoznak). Korrelációs diagramjaiban trendvonalat húzott, amelyhez a korrelációs együtthatót használta meredekségként. [egy]
A " diszperzió " kifejezést Ronald Fisher (1890-1962) statisztikus alkotta meg 1918-as, " The Correlation between Relatives on the Suppposition of Mendelian Heritance " [2] című tanulmányában . Fisher a 20. század egyik legjelentősebb statisztikusa volt, és az evolúcióelmélethez való hozzájárulásáról ismert. A determinációs együtthatóhoz szorosan kapcsolódó F-próba is az ő nevéhez fűződik. Karl Pearson (1857-1936), a biometria megalapítója formális matematikai indoklást adott a korrelációs együtthatóhoz, amelynek négyzete a determinációs együttható. [3]
A determinációs együtthatót a következő években élesen bírálták. Ez azért történt, mert az a tulajdonsága, hogy minél nagyobb a független változók száma , annál nagyobb lesz. És ez független attól, hogy a további "magyarázó változók" hozzájárulnak-e a "magyarázó erőhöz". Ennek figyelembevételére Henri Theil (1924–2000) ökonometrikus 1961-ben egy Adjusted coefficient of determination [4] -et javasolt , amely figyelembe veszi a magyarázó változók számának növekedésével járó szabadságfokok elvesztését. A korrigált determinációs együttható a változók számának növekedésével a modellre kiszabott büntetés miatt változik. Horst Rinne német tudós azonban bírálta ezt a megközelítést [5] amiatt , hogy a magyarázó változók számának növekedésével nem bünteti eléggé a szabadságfok elvesztését.
A determinációs együttható magas értékei általában nem jelzik a változók közötti ok-okozati összefüggés jelenlétét (valamint a szokásos korrelációs együttható esetében). Például, ha a magyarázott változó és azok a tényezők, amelyek valójában nem kapcsolódnak a magyarázott változóhoz, növekvő dinamikával rendelkeznek, akkor a determinációs együttható meglehetősen magas lesz. Ezért a modell logikai és szemantikai megfelelősége kiemelten fontos. Ezenkívül kritériumokat kell alkalmazni a modell minőségének átfogó elemzéséhez.