Statisztikai modell kiválasztása
A modellválasztás az a feladat, hogy a rendelkezésre álló adatok alapján statisztikai modellt válasszunk ki a jelölt modellek halmazából. A legegyszerűbb esetben egy meglévő adathalmazt veszünk figyelembe. A feladat azonban tartalmazhat kísérletek tervezését , így az adatgyűjtés a modellválasztás feladatához kapcsolódik. Ha a modelljelöltek azonos prediktív vagy magyarázó erővel rendelkeznek, valószínűleg a legegyszerűbb modell lesz a legjobb választás ( Occam borotva ).
Konishi és Kitagawa [1] kijelenti: "A statisztikai következtetések legtöbb problémája a statisztikai modellezéssel kapcsolatos problémának tekinthető." Ugyanakkor Cox [2] azt mondta: "Az elemzés legkritikusabb része, hogy a tárgyproblémáról a statisztikai modellre hogyan történik a fordítás."
A modellválasztás utalhat arra a feladatra is, hogy a számítási modellek nagy halmazából több reprezentatív modellt válasszunk ki döntéshozatal vagy bizonytalanság melletti optimalizálás céljából.
Bevezetés
A modellválasztás a legegyszerűbb formájában a tudományos kutatás egyik alapvető feladata . A megfigyelések halmazát magyarázó elv meghatározása gyakran közvetlenül kapcsolódik egy matematikai modellhez, amely a megfigyelések előrejelzését szolgálja. Például amikor Galilei kísérleteit ferde síkkal végezte, bemutatta, hogy a labda mozgása követi a modelljében megjósolt parabolát.
Az adatok által biztosított végtelen számú lehetséges mechanizmus és folyamat mellett hogyan lehet egyáltalán elkezdeni a legjobb modell kiválasztását? A matematikai megközelítés általában a modelljelöltek halmaza között hoz döntést. Ezt a készletet a kutatónak kell kiválasztania. Gyakran használnak egyszerű modelleket, például polinomokat , legalábbis az elején. Burnham és Andersen [3] hangsúlyozzák könyvükben annak fontosságát, hogy tudományos alapokon nyugvó modelleket válasszanak, például a fenomenológiai folyamatok vagy mechanizmusok (pl. kémiai reakciók) megértését az adatokhoz.
Miután kiválasztották a modelljelöltek csoportját, a statisztikai elemzés lehetővé teszi a legjobb modellek kiválasztását. Hogy mit jelent a legjobb szó, az vitatható kérdés. A jó modellválasztási technika egyensúlyt teremt a modell megfelelősége és az egyszerűség között. Az összetettebb modellek jobban illeszkedhetnek az adatokhoz (például egy ötödfokú polinom pontosan hat pontot jelenthet), de az extra paraméterek nem feltétlenül hasznosak (talán a hat pont valójában véletlenszerűen oszlik el egy egyenes mentén). A modell illeszkedését általában a valószínűségi arány segítségével vagy annak közelítésével határozzák meg , ami egy khi-négyzet tesztet eredményez . A komplexitás mérése általában a modellparaméterek számának megszámlálásával történik .
A modellkiválasztási technikák felfoghatók bizonyos fizikai mennyiségek becsléseinek , például annak a valószínűségének, hogy egy modell előállítja a rendelkezésre álló adatokat. A torzítás és a variancia a prediktor minőségének fontos mutatói. Gyakran egy teljesítménymutatót is figyelembe vesznek .
A modellválasztás szabványos példája a görbeillesztés , ahol pontok és egyéb általános információk alapján (például amikor a pontok független valószínűségi változók mintájának eredménye ), ki kell választanunk egy olyan görbét, amely leírja azt a függvényt, pontokat generál.
Módszerek jelöltek kiválasztására egy modellben
Kritériumok
Ha előzetesen csak autoregresszív (AR) modellek figyelembevételére szorítkozunk, azaz feltételezzük, hogy az Xt folyamat az AR(k) modellt követi ismeretlen k sorrendben, akkor sokáig k-t használták k meghatározására. ilyen helyzetek [4]
- Akaike Information Criterion (AIC), egy statisztikai modell megfelelőségének mérőszáma. Ezt követően kiderült, hogy Akaike becslése tarthatatlan, és aszimptotikusan túlbecsüli (túlbecsüli) k0 valós értékét, nem nulla valószínűséggel [4] .
Előnyösebb a jelenleg általánosan használt [4]
Valamivel később javasolták [4]
- Hennan-Quinn információs kritérium , amely gyorsabb konvergenciát mutat k0 valós értékéhez at. Azonban kis T érték esetén ez a kritérium alábecsüli az autoregressziós sorrendet.
Gyakran használt
A következő kritériumok is használatosak
- Cross Validation
- Information Deviation Criteria (DIC), egy másik Bayes-féle modellválasztási kritérium
- Hatékony meghatározási kritérium ( EDC )
- Hamis pozitív arány
- Focused Information Criterion (FIC), a statisztikai modellek kiválasztásának kritériuma egy adott paraméterre adott teljesítményük alapján
- Likelihood ratio teszt, egy statisztikai teszt, amellyel a statisztikai modellek mintaadatokból becsült paramétereire vonatkozó korlátokat tesztelik.
- Mályva C p statisztika . Úgy gondolják, hogy egy jó modellhez ennek a statisztikának a modellparaméterek számához közeli értékeket kell venni (beleértve a metszéspontot is) [5] .
- A minimális leírási hossz elve ( Algorithmic information theory ) az Occam-féle borotva formalizálása, amelyben egy adott adathalmazra az a legjobb hipotézis (modell és paraméterei), amely jobb adattömörítést eredményez.
- Minimális hosszúságú üzenet ( Algoritmikus információelmélet )
- Strukturális kockázat minimalizálása
- Lépésenkénti regresszió . A lépcsőzetes regresszió célja, hogy nagyszámú predikátum közül válasszuk ki a változók egy kis részhalmazát, amely a leginkább hozzájárul a függő változó variációjához.
- Watanabe-Akaike Information Criteria (WAIC), széles körű alkalmazású információs kritérium
Lásd még
Jegyzetek
- ↑ Konishi, Kitagawa, 2008 , p. 75.
- ↑ Cox, 2006 , p. 197.
- ↑ Burnham, Anderson, 2002 .
- ↑ 1 2 3 4 Információs kritériumok . Letöltve: 2018. december 30. Az eredetiből archiválva : 2018. április 14. (határozatlan)
- ↑ Mályva, 1973 , p. 661-675.
Irodalom
- Mályva CL Néhány megjegyzés a CP-ről // Technometrics. - 1973. - T. 15 , sz. 4 . - doi : 10.2307/1267380 .
- Aho K., Derryberry D., Peterson T. Model selection for ecologists: the worldviews of AIC and BIC // Ecology . - 2014. - T. 95 . — S. 631–636 . - doi : 10.1890/13-1452.1 .
- Anderson DR modell alapú következtetés az élettudományokban . — Springer, 2008.
- Ando T. Bayes-féle modellválasztás és statisztikai modellezés. – CRC Press , 2010.
- Leo Breiman . Statisztikai modellezés: a két kultúra // Statisztikai tudomány . - 2001. - T. 16 . – S. 199–231 . - doi : 10.1214/ss/1009213726 .
- Burnham KP, Anderson DR Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach. — 2. - Springer-Verlag, 2002. - ISBN 0-387-95364-7 . [a könyvet több mint 38 000-szer idézték a Google Tudósban ]
- Chamberlin TC A többszörös munkahipotézis módszere // Tudomány . - 1890. - T. 15 . - S. 93 . - doi : 10.1126/science.ns-15.366.92 . — . (Újranyomva 1965, Science 148: 754-759 [1] doi : 10.1126/science.148.3671.754 )
- Gerda Claeskens. Statisztikai modellválasztás // A statisztika és alkalmazásának éves áttekintése . - 2016. - T. 3 . – S. 233–256 . - doi : 10.1146/annurev-statistics-041715-033413 . — Iránykód . (nem elérhető link)
- Claeskens G., Hjort NL Model Selection and Model Averaging. - Cambridge University Press, 2008. - (CAMBRIDGE SOROZAT STATISZTIKAI ÉS VALÓSZÍNŰSÉGI MATEMATIKÁBAN). — ISBN 978-0-521-85225-8 .
- A statisztikai következtetés alapelvei. - Cambridge University Press, 2006. - ISBN 0-511-34858-4 .
- Konishi S., Kitagawa G. Információs kritériumok és statisztikai modellezés . - Springer, 2008. - ISBN 978-0-387-71886-6 .
- Model Selection / Lahiri P.. - Beachwood, Ohio: Institute of Mathematical Statistics , 2001. - Vol. 38. - (ELŐADÁSI JEGYZETEK - MONOGRÁFIA SOROZAT). — ISBN 0-940600-52-8 .
- Leeb H., Pötscher BM Model selection // Handbook of Financial Time Series / Torben G. Andersen, Richard A. Davis, Jens-Peter Kreiß, Thomas Mikosch. - Springer, 2009. - S. 889-925. — ISBN 978-3-540-71296-1 . - doi : 10.1007/978-3-540-71297-8_39 .
- Lukacs PM, Thompson WL, Kendall WL, Gould WR, Doherty PF Jr., Burnham KP, Anderson DR Aggodalmak az információelmélet és a hipotézisek tesztelésének pluralizmusára való felhívással kapcsolatban // Journal of Applied Ecology . - 2007. - T. 44 , sz. 2 . — S. 456–460 . - doi : 10.1111/j.1365-2664.2006.01267.x .
- Allan D.R. McQuarrie, Chih-Ling Tsai. Regresszió és idősoros modell kiválasztása. - Szingapúr: World Scientific, 1998. - ISBN 981-02-3242-X .
- Massart P. Koncentrációs egyenlőtlenségek és modellválasztás / Szerk.: Jean Picard. - Springer, 2007. - T. 1896. - (Matematikai előadásjegyzetek). — ISBN 3-540-48497-3 .
- Massart P. Nem aszimptotikus séta a valószínűségben és a statisztikákban // Past, Present, and Future of Statistical Science. - Chapman & Hall , 2014. - 309-321.
- Paulo Angelo Alves Resende, Chang Chung Yu Dorea. Modell azonosítás az Efficient Determination Criterion használatával // Journal of Multivariate Analysis . - 2016. - T. 150 . – S. 229–244 . - doi : 10.1016/j.jmva.2016.06.002 .
- Shmueli G. Megmagyarázni vagy megjósolni? // Statisztikai tudomány . - 2010. - T. 25 . – S. 289–310 . - doi : 10.1214/10-STS330 . - arXiv : 1101.0891 .
- Wit E., van den Heuvel E., Romeijn J.-W. 'Minden modell rossz...': bevezetés a modell bizonytalanságába // Statistica Neerlandica. - 2012. - T. 66 . – S. 217–236 . - doi : 10.1111/j.1467-9574.2012.00530.x .
- Wit E., McCullagh P. A statisztikai modellek kiterjeszthetősége // Algebrai módszerek a statisztikában és a valószínűségben / MAG Viana, D. St. P. Richards. - 2001. - S. 327-340.
- Anna Wójtowicz, Tomasz Bigaj. Indoklás, megerősítés és az egymást kizáró hipotézisek problémája // Tények és értékek feltárása/ Adrian Kuźniar, Joanna Odrowąż-Sypniewska. - Brill Kiadó , 2016. - S. 122-143. - doi : 10.1163/9789004312654_009 .