Statisztikai modell kiválasztása

 A modellválasztás az a feladat, hogy a rendelkezésre álló adatok alapján statisztikai modellt válasszunk ki a jelölt modellek halmazából. A legegyszerűbb esetben egy meglévő adathalmazt veszünk figyelembe. A feladat azonban tartalmazhat kísérletek tervezését , így az adatgyűjtés a modellválasztás feladatához kapcsolódik. Ha a modelljelöltek azonos prediktív vagy magyarázó erővel rendelkeznek, valószínűleg a legegyszerűbb modell lesz a legjobb választás ( Occam borotva ).

Konishi és Kitagawa [1] kijelenti: "A statisztikai következtetések legtöbb problémája a statisztikai modellezéssel kapcsolatos problémának tekinthető." Ugyanakkor Cox [2] azt mondta: "Az elemzés legkritikusabb része, hogy a tárgyproblémáról a statisztikai modellre hogyan történik a fordítás."

A modellválasztás utalhat arra a feladatra is, hogy a számítási modellek nagy halmazából több reprezentatív modellt válasszunk ki döntéshozatal vagy bizonytalanság melletti optimalizálás céljából.

Bevezetés

A modellválasztás a legegyszerűbb formájában a tudományos kutatás egyik alapvető feladata . A megfigyelések halmazát magyarázó elv meghatározása gyakran közvetlenül kapcsolódik egy matematikai modellhez, amely a megfigyelések előrejelzését szolgálja. Például amikor Galilei kísérleteit ferde síkkal végezte, bemutatta, hogy a labda mozgása követi a modelljében megjósolt parabolát.

Az adatok által biztosított végtelen számú lehetséges mechanizmus és folyamat mellett hogyan lehet egyáltalán elkezdeni a legjobb modell kiválasztását? A matematikai megközelítés általában a modelljelöltek halmaza között hoz döntést. Ezt a készletet a kutatónak kell kiválasztania. Gyakran használnak egyszerű modelleket, például polinomokat , legalábbis az elején. Burnham és Andersen [3] hangsúlyozzák könyvükben annak fontosságát, hogy tudományos alapokon nyugvó modelleket válasszanak, például a fenomenológiai folyamatok vagy mechanizmusok (pl. kémiai reakciók) megértését az adatokhoz.

Miután kiválasztották a modelljelöltek csoportját, a statisztikai elemzés lehetővé teszi a legjobb modellek kiválasztását. Hogy mit jelent a legjobb szó, az vitatható kérdés. A jó modellválasztási technika egyensúlyt teremt a modell megfelelősége és az egyszerűség között. Az összetettebb modellek jobban illeszkedhetnek az adatokhoz (például egy ötödfokú polinom pontosan hat pontot jelenthet), de az extra paraméterek nem feltétlenül hasznosak (talán a hat pont valójában véletlenszerűen oszlik el egy egyenes mentén). A modell illeszkedését általában a valószínűségi arány segítségével vagy annak közelítésével határozzák meg , ami egy khi-négyzet tesztet eredményez . A komplexitás mérése általában a modellparaméterek számának megszámlálásával történik .

A modellkiválasztási technikák felfoghatók bizonyos fizikai mennyiségek becsléseinek , például annak a valószínűségének, hogy egy modell előállítja a rendelkezésre álló adatokat. A torzítás és a variancia a prediktor minőségének fontos mutatói. Gyakran egy teljesítménymutatót is figyelembe vesznek .

A modellválasztás szabványos példája a görbeillesztés , ahol pontok és egyéb általános információk alapján (például amikor a pontok független valószínűségi változók mintájának eredménye ), ki kell választanunk egy olyan görbét, amely leírja azt a függvényt, pontokat generál.

Módszerek jelöltek kiválasztására egy modellben

Kritériumok

Ha előzetesen csak autoregresszív (AR) modellek figyelembevételére szorítkozunk, azaz feltételezzük, hogy az Xt folyamat az AR(k) modellt követi ismeretlen k sorrendben, akkor sokáig k-t használták k meghatározására. ilyen helyzetek [4]

Előnyösebb a jelenleg általánosan használt [4]

Valamivel később javasolták [4]

Gyakran használt

A következő kritériumok is használatosak

Lásd még

Jegyzetek

  1. Konishi, Kitagawa, 2008 , p. 75.
  2. Cox, 2006 , p. 197.
  3. Burnham, Anderson, 2002 .
  4. 1 2 3 4 Információs kritériumok . Letöltve: 2018. december 30. Az eredetiből archiválva : 2018. április 14.
  5. Mályva, 1973 , p. 661-675.

Irodalom