Bootstrap (statisztika)

A Bootstrap [1] ( angolul  bootstrap ) a statisztikában  egy gyakorlati számítógépes módszer a valószínűségi eloszlások statisztikáinak eloszlásának tanulmányozására , amely több mintageneráláson alapul a Monte Carlo módszerrel a meglévő minta alapján [2] . Lehetővé teszi, hogy könnyen és gyorsan kiértékelje a statisztikák széles skáláját ( konfidenciaintervallumok , variancia , korreláció stb.) összetett modellekhez.

A koncepciót 1977 -ben vezette be Bradley Efron (az első publikáció 1979 -ből származik [3] ). A módszer lényege egy empirikus eloszlás felépítése a meglévő minta alapján . Ezt az eloszlást elméleti valószínűségi eloszlásként használva szinte korlátlan számú, tetszőleges méretű, például az eredetivel megegyező pszeudominta generálható egy pszeudo-véletlenszám-generátor segítségével. Az álminták halmazán nemcsak az elemzett statisztikai jellemzőket értékelhetjük ki, hanem azok valószínűségi eloszlását is. Így például meg lehet becsülni bármely statisztika varianciáját vagy kvantiliseit , függetlenül annak összetettségétől. Ez a módszer a nem paraméteres statisztika módszere .

A "jackknife" módszerekkel együtt a kereszt-validáció és a permutáció tesztelése ( angol.  egzakt teszt ) az újramintavételezési generálási módszerek egy osztályát alkotja ( eng.  resampling ).

Etimológia

A szó a következő kifejezésből származik: "Csizmán fogva áthúzni magát a kerítésen." (szó szerint - „a csizmán lévő pántok meghúzásával átjutni a kerítésen” (lásd a jobb oldali képet). Az oroszul beszélők számára Münchausen báró története lesz közelebb , aki a haját húzva meghúzta magát és a lovát a mocsárból.

Magát a bootstrap anglicizmust a tudás számos területén használják, ahol azt kell érzékeltetni, hogy „ingyen” kapunk valamit, vagy varázslatosan kapunk valami értékeset a semmiből. A statisztika területén a kifejezés legközelebbi analógja az etimológia szempontjából az „önhúzó”.

Bevezető példa

Legyen két észrevétel:

Tegyük fel, hogy meg kell becsülnünk egy paramétert y regressziójában x -en :

A legkisebb négyzetek módszerével kapott paraméterbecslés egyenlő lesz

Az empirikus eloszlásfüggvény ebben az esetben egyenlő

Ebben az esetben az empirikus eloszlásra vonatkozó két megfigyelés adatai a következőképpen oszlanak meg:

Ez a bootstrap disztribúció. Ezután megtaláljuk az OLS becslés eloszlását:

Alkalmazás

A bootstrap torzítás korrigálására, hipotézisek tesztelésére és konfidenciaintervallumok felépítésére szolgál.

Bootstrap Confidence Interval: An Algorithm

Legyen egy minta az általános sokaságból , és szükséges a paraméter becslése . Ki kell választani, hogy az eredeti minta elemeiből hány pszeudo-minta kerüljön kialakításra visszatéréssel. Minden pszeudo -mintához egy pszeudo-statisztika kerül kiszámításra .

Az álstatisztikák a legkisebbtől a legnagyobbig vannak rendezve. A kvantilisek értékeket vesznek fel . Konfidenciaintervallum felépítésére szolgálnak.

Jegyzetek

  1. Bootstrap , bootstrap , bootstrapping , bootstrapping is .
  2. アーカイブされたコピー. Letöltve: 2007. március 23. Az eredetiből archiválva : 2012. július 12.
  3. Efron, 1979 .

Irodalom

Linkek