Szórás

A valószínűségszámításban és a statisztikában a négyzetgyök (négyzetgyök) eltérés  a leggyakoribb mutatója egy valószínűségi változó értékeinek szórásának a matematikai elvárásaihoz képest ( a számtani átlag analógja végtelen számú változóval). eredmények). Általában egy valószínűségi változó varianciájának négyzetgyökét jelenti , de néha jelentheti ennek az értéknek a becslésének egyik vagy másik változatát.

A szakirodalomban általában görög betűvel (szigma) jelölik. A statisztikában két megnevezést fogadnak el:  - az általános sokaságra és az sd (az angol standard deviation  - standard deviation szóból ) - a mintára .  

A kifejezés

Vannak szinonimái is a standard deviation kifejezésnek :

Önmagában az átlagos négyzet kifejezés a 2. hatvány átlagát jelenti (lásd alább ).

Alapvető információk

A szórást egy valószínűségi változó varianciájának négyzetgyökeként határozzuk meg : .

A szórást magának a valószínűségi változónak egységeiben mérik, és a számtani átlag standard hibájának kiszámításakor, konfidenciaintervallumok felépítésénél , hipotézisek statisztikai tesztelésekor, valószínűségi változók közötti lineáris kapcsolat mérésénél használják.

A gyakorlatban, amikor egy valószínűségi változó pontos eloszlása ​​helyett csak minta áll rendelkezésre, a szórást, valamint a matematikai elvárást becsülik ( mintavarianciát ), és ezt többféleképpen megteheti. A "szórás" és a "szórás" kifejezéseket általában egy valószínűségi változó szórásának négyzetgyökére alkalmazzák (amelyet annak valódi eloszlása ​​alapján határoznak meg), de néha ennek a mennyiségnek a minta alapján történő különféle becsléseire.

Különösen, ha  a minta i - edik eleme,  a minta mérete, a minta  számtani átlaga (a minta átlaga  egy érték matematikai elvárásának becslése):

akkor a szórás becslésének két fő módját a következőképpen írjuk fel.

A szórás becslése a variancia torzított becslésén alapul (néha egyszerűen mintavarianciának nevezik [1] ):

Ez szó szerint a mért értékek és az átlag közötti különbség négyzetes középértéke.

A szórás becslése a variancia elfogulatlan becslésén (korrigált minta szórása [1] , a GOST R 8.736-2011 - "szórás"):

Önmagában azonban nem torzítatlan becslése a variancia négyzetgyökének, azaz a négyzetgyök vétele "elrontja" az elfogulatlanságot.

Mindkét becslés konzisztens [1] .

Ezenkívül a szórás egy valószínűségi változó valódi értéke és becslése közötti különbség négyzetének matematikai elvárása valamely becslési módszer esetében [2] . Ha a becslés torzítatlan (a minta átlaga csak egy valószínűségi változó torzítatlan becslése), akkor ez az érték egyenlő ennek a becslésnek a szórásával.

Az átlag szórása

A minta átlaga is egy valószínűségi változó, becsült szórással [2]

Három szigma szabály

A három szigma ( ) szabálya kimondja: annak a valószínűsége, hogy bármely valószínűségi változó kisebb mértékben tér el az átlagos értékétől, mint , - .

Egy normális eloszlású valószínűségi változó szinte minden értéke az intervallumban található , ahol  a valószínűségi változó matematikai elvárása. Pontosabban, megközelítőleg 0,9973 valószínűséggel egy normális eloszlású valószínűségi változó értéke a megadott intervallumban található.

A szórás értékének értelmezése

A szórás nagyobb értéke a bemutatott halmazban az értékek nagyobb eloszlását jelzi a halmaz átlagával; egy kisebb érték azt jelzi, hogy a készletben lévő értékek az átlagérték köré csoportosulnak.

Például három számkészletünk van: {0, 0, 14, 14}, {0, 6, 8, 14} és {6, 6, 8, 8}. Mindhárom halmaz átlagértéke 7, szórása 7, 5 és 1. Az utolsó halmaznak kicsi a szórása, mert a halmazban lévő értékek az átlag körül csoportosulnak; az első készlet rendelkezik a legnagyobb szórással - a halmazon belüli értékek erősen eltérnek az átlagos értéktől.

Általános értelemben a szórást a bizonytalanság mértékének tekinthetjük. Például a fizikában a szórással határozzák meg valamilyen mennyiség egymást követő méréseinek sorozatának hibáját . Ez az érték nagyon fontos a vizsgált jelenség valószínûségének meghatározásához az elmélet által megjósolt értékhez képest: ha a mérések átlagértéke nagyon eltér az elmélet által megjósolt értékektõl (nagy szórás), akkor a kapott értékeket vagy azok megszerzésének módját újra ellenőrizni kell.

Gyakorlati alkalmazás

A gyakorlatban a szórás lehetővé teszi annak becslését, hogy egy halmaz értékei mennyiben térhetnek el az átlagos értéktől.

Közgazdaságtan és pénzügy

A portfólió hozamának szórását a portfólió kockázatával azonosítják .

A technikai elemzésben a szórást a Bollinger sávok felépítésére, a volatilitás kiszámítására használják .

Kockázatértékelés és kritika

A szórást széles körben alkalmazzák a pénzügyi szektorban a befektetési kockázat értékelésének kritériumaként . Nassim Taleb amerikai közgazdász szerint ezt nem szabad megtenni. Az elmélet szerint tehát a változások körülbelül kétharmadának bizonyos határok közé kell illeszkednie (-1 és +1 szórása), és hét szórás feletti ingadozás gyakorlatilag lehetetlen. A való életben azonban Taleb szerint minden más - az egyes mutatók ugrásai meghaladhatják a 10, 20 és néha 30 szórást. Taleb úgy véli, hogy a kockázatmenedzsereknek kerülniük kell a szórási eszközök és módszerek, például a regressziós modellek, a determinációs együttható (R-négyzet) és a béta-tényezők használatát. Ráadásul Taleb szerint a szórás túl bonyolult ahhoz, hogy megértsük a módszert. Úgy véli, hogy aki egyetlen mutató segítségével próbálja felmérni a kockázatot, az kudarcra van ítélve [3] .

Klíma

Tegyük fel, hogy két város azonos átlagos napi maximumhőmérsékletű, de az egyik a tengerparton, a másik a szárazföldön található. Köztudott, hogy a tengerparti városokban a napi maximumhőmérséklet sokkal kisebb, mint a szárazföldi városokban. Ezért a tengerparti városban a maximális napi hőmérsékletek szórása kisebb lesz, mint a második városban, annak ellenére, hogy ennek az értéknek ugyanaz az átlagértéke, ami a gyakorlatban azt jelenti, hogy annak a valószínűsége, hogy a legmagasabb levegőhőmérséklet az év minden egyes napja erősebb lesz, eltér az átlagos értéktől, magasabb a kontinensen belül található városok esetében.

Sport

Tételezzük fel, hogy több olyan futballcsapat is van, amelyeket valamilyen paraméterkészlet szerint rangsorolnak, például a szerzett és kapott gólok száma, a gólhelyzetek stb. több paraméterben. Minél kisebb a csapat szórása az egyes bemutatott paramétereknél, annál kiszámíthatóbb a csapat eredménye, az ilyen csapatok kiegyensúlyozottak. Másrészt egy nagy szórással rendelkező csapat nehezen tudja megjósolni az eredményt, ami viszont egyensúlyhiánnyal magyarázható, például erős védekezés, de gyenge támadás.

A csapat paramétereinek szórásának használata lehetővé teszi, hogy bizonyos mértékig megjósolhassuk két csapat mérkőzésének eredményét, értékelve a csapatok erősségeit és gyengeségeit, így a választott küzdési módokat.

Példa

Tegyük fel, hogy a számunkra érdekes csoport (az általános lakosság ) egy nyolc tanulóból álló osztály, akiket 10 pontos rendszerben osztályoznak. Mivel a teljes csoportot becsüljük, és nem annak egy mintáját, ezért használhatjuk a szórást a variancia torzított becslése alapján. Ehhez vesszük az értékek középértékétől való eltérései négyzeteinek számtani átlagának négyzetgyökét .

Legyen az osztály tanulóinak osztályzata a következő:

Ekkor az átlagpontszám:

Számítsuk ki a tanulók osztályzatainak négyzetes eltéréseit az átlagjegyüktől:

Ezen értékek számtani középértékét variancianak nevezzük :

A szórás egyenlő a variancia négyzetgyökével:

Ez a képlet csak akkor érvényes, ha ez a nyolc érték a sokaság. Ha ezek az adatok egy nagy sokaságból vett véletlenszerű mintát képeznének (például nyolc véletlenszerűen kiválasztott diák osztályzatai egy nagyvárosban), akkor n = 8 helyett a varianciaszámítási képlet nevezőjét n  -re kellene tenni.  − 1 = 7:

és a szórás a következő lenne:

Ezt az eredményt a variancia torzítatlan becslésén alapuló szórásnak nevezzük. Ha n  helyett n − 1-gyel osztjuk, elfogulatlan becslést adunk a szórásra nagy populációk esetén .

Lásd még

Jegyzetek

  1. 1 2 3 Ivchenko G. I., Medvegyev Yu. I. Bevezetés a matematikai statisztikába. - M .  : LKI Kiadó, 2010. - §2.2. Válogatott momentumok: egzakt és aszimptotikus elmélet. - ISBN 978-5-382-01013-7 .
  2. ↑ 1 2 C. Patrignani et al. (Particle Data Group). 39 STATISZTIKA . — In: Review of Particle Physics // Chin. Phys. C. - 2016. - Kt. 40. - P. 100001. - doi : 10.1088/1674-1137/40/10/100001 .
  3. Taleb, Goldstein, Spitsnagel, 2022 , p. 46.

Irodalom

  • Borovikov V. STATISZTIKA. A számítógépes adatelemzés művészete: Szakembereknek / V. Borovikov. - Szentpétervár. : Péter, 2003. - 688 p. - ISBN 5-272-00078-1 . .
  • Nassim Taleb, Daniel Goldstein, Mark Spitznagel. Hat vezérigazgatói hiba a kockázatkezelésben // Kockázatkezelés (Harvard Business Review Series: Top 10 cikk) = On Managing Risk / Team of Authors. - M . : Alpina Kiadó , 2022. - S. 41-50. — 206 p. - ISBN 978-5-9614-8186-0 .