Benford törvénye

A Benford-törvény vagy az első számjegy törvénye egy olyan törvény, amely leírja annak valószínűségét, hogy egy bizonyos első jelentős számjegy megjelenik a valós életből vett mennyiségek eloszlásában.

A törvény sok ilyen elosztásra igaz, de nem mindenre. Ezenkívül számos előrejelzést ad a második és harmadik számjegy előfordulási gyakoriságáról.

A Frank Benford által felfedezett törvény így néz ki: ha van egy b ( b > 2) számalapunk, akkor egy d számjegyre ( d ∈ {1, ..., b − 1}) annak a valószínűsége, hogy ez az első szignifikáns számjegy az

Pontosan ez a távolság d és d+1 között egy b bázisú log skálán .

Az egyenletes eloszlás érdekében, ha vannak számok 1, 2, 3, 4,5,6,7, 8, 9, 0 (=10), akkor 10 szegmensed van (0-tól 1-ig, ..., 8-tól 9, 9-től 10-ig). Vegye figyelembe, hogy minden szegmens a [0, 10] tartományba esik. A [d, d+1] szakasznál az egyenletes eloszlásnak arányosnak kell lennie a hosszával, azaz a szakasz hosszával [d, d+1], azaz (d+1)-d osztva a szakasz hosszával. a [0, 10] szegmens, amely 10.

.

Ha a logaritmusok folytonos eloszlásúak, akkor a szegmensek figyelembe vétele előtt meg kell venni a szám logaritmusát. A logaritmusoknál az 1-től 10-ig terjedő szegmenseket vesszük figyelembe (mivel a log 10 0-nak nincs értelme). Ebben az esetben a log 10 1-től log 10 2-ig,…, log 10 8-tól log 10 9-ig, log 10 9-től log 10 10-ig terjedő intervallumok lesznek. Minden szegmens a [log 10 1, log 10 intervallumban található. 10] =[0, 1]. Ez utóbbi hossza 1. Tehát a [d, d + 1] szakaszt a szokásos skálán tekintjük, a logaritmikus skálán az egyenletes eloszlás arányos lesz a hosszával, azaz:

.

Az alábbi táblázat a Benford által a decimális számrendszer első számjegyére talált valószínűségeket mutatja be.

d egy 2 3 négy 5 6 7 nyolc 9
p 30,1% 17,6% 12,5% 9,7% 7,9% 6,7% 5,8% 5,1% 4,6%

Ebben az esetben az eloszlás csak a számrendszertől függ, a mértékegységtől nem. Más szóval, ha a tonnákat fontra , a négyzetkilométereket pedig hektárokra számítjuk át , az eloszlás nem változik.

Történelem

Ennek a törvénynek a megnyilvánulását először Simon Newcome amerikai csillagász vette észre 1881-ben. Megállapította, hogy a logaritmikus táblázatokat tartalmazó könyvek elkoptak ott, ahol az eggyel kezdődő számok logaritmusai szerepeltek, és sértetlenek a 9-cel kezdődő számok esetében.

Ezt a jelenséget Frank Benford fizikus fedezte fel újra 1938-ban. Benford mintegy 20 táblázatot elemzett, köztük 335 folyó medencéjének területére vonatkozó adatokat, több ezer kémiai vegyület fajhőjét és molekulatömegét, beleértve a névjegyzékben szereplő első 342 utca házszámát is. A számok elemzése azt mutatta, hogy az egység az első jelentős számjegy, amelynek valószínűsége nem 1/9, ahogyan azt várnánk, hanem körülbelül 1/3.

Ezt követően a Benford-törvény megkapta a magyarázatát - olyan számhalmazokra alkalmazható, amelyek exponenciálisan növekedhetnek (más szóval, egy érték növekedési üteme arányos az aktuális értékével, ). Ide tartoznak például a villanyszámlák, a készletek egyenlege, a részvényárak, a népesség, a halálozások, a folyók hossza, az ország területei, a világ legmagasabb épületeinek magassága.

Korlátozások

A törvény általában nem vonatkozik a meghatározott minimális vagy maximális értékű disztribúciókra (az 50 000 és 100 000 dollár közötti bevétellel rendelkező cégek listája). A csak egy vagy két nagyságrendet ( felnőtt IQ -t) lefedő eloszlások szintén nem megfelelőek . A Benford-törvény nem sok betűre vonatkozik (ábra). Az adatmennyiségnek elegendőnek kell lennie a statisztikai módszerek alkalmazásához.

Magyarázatok

A Benford-törvény sokféleképpen magyarázható.

Egy exponenciális növekedésű folyamat eredménye

A Benford-törvény pontos formája azzal magyarázható, hogy feltételezzük, hogy a számok logaritmusa egyenletes eloszlású; például egy 100 és 1000 közötti szám (logaritmus 2 és 3 között) megtalálásának valószínűsége ugyanaz, mint 10 000 és 100 000 között (logaritmus 4 és 5 között). Számos számkészlet esetében, különösen az exponenciális növekedésűeknél , mint például a bevételek vagy a részvényárak, ez ésszerű feltételezés.

Például, ha a mennyiség folyamatosan növekszik és minden évben megduplázódik, akkor egy év elteltével a kezdeti érték kétszerese, két év után négyszerese, három év után a kezdeti érték nyolcszorosa, stb. Amikor ez a szám eléri a értéke 100, akkor egész évben jelentős, 1-es szám lesz, és az első év végén eléri a 200-at. A következő év során az érték 200-ról 400-ra nő; a szignifikáns szám 2 lesz (az érték 200 és 300 között lesz) valamivel több mint hét hónapig (ne feledjük, exponenciális növekedésről van szó, vagyis 200-ról 300-ra a függvény „lassabb”, mint 300-ról 400-ra ) és 3 a fennmaradó öt hónapra. A harmadik évben a jelentős számjegy átmegy a 4-es, 5-ös, 6-os és 7-es számjegyen, így egyre kevesebb időbe telik a következő számjegy eléréséhez, és az év végére eléri a 800-at. A negyedik év elején a jelentõs számjegy 8-ról 9-re változik. A jelentõs számjegy ismét 1 lesz, amikor az érték eléri az 1000-et és elölrõl kezdõdik, egy évbe telik, amíg az érték megduplázódik 1000-rõl 2000-re. példa azt mutatja, hogy az exponenciálisan növekvő értékeket tartalmazó dimenziókat tartalmazó adattáblázatok összhangban lesznek a Benford törvényével. Ez a törvény azonban sok olyan esetre is érvényes, amikor az exponenciális növekedés nem nyilvánvaló.

Skálainvariancia

Ez a törvény alternatív módon magyarázható azzal a ténnyel, hogy ha valóban igaz, hogy az első számjegynek speciális eloszlása ​​van , akkor annak függetlennek kell lennie attól a mennyiségtől, amelyben mérik. Ez azt jelenti, hogy például a lábak yardokká konvertálásakor ( konstans szorzása esetén) az eloszlásnak változatlannak kell maradnia - ez a skálainvariancia , és az egyetlen folyamatos eloszlás, amely megfelel ennek a követelménynek, az, amelyben a logaritmus egyenletes eloszlású.

Például egy objektum hosszának vagy távolságának első (nullától eltérő) számjegyének azonos eloszlásúnak kell lennie, függetlenül attól, hogy a mérés lábban, yardban vagy valami másban történik. De egy yardban három láb van, ezért annak a valószínűségnek, hogy a hossz első számjegye yardban 1, meg kell egyeznie annak a valószínűségével, hogy a lábban mért hosszúság első számjegye 3, 4 vagy 5. Ezt alkalmazva minden lehetséges mérési skála logaritmikus eloszlást ad, és mivel log 10 (1) = 0 és log 10 (10) = 1, a Benford-törvényt adja. Ez azt jelenti, hogy ha az első számjegynek van egységfüggetlen eloszlása, akkor az első számjegy egyetlen olyan eloszlása ​​lehet, amely megfelel Benford törvényének.

Több valószínűségi eloszlás

Egy bizonyos eloszlásból húzott számokra, például IQ-értékekre, emberek magasságára vagy más, normál eloszlást követő változókra a törvény nem érvényes. Ha azonban sok hasonló terjesztésből "kevered" a számokat, például úgy, hogy újságcikkekből vesz számokat, ismét megjelenik a Benford-törvény. Ez matematikailag is igazolható: ha ismételten "véletlenszerűen" választasz egy valószínűségi eloszlást , majd véletlenszerűen választasz ki egy számot ennek az eloszlásnak megfelelően, akkor a kapott lista engedelmeskedik Benford törvényének [1] [2] [3] .

Példák

A világ 58 legmagasabb épületét tartalmazó listán a kategóriájukban (2010 szeptemberétől) az „1” szám sokkal gyakrabban áll az első helyen, mint a „9” szám, mértékegységtől függetlenül:

Első számjegy méter lábát
Mennyiség % Mennyiség %
egy 27 47,4% 13 22,8%
2 nyolc 14,0% nyolc 14,0%
3 7 12,3% nyolc 14,0%
négy 5 8,8% 3 5,3%
5 2 3,5% tizennégy 24,6%
6 3 5,3% 5 8,8%
7 2 3,5% 3 5,3%
nyolc 3 5,3% egy 1,8%
9 0 0,0% 2 3,5%


Alkalmazás

A Benford disztribúciós teszt az adatok rosszindulatú manipulációjának kimutatására szolgál, beleértve:

Jegyzetek

  1. Theodore P. Hill. Az első digitális jelenség. A tőzsdére, a népszámlálási statisztikákra és a számviteli adatokra vonatkozik egy évszázados megfigyelés, amely sok numerikus táblázatban egy váratlan mintára vonatkozik.  (angol)  (elérhetetlen link) 358-363. American Scientist 86.4 (1998). Letöltve: 2016. szeptember 24. Az eredetiből archiválva : 2016. szeptember 24..
  2. Theodore P. Hill. The Significant-Digit Phenomenon  (angol) 322-327. The American Mathematical Monthly 102.4 (1995): 322-327. (1995. április). Letöltve: 2016. szeptember 24. Az eredetiből archiválva : 2016. szeptember 24..
  3. Theodore P. Hill. A szignifikáns számjegyek törvényének statisztikai levezetése  . Statisztikai tudomány, 1995, 10. évf., No. 4, 354-363 (1995). Letöltve: 2016. szeptember 24. Az eredetiből archiválva : 2016. március 14.
  4. Megvan a számod. Hogyan segíthet egy matematikai jelenség a CPA-knak a csalások és más szabálytalanságok feltárásában.  (angol) . Journal of Accountancy (1999). - példák a Benford-törvény alkalmazására. Az eredetiből archiválva : 2012. július 1.
  5. Választási csalás. Hogyan lopjunk el egy választást" Archiválva : 2012. május 14., a Wayback Machine / The Economist , 2012. március 3.  

Linkek