A Benford-törvény vagy az első számjegy törvénye egy olyan törvény, amely leírja annak valószínűségét, hogy egy bizonyos első jelentős számjegy megjelenik a valós életből vett mennyiségek eloszlásában.
A törvény sok ilyen elosztásra igaz, de nem mindenre. Ezenkívül számos előrejelzést ad a második és harmadik számjegy előfordulási gyakoriságáról.
A Frank Benford által felfedezett törvény így néz ki: ha van egy b ( b > 2) számalapunk, akkor egy d számjegyre ( d ∈ {1, ..., b − 1}) annak a valószínűsége, hogy ez az első szignifikáns számjegy az
Pontosan ez a távolság d és d+1 között egy b bázisú log skálán .
Az egyenletes eloszlás érdekében, ha vannak számok 1, 2, 3, 4,5,6,7, 8, 9, 0 (=10), akkor 10 szegmensed van (0-tól 1-ig, ..., 8-tól 9, 9-től 10-ig). Vegye figyelembe, hogy minden szegmens a [0, 10] tartományba esik. A [d, d+1] szakasznál az egyenletes eloszlásnak arányosnak kell lennie a hosszával, azaz a szakasz hosszával [d, d+1], azaz (d+1)-d osztva a szakasz hosszával. a [0, 10] szegmens, amely 10.
.Ha a logaritmusok folytonos eloszlásúak, akkor a szegmensek figyelembe vétele előtt meg kell venni a szám logaritmusát. A logaritmusoknál az 1-től 10-ig terjedő szegmenseket vesszük figyelembe (mivel a log 10 0-nak nincs értelme). Ebben az esetben a log 10 1-től log 10 2-ig,…, log 10 8-tól log 10 9-ig, log 10 9-től log 10 10-ig terjedő intervallumok lesznek. Minden szegmens a [log 10 1, log 10 intervallumban található. 10] =[0, 1]. Ez utóbbi hossza 1. Tehát a [d, d + 1] szakaszt a szokásos skálán tekintjük, a logaritmikus skálán az egyenletes eloszlás arányos lesz a hosszával, azaz:
.Az alábbi táblázat a Benford által a decimális számrendszer első számjegyére talált valószínűségeket mutatja be.
d | egy | 2 | 3 | négy | 5 | 6 | 7 | nyolc | 9 |
p | 30,1% | 17,6% | 12,5% | 9,7% | 7,9% | 6,7% | 5,8% | 5,1% | 4,6% |
Ebben az esetben az eloszlás csak a számrendszertől függ, a mértékegységtől nem. Más szóval, ha a tonnákat fontra , a négyzetkilométereket pedig hektárokra számítjuk át , az eloszlás nem változik.
Ennek a törvénynek a megnyilvánulását először Simon Newcome amerikai csillagász vette észre 1881-ben. Megállapította, hogy a logaritmikus táblázatokat tartalmazó könyvek elkoptak ott, ahol az eggyel kezdődő számok logaritmusai szerepeltek, és sértetlenek a 9-cel kezdődő számok esetében.
Ezt a jelenséget Frank Benford fizikus fedezte fel újra 1938-ban. Benford mintegy 20 táblázatot elemzett, köztük 335 folyó medencéjének területére vonatkozó adatokat, több ezer kémiai vegyület fajhőjét és molekulatömegét, beleértve a névjegyzékben szereplő első 342 utca házszámát is. A számok elemzése azt mutatta, hogy az egység az első jelentős számjegy, amelynek valószínűsége nem 1/9, ahogyan azt várnánk, hanem körülbelül 1/3.
Ezt követően a Benford-törvény megkapta a magyarázatát - olyan számhalmazokra alkalmazható, amelyek exponenciálisan növekedhetnek (más szóval, egy érték növekedési üteme arányos az aktuális értékével, ). Ide tartoznak például a villanyszámlák, a készletek egyenlege, a részvényárak, a népesség, a halálozások, a folyók hossza, az ország területei, a világ legmagasabb épületeinek magassága.
A törvény általában nem vonatkozik a meghatározott minimális vagy maximális értékű disztribúciókra (az 50 000 és 100 000 dollár közötti bevétellel rendelkező cégek listája). A csak egy vagy két nagyságrendet ( felnőtt IQ -t) lefedő eloszlások szintén nem megfelelőek . A Benford-törvény nem sok betűre vonatkozik (ábra). Az adatmennyiségnek elegendőnek kell lennie a statisztikai módszerek alkalmazásához.
A Benford-törvény sokféleképpen magyarázható.
A Benford-törvény pontos formája azzal magyarázható, hogy feltételezzük, hogy a számok logaritmusa egyenletes eloszlású; például egy 100 és 1000 közötti szám (logaritmus 2 és 3 között) megtalálásának valószínűsége ugyanaz, mint 10 000 és 100 000 között (logaritmus 4 és 5 között). Számos számkészlet esetében, különösen az exponenciális növekedésűeknél , mint például a bevételek vagy a részvényárak, ez ésszerű feltételezés.
Például, ha a mennyiség folyamatosan növekszik és minden évben megduplázódik, akkor egy év elteltével a kezdeti érték kétszerese, két év után négyszerese, három év után a kezdeti érték nyolcszorosa, stb. Amikor ez a szám eléri a értéke 100, akkor egész évben jelentős, 1-es szám lesz, és az első év végén eléri a 200-at. A következő év során az érték 200-ról 400-ra nő; a szignifikáns szám 2 lesz (az érték 200 és 300 között lesz) valamivel több mint hét hónapig (ne feledjük, exponenciális növekedésről van szó, vagyis 200-ról 300-ra a függvény „lassabb”, mint 300-ról 400-ra ) és 3 a fennmaradó öt hónapra. A harmadik évben a jelentős számjegy átmegy a 4-es, 5-ös, 6-os és 7-es számjegyen, így egyre kevesebb időbe telik a következő számjegy eléréséhez, és az év végére eléri a 800-at. A negyedik év elején a jelentõs számjegy 8-ról 9-re változik. A jelentõs számjegy ismét 1 lesz, amikor az érték eléri az 1000-et és elölrõl kezdõdik, egy évbe telik, amíg az érték megduplázódik 1000-rõl 2000-re. példa azt mutatja, hogy az exponenciálisan növekvő értékeket tartalmazó dimenziókat tartalmazó adattáblázatok összhangban lesznek a Benford törvényével. Ez a törvény azonban sok olyan esetre is érvényes, amikor az exponenciális növekedés nem nyilvánvaló.
Ez a törvény alternatív módon magyarázható azzal a ténnyel, hogy ha valóban igaz, hogy az első számjegynek speciális eloszlása van , akkor annak függetlennek kell lennie attól a mennyiségtől, amelyben mérik. Ez azt jelenti, hogy például a lábak yardokká konvertálásakor ( konstans szorzása esetén) az eloszlásnak változatlannak kell maradnia - ez a skálainvariancia , és az egyetlen folyamatos eloszlás, amely megfelel ennek a követelménynek, az, amelyben a logaritmus egyenletes eloszlású.
Például egy objektum hosszának vagy távolságának első (nullától eltérő) számjegyének azonos eloszlásúnak kell lennie, függetlenül attól, hogy a mérés lábban, yardban vagy valami másban történik. De egy yardban három láb van, ezért annak a valószínűségnek, hogy a hossz első számjegye yardban 1, meg kell egyeznie annak a valószínűségével, hogy a lábban mért hosszúság első számjegye 3, 4 vagy 5. Ezt alkalmazva minden lehetséges mérési skála logaritmikus eloszlást ad, és mivel log 10 (1) = 0 és log 10 (10) = 1, a Benford-törvényt adja. Ez azt jelenti, hogy ha az első számjegynek van egységfüggetlen eloszlása, akkor az első számjegy egyetlen olyan eloszlása lehet, amely megfelel Benford törvényének.
Egy bizonyos eloszlásból húzott számokra, például IQ-értékekre, emberek magasságára vagy más, normál eloszlást követő változókra a törvény nem érvényes. Ha azonban sok hasonló terjesztésből "kevered" a számokat, például úgy, hogy újságcikkekből vesz számokat, ismét megjelenik a Benford-törvény. Ez matematikailag is igazolható: ha ismételten "véletlenszerűen" választasz egy valószínűségi eloszlást , majd véletlenszerűen választasz ki egy számot ennek az eloszlásnak megfelelően, akkor a kapott lista engedelmeskedik Benford törvényének [1] [2] [3] .
A világ 58 legmagasabb épületét tartalmazó listán a kategóriájukban (2010 szeptemberétől) az „1” szám sokkal gyakrabban áll az első helyen, mint a „9” szám, mértékegységtől függetlenül:
Első számjegy | méter | lábát | ||
---|---|---|---|---|
Mennyiség | % | Mennyiség | % | |
egy | 27 | 47,4% | 13 | 22,8% |
2 | nyolc | 14,0% | nyolc | 14,0% |
3 | 7 | 12,3% | nyolc | 14,0% |
négy | 5 | 8,8% | 3 | 5,3% |
5 | 2 | 3,5% | tizennégy | 24,6% |
6 | 3 | 5,3% | 5 | 8,8% |
7 | 2 | 3,5% | 3 | 5,3% |
nyolc | 3 | 5,3% | egy | 1,8% |
9 | 0 | 0,0% | 2 | 3,5% |
A Benford disztribúciós teszt az adatok rosszindulatú manipulációjának kimutatására szolgál, beleértve: