Theil–Sen becslő függvény

A nem-paraméteres statisztikában van egy módszer egy ponthalmaz robusztus lineáris simítására ( egyszerű lineáris regresszió ), amelyben a síkban mintavételi pontpárokon átmenő összes egyenes meredekségének mediánját választjuk. A módszer neve Theil-Sen estimator , Slope Sen estimator [1] [2] , Slope selection [3] [4] , Single median method [5] , Kendall robusztus egyenes közelítési módszere [6] [7] , ill. robusztus egyenes Kendall-Teyla [8] . A módszer nevét Henri Theilről és Pranab K. Senről kapta, akik 1950-ben, illetve 1968-ban publikáltak a módszerről, valamint Maurice Kendallról .

Ez a becslés hatékonyan kiszámítható, és érzéketlen a kiugró értékekre . Szignifikánsan pontosabb lehet, mint a nem robusztus legkisebb négyzetek a nem szimmetrikus és heteroszkedasztikus adatok esetében, és jól versenyez a nem robusztus legkisebb négyzetekkel, még a normál eloszlású adatok esetében is a statisztikai teljesítmény tekintetében [9] . A módszert "a lineáris trend becslésének legnépszerűbb nem-paraméteres technikájaként" ismerik el [2] .

Definíció

Ahogy Theil [10] meghatározta, a síkban ( x i , y i ) lévő ponthalmaz Theil -Sen becslése az m meredekségi együttható  mediánja ( y jy i )/( x jx i ) minden mintapont páron. Sen [11] kiterjesztette ezt a definíciót arra az esetre, amikor két pontnak ugyanaz az x koordinátája . Sen definíciója szerint a meredekségi együttható mediánját csak olyan pontpárokra vesszük, amelyeknek különböző x koordinátája van .

Az m meredekség kiszámítása után meghatározható az egyenes a mintapontokból, ha kiválasztjuk az y tengely metszéspontjának b pontját, amely megegyezik az y imx i értékek mediánjával [12] . Amint Sen megjegyezte, ez egy olyan becslő, amely az x i és az i- edik megfigyelés többi részével való összehasonlítás Kendall τ-rangú korrelációs együtthatóját megközelítőleg nullával egyenlővé teszi [13] .

A lejtőszög becslésére szolgáló konfidenciaintervallum úgy definiálható, mint a pontpárokon átmenő egyenesek meredekségi együtthatóinak 95%-ának átlagát tartalmazó intervallum [14] , és gyorsan megbecsülhető a párok mintavételével és a 95. a mintavételezett meredekség-együttható %-os intervallumát. Numerikus szimulációk szerint egy körülbelül 600 pontpárból álló minta elegendő a pontos konfidenciaintervallum meghatározásához [9] .

Változatok

Minden mintapontra ( x i , y i ) az ezen a ponton áthaladó egyenesek meredekségi együtthatóinak ( y jy i ) /( x j x i ) medián m i értéke, majd az összköltség függvény ezeknek a mediánoknak a mediánjaként számítják ki.

Egy másik lehetőség a mintapontok párjait az x koordinátáik rangja alapján választja ki (a párban a legkisebb koordinátájú pont, a medián koordináta feletti első pont stb.), majd az ezek által meghatározott egyenesek meredekségi együtthatói. pontpárokat számítanak ki [16] .

A Theil-Sen becslő súlyozott mediánokon alapuló változatait is tanulmányozzák , azon az elven alapulva, hogy azon mintapárok, amelyek x - koordinátái jobban különböznek, nagyobb valószínűséggel rendelkeznek pontosabb meredekséggel, és ezért nagyobb súlyúnak kell lenniük. [17]

Szezonális adatok esetén célszerű lehet az adatok szezonális változóit kisimítani úgy, hogy kiválasztjuk azokat a mintapontpárokat, amelyek ugyanahhoz a hónaphoz vagy évszakhoz tartoznak, majd kiszámítjuk a definiált egyenesek meredekségi együtthatóinak mediánját. ezekkel a korlátozott párokkal [18] .

Statisztikai tulajdonságok

A Theil-Sen becslő a valós meredekség torzítatlan becslése egyszerű lineáris regresszióban [19] [20] . Sok nem véletlenszerű hibaeloszlás esetén ennek a becslőnek magas aszimptotikus hatékonysága a legkisebb négyzetek módszeréhez képest [21] [22] . A gyenge teljesítményű becslések több független megfigyelést igényelnek, hogy ugyanazt a szórást érjék el, mint a hatékony torzítatlan becslések.

A Theil -Sen becslő robusztusabb , mint a legkisebb négyzetek becslése, mert lényegesen robusztusabb a kiugró értékekre . Küszöbértéke van , ami azt jelenti, hogy a bemeneti adatok akár 29,3%-át is elviseli a pontosság csökkenése nélkül [12] . A módszer többdimenziós általánosításainál azonban a küszöb csökken [23] . Egy másik robusztus lineáris becsléshez, a Siegel-féle ismételt medián becsléshez magasabb, 50%-os küszöb áll rendelkezésre [12] .

A Theil-Sen pontozási függvény ekvivariáns a válaszváltozóinak bármely lineáris transzformációjára , ami azt jelenti, hogy az adattranszformáció, amelyet egy pontozási vonal követ, és egy egyenes, amelyet adattranszformáció követ, ugyanazokhoz az eredményekhez vezet [24] . A becslő azonban nem ekvivariáns mind a prediktor, mind a válaszváltozók egyidejű affin transzformációja esetén [23] .

Algoritmusok

Egy n mintapontból álló halmaz meredekségének mediánja pontosan kiszámítható úgy, hogy kiszámolja az összes O ( n 2 ) egyenest a pontpárokon keresztül, és lineáris idő algoritmust alkalmaz a medián kiválasztásához . Alternatív megoldásként az érték megbecsülhető pontpárok mintavételével. A probléma a projektív dualitás szerint egyenértékű azzal a problémával, hogy megtaláljuk egy olyan egyenes konfiguráció metszéspontját, amely tartalmazza az összes ilyen metszéspont közötti koordináták x mediánját . [25]

A meredekségi tényező pontos, de a nyers másodfokú felsorolásnál hatékonyabb kiválasztásának problémáját a számítási geometriában alaposan tanulmányozták . Néhány más módszer is ismert a Theil-Sen becslő O ( n log n ) időben történő pontos kiszámítására , akár determinisztikusan [3] , akár valószínűségi algoritmusok használatával [4] . Az ismételt medián Siegel-becslés is hatékonyan megszerkeszthető ugyanabban az időben [26] . Azokban a számítási modellekben, amelyekben a bemeneti koordináták egész számok, és az egész számokon végzett bitműveletek állandó időt vesznek igénybe, a probléma még gyorsabban megoldható, a számítási idő elvárása mellett [27] .

A Theil-Sen becslővel megegyező küszöbű közelítő medián rangú meredekségi együttható becslőt kaphatunk streaming adatmodellben (amelyben a mintapontokat egyenként dolgozza fel az algoritmus, és az algoritmusnak nincs elég memória az összes adathalmaz tartós tárolására) ε-hálózatokon alapuló algoritmus segítségével [28] .

Alkalmazások

A Theil-Sen becslőt a csillagászatban használták, mert képes cenzúrázott regressziós modellekkel dolgozni [29] . Fernandez és Leblanc javasolta a használatát a távérzékelés biofizikájában [30] , például a levélfelület becslését reflexiós méréssel, „a számítás egyszerűsége, az analitikus konfidenciaintervallum becslése, a kiugró értékekhez való robusztusság, a hibára vonatkozó ellenőrizhető feltételezések és… korlátozott a priori információ a hibamérésekre vonatkozóan". A szezonális környezeti adatok, például a vízminőség mérésére a Theil-Sen szezonális becslőt javasolták jobbnak a legkisebb négyzetek módszerénél, mert jobb pontosságot ad ferde adatok esetén [18] . A számítástechnikában a Theil-Sen módszert használták a szoftver elavulási trendjének becslésére [31] . A Theil-Sen teszt másik alkalmazása a meteorológiában és klimatológiában [32] , ahol a szélirány és -sebesség stabil trendjeinek becslésére szolgál.

Lásd még

Jegyzetek

  1. Gilbert, 1987 .
  2. 1 2 El-Shaarawi, Piegorsch, 2001 .
  3. 1 2 Cole, Salowe, Steiger, Szemerédi, 1989 ; Katz, Sharir, 1993 ; Brönnimann, Chazelle, 1998 .
  4. 1 2 Dillencourt, Mount, Netanjahu, 1992 ; Matousek, 1991 ; Blunck, Vahrenhold, 2006 .
  5. Massart, Vandeginste et al., 1997 .
  6. Sokal, Rohlf, 1995 .
  7. Dytham, 2011 .
  8. Granato, 2006 .
  9. 12 Wilcox , 2001 .
  10. Theil, 1950 .
  11. Sen, 1968 .
  12. 1 2 3 Rousseeuw, Leroy, 2003 , p. 67, 164.
  13. Osborne, 2008 .
  14. A konfidenciaintervallumok meghatározásához a pontpárokat vissza kell mintavételezni . Ez azt jelenti, hogy a számításban használt párok készlete pontosan egyező párokat tartalmaz. Ezek a párok mindig kimaradnak a konfidencia-intervallumból, mert nem határoznak meg konkrét meredekségtényezőt, de a számításban való figyelembevételük szélesíti a konfidencia intervallumot.
  15. Siegel, 1982 .
  16. De Muth, 2006 .
  17. Jaeckel, 1972 ; Scholz, 1978 ; Sievers, 1978 ; Birkes, Dodge, 1993 .
  18. 1 2 Hirsch, Slack, Smith, 1982 .
  19. Sen, 1968 , p. 1384 5.1. tétel.
  20. Wang, Yu, 2005 .
  21. Sen, 1968 , p. 6. szakasz.
  22. Wilcox, 1998 .
  23. 12 Wilcox , 2005 .
  24. Sen, 1968 , p. 1383.
  25. Cole, Salowe, Steiger, Szemerédi, 1989 .
  26. Matoušek, Mount, Netanjahu, 1998 .
  27. Chan, Pătraşcu, 2010 .
  28. Bagchi, Chaudhary, Eppstein, Goodrich, 2007 .
  29. Akritas, Murphy, LaValley, 1995 .
  30. Fernandes, Leblanc, 2005 .
  31. Vaidyanathan, Trivedi, 2005 .
  32. Romanić, Ćurić, Jovičić, Lompar, 2015 , p. 288-302.

Irodalom

Linkek