Theil–Sen becslő függvény
A nem-paraméteres statisztikában van egy módszer egy ponthalmaz robusztus lineáris simítására ( egyszerű lineáris regresszió ), amelyben a síkban mintavételi pontpárokon átmenő összes egyenes meredekségének mediánját választjuk. A módszer neve Theil-Sen estimator , Slope Sen estimator [1] [2] , Slope selection [3] [4] , Single median method [5] , Kendall robusztus egyenes közelítési módszere [6] [7] , ill. robusztus egyenes Kendall-Teyla [8] . A módszer nevét Henri Theilről és Pranab K. Senről kapta, akik 1950-ben, illetve 1968-ban publikáltak a módszerről, valamint Maurice Kendallról .
Ez a becslés hatékonyan kiszámítható, és érzéketlen a kiugró értékekre . Szignifikánsan pontosabb lehet, mint a nem robusztus legkisebb négyzetek a nem szimmetrikus és heteroszkedasztikus adatok esetében, és jól versenyez a nem robusztus legkisebb négyzetekkel, még a normál eloszlású adatok esetében is a statisztikai teljesítmény tekintetében [9] . A módszert "a lineáris trend becslésének legnépszerűbb nem-paraméteres technikájaként" ismerik el [2] .
Definíció
Ahogy Theil [10] meghatározta, a síkban ( x i , y i ) lévő ponthalmaz Theil -Sen becslése az m meredekségi együttható mediánja ( y j − y i )/( x j − x i ) minden mintapont páron. Sen [11] kiterjesztette ezt a definíciót arra az esetre, amikor két pontnak ugyanaz az x koordinátája . Sen definíciója szerint a meredekségi együttható mediánját csak olyan pontpárokra vesszük, amelyeknek különböző x koordinátája van .
Az m meredekség kiszámítása után meghatározható az egyenes a mintapontokból, ha kiválasztjuk az y tengely metszéspontjának b pontját, amely megegyezik az y i − mx i értékek mediánjával [12] . Amint Sen megjegyezte, ez egy olyan becslő, amely az x i és az i- edik megfigyelés többi részével való összehasonlítás Kendall τ-rangú korrelációs együtthatóját megközelítőleg nullával egyenlővé teszi [13] .
A lejtőszög becslésére szolgáló konfidenciaintervallum úgy definiálható, mint a pontpárokon átmenő egyenesek meredekségi együtthatóinak 95%-ának átlagát tartalmazó intervallum [14] , és gyorsan megbecsülhető a párok mintavételével és a 95. a mintavételezett meredekség-együttható %-os intervallumát. Numerikus szimulációk szerint egy körülbelül 600 pontpárból álló minta elegendő a pontos konfidenciaintervallum meghatározásához [9] .
Változatok
Minden mintapontra ( x i , y i ) az ezen a ponton áthaladó egyenesek meredekségi együtthatóinak ( y j − y i ) /( x j − x i ) medián m i értéke, majd az összköltség függvény ezeknek a mediánoknak a mediánjaként számítják ki.
Egy másik lehetőség a mintapontok párjait az x koordinátáik rangja alapján választja ki (a párban a legkisebb koordinátájú pont, a medián koordináta feletti első pont stb.), majd az ezek által meghatározott egyenesek meredekségi együtthatói. pontpárokat számítanak ki [16] .
A Theil-Sen becslő súlyozott mediánokon alapuló változatait is tanulmányozzák , azon az elven alapulva, hogy azon mintapárok, amelyek x - koordinátái jobban különböznek, nagyobb valószínűséggel rendelkeznek pontosabb meredekséggel, és ezért nagyobb súlyúnak kell lenniük. [17]
Szezonális adatok esetén célszerű lehet az adatok szezonális változóit kisimítani úgy, hogy kiválasztjuk azokat a mintapontpárokat, amelyek ugyanahhoz a hónaphoz vagy évszakhoz tartoznak, majd kiszámítjuk a definiált egyenesek meredekségi együtthatóinak mediánját. ezekkel a korlátozott párokkal [18] .
Statisztikai tulajdonságok
A Theil-Sen becslő a valós meredekség torzítatlan becslése egyszerű lineáris regresszióban [19] [20] . Sok nem véletlenszerű hibaeloszlás esetén ennek a becslőnek magas aszimptotikus hatékonysága a legkisebb négyzetek módszeréhez képest [21] [22] . A gyenge teljesítményű becslések több független megfigyelést igényelnek, hogy ugyanazt a szórást érjék el, mint a hatékony torzítatlan becslések.
A Theil -Sen becslő robusztusabb , mint a legkisebb négyzetek becslése, mert lényegesen robusztusabb a kiugró értékekre . Küszöbértéke van , ami azt jelenti, hogy a bemeneti adatok akár 29,3%-át is elviseli a pontosság csökkenése nélkül [12] . A módszer többdimenziós általánosításainál azonban a küszöb csökken [23] . Egy másik robusztus lineáris becsléshez, a Siegel-féle ismételt medián becsléshez magasabb, 50%-os küszöb áll rendelkezésre [12] .
A Theil-Sen pontozási függvény ekvivariáns a válaszváltozóinak bármely lineáris transzformációjára , ami azt jelenti, hogy az adattranszformáció, amelyet egy pontozási vonal követ, és egy egyenes, amelyet adattranszformáció követ, ugyanazokhoz az eredményekhez vezet [24] . A becslő azonban nem ekvivariáns mind a prediktor, mind a válaszváltozók egyidejű affin transzformációja esetén [23] .
Algoritmusok
Egy n mintapontból álló halmaz meredekségének mediánja pontosan kiszámítható úgy, hogy kiszámolja az összes O ( n 2 ) egyenest a pontpárokon keresztül, és lineáris idő algoritmust alkalmaz a medián kiválasztásához . Alternatív megoldásként az érték megbecsülhető pontpárok mintavételével. A probléma a projektív dualitás szerint egyenértékű azzal a problémával, hogy megtaláljuk egy olyan egyenes konfiguráció metszéspontját, amely tartalmazza az összes ilyen metszéspont közötti koordináták x mediánját . [25]
A meredekségi tényező pontos, de a nyers másodfokú felsorolásnál hatékonyabb kiválasztásának problémáját a számítási geometriában alaposan tanulmányozták . Néhány más módszer is ismert a Theil-Sen becslő O ( n log n ) időben történő pontos kiszámítására , akár determinisztikusan [3] , akár valószínűségi algoritmusok használatával [4] . Az ismételt medián Siegel-becslés is hatékonyan megszerkeszthető ugyanabban az időben [26] . Azokban a számítási modellekben, amelyekben a bemeneti koordináták egész számok, és az egész számokon végzett bitműveletek állandó időt vesznek igénybe, a probléma még gyorsabban megoldható, a számítási idő elvárása mellett [27] .
A Theil-Sen becslővel megegyező küszöbű közelítő medián rangú meredekségi együttható becslőt kaphatunk streaming adatmodellben (amelyben a mintapontokat egyenként dolgozza fel az algoritmus, és az algoritmusnak nincs elég memória az összes adathalmaz tartós tárolására) ε-hálózatokon alapuló algoritmus segítségével [28] .
Alkalmazások
A Theil-Sen becslőt a csillagászatban használták, mert képes cenzúrázott regressziós modellekkel dolgozni [29] . Fernandez és Leblanc javasolta a használatát a távérzékelés biofizikájában [30] , például a levélfelület becslését reflexiós méréssel, „a számítás egyszerűsége, az analitikus konfidenciaintervallum becslése, a kiugró értékekhez való robusztusság, a hibára vonatkozó ellenőrizhető feltételezések és… korlátozott a priori információ a hibamérésekre vonatkozóan". A szezonális környezeti adatok, például a vízminőség mérésére a Theil-Sen szezonális becslőt javasolták jobbnak a legkisebb négyzetek módszerénél, mert jobb pontosságot ad ferde adatok esetén [18] . A számítástechnikában a Theil-Sen módszert használták a szoftver elavulási trendjének becslésére [31] . A Theil-Sen teszt másik alkalmazása a meteorológiában és klimatológiában [32] , ahol a szélirány és -sebesség stabil trendjeinek becslésére szolgál.
Lásd még
- Regressziós hígítás , egy másik probléma a meredekség trendbecslésével
Jegyzetek
- ↑ Gilbert, 1987 .
- ↑ 1 2 El-Shaarawi, Piegorsch, 2001 .
- ↑ 1 2 Cole, Salowe, Steiger, Szemerédi, 1989 ; Katz, Sharir, 1993 ; Brönnimann, Chazelle, 1998 .
- ↑ 1 2 Dillencourt, Mount, Netanjahu, 1992 ; Matousek, 1991 ; Blunck, Vahrenhold, 2006 .
- ↑ Massart, Vandeginste et al., 1997 .
- ↑ Sokal, Rohlf, 1995 .
- ↑ Dytham, 2011 .
- ↑ Granato, 2006 .
- ↑ 12 Wilcox , 2001 .
- ↑ Theil, 1950 .
- ↑ Sen, 1968 .
- ↑ 1 2 3 Rousseeuw, Leroy, 2003 , p. 67, 164.
- ↑ Osborne, 2008 .
- ↑ A konfidenciaintervallumok meghatározásához a pontpárokat vissza kell mintavételezni . Ez azt jelenti, hogy a számításban használt párok készlete pontosan egyező párokat tartalmaz. Ezek a párok mindig kimaradnak a konfidencia-intervallumból, mert nem határoznak meg konkrét meredekségtényezőt, de a számításban való figyelembevételük szélesíti a konfidencia intervallumot.
- ↑ Siegel, 1982 .
- ↑ De Muth, 2006 .
- ↑ Jaeckel, 1972 ; Scholz, 1978 ; Sievers, 1978 ; Birkes, Dodge, 1993 .
- ↑ 1 2 Hirsch, Slack, Smith, 1982 .
- ↑ Sen, 1968 , p. 1384 5.1. tétel.
- ↑ Wang, Yu, 2005 .
- ↑ Sen, 1968 , p. 6. szakasz.
- ↑ Wilcox, 1998 .
- ↑ 12 Wilcox , 2005 .
- ↑ Sen, 1968 , p. 1383.
- ↑ Cole, Salowe, Steiger, Szemerédi, 1989 .
- ↑ Matoušek, Mount, Netanjahu, 1998 .
- ↑ Chan, Pătraşcu, 2010 .
- ↑ Bagchi, Chaudhary, Eppstein, Goodrich, 2007 .
- ↑ Akritas, Murphy, LaValley, 1995 .
- ↑ Fernandes, Leblanc, 2005 .
- ↑ Vaidyanathan, Trivedi, 2005 .
- ↑ Romanić, Ćurić, Jovičić, Lompar, 2015 , p. 288-302.
Irodalom
- D. Romanić, M. Ćurić, I. Jovičić, M. Lompar. A „Koshava” szél hosszú távú trendjei az 1949-2010 közötti időszakban. // International Journal of Climatology. - 2015. - T. 35 , sz. 2 . - S. 288-302 . - doi : 10.1002/joc.3981 .
- Michael G. Akritas, Susan A. Murphy, Michael P. LaValley. A Theil-Sen becslő kétszeresen cenzúrázott adatokkal és csillagászati alkalmazásokkal // Journal of the American Statistical Association. - 1995. - T. 90 , sz. 429 . – S. 170–177 . - doi : 10.1080/01621459.1995.10476499 . — .
- Amitabha Bagchi, Amitabh Chaudhary, David Eppstein, Michael T. Goodrich. Determinisztikus mintavétel és tartományszámlálás geometriai adatfolyamokban // ACM Transactions on Algorithms. - 2007. - 3. évf. , szám. 2 . - C. Art. nem. 16 . - doi : 10.1145/1240233.1240239 . - arXiv : cs/0307027 .
- David Birkes, Yadolah Dodge. Alternatív regressziós módszerek. - Wiley-Interscience, 1993. - T. 282. - S. 113-118. - (Wiley sorozat a Valószínűség- és Statisztikákban). — ISBN 978-0-471-56881-0 .
- Henrik Blunck, Jan Vahrenhold. Nemzetközi Szimpózium az algoritmusokról és a komplexitásról. - Berlin: Springer-Verlag, 2006. - T. 3998. - S. 30-41. — (Számítástechnikai előadásjegyzetek). — ISBN 978-3-540-34375-2 . - doi : 10.1007/11758471_6 .
- Hervé Brönnimann, Bernard Chazelle. Optimális lejtőválasztás metszéssel // Számítógépes geometriai elmélet és alkalmazások . - 1998. - T. 10 , sz. 1 . – S. 23–29 . - doi : 10.1016/S0925-7721(97)00025-4 .
- Timothy M. Chan, Mihai Pătraşcu. A diszkrét algoritmusokról szóló huszonegyedik éves ACM-SIAM szimpózium (SODA '10) anyaga. - 2010. - S. 161-173.
- Richard Cole, Jeffrey S. Salowe, WL Steiger, Szemerédi Endre . Optimális idejű algoritmus a meredekség kiválasztásához // SIAM Journal on Computing . - 1989. - T. 18 , sz. 4 . – S. 792–810 . - doi : 10.1137/0218055 .
- E. James De Muth. Alapstatisztika és gyógyszerstatisztikai alkalmazások. — 2. - CRC Press, 2006. - Vol. 16. - (Biostatisztika). — ISBN 978-0-8493-3799-4 .
- Michael B. Dillencourt, David Mount, Nathan Netanyahu. Véletlenszerű algoritmus a meredekség kiválasztásához // International Journal of Computational Geometry & Applications. - 1992. - 2. kötet , szám. 1 . – S. 1–27 . - doi : 10.1142/S0218195992000020 .
- Calvin Dytham. Statisztikák kiválasztása és használata: Biológus útmutató. — 3. - John Wiley and Sons, 2011. - ISBN 978-1-4051-9839-4 .
- Abdel H. El-Shaarawi, Walter W. Piegorsch. Encyclopedia of Environmetrics, 1. kötet. - John Wiley and Sons, 2001. - ISBN 978-0-471-89997-6 .
- Richard Fernandes, Sylvain G. Leblanc. Paraméteres (módosított legkisebb négyzetek) és nem paraméteres (Theil–Sen) lineáris regressziók biofizikai paraméterek előrejelzésére mérési hibák jelenlétében // Remote Sensing of Environment. - 2005. - T. 95 , sz. 3 . – S. 303–316 . - doi : 10.1016/j.rse.2005.01.005 .
- Richard O. Gilbert. Statisztikai módszerek a környezetszennyezés monitorozására. - John Wiley and Sons, 1987. - S. 217-219. — ISBN 978-0-471-28878-7 .
- Gregory E. Granato. Kendall-Theil Robust Line (KTRLine – 1.0-s verzió) – Vizuális alapprogram két folytonos változó közötti lineáris regressziós együtthatók robusztus, nem paraméteres becsléseinek kiszámításához és ábrázolásához. - US Geological Survey, 2006. - 31. o. CD-ROM-mal. – (Az US Geological Survey technikái és módszerei, 4. könyv, A7. fejezet).
- Robert M. Hirsch, James R. Slack, Richard A. Smith. A havi vízminőségi adatok trendelemzési technikái // Water Resources Research. - 1982. - T. 18 , sz. 1 . – S. 107–121 . - doi : 10.1029/WR018i001p00107 . - .
- Louis A. Jaeckel. Regressziós együtthatók becslése a maradékok diszperziójának minimalizálásával // Annals of Mathematical Statistics. - 1972. - T. 43 , sz. 5 . - S. 1449-1458 . - doi : 10.1214/aoms/1177692377 .
- Matthew J. Katz, Micha Sharir. Optimális lejtőválasztás bővítőkön keresztül // Information Processing Letters . - 1993. - T. 47 , sz. 3 . – S. 115–122 . - doi : 10.1016/0020-0190(93)90234-Z .
- DL Massart, BGM Vandeginste, LMC Buydens, S. De Jong, PJ Lewi, J. Smeyers-Verbeke. Handbook of Chemometrics and Qualimetrics: A. rész - Elsevier, 1997. - 20A. kötet. — S. 355–356. – (Adatkezelés a tudomány és technológia területén). - ISBN 978-0-444-89724-4 .
- Jiri Matousek. Véletlenszerű optimális algoritmus a meredekség kiválasztásához // Information Processing Letters . - 1991. - T. 39 , sz. 4 . – S. 183–187 . - doi : 10.1016/0020-0190(91)90177-J .
- Jiří Matoušek, David M. Mount, Nathan S. Netanyahu. Hatékony randomizált algoritmusok az ismételt mediánvonal becsléséhez // Algorithmica . - 1998. - T. 20 , sz. 2 . – S. 136–150 . - doi : 10.1007/PL00009190 .
- Jason W. Osborne. A kvantitatív módszerek legjobb gyakorlatai. - Sage Publications, Inc., 2008. - ISBN 9781412940658 .
- Peter Rousseeuw, Annick M. Leroy. Robusztus regresszió és outlier-észlelés. - Wiley, 2003. - V. 516. - (Wiley sorozat a valószínűségi és matematikai statisztikákban). — ISBN 978-0-471-48855-2 .
- Friedrich-Wilhelm Scholz. Súlyozott medián regressziós becslések // The Annals of Statistics. - 1978. - T. 6 , sz. 3 . — S. 603–609 . - doi : 10.1214/aos/1176344204 . — .
- Pranab Kumar Sen. A regressziós együttható becslése Kendall tau alapján. — Az Amerikai Statisztikai Szövetség folyóirata . - 1968. - T. 63. - S. 1379-1389. - doi : 10.2307/2285891 .
- Andrew F. Siegel Robusztus regresszió ismételt mediánokkal // Biometrika. - 1982. - T. 69 , sz. 1 . – S. 242–244 . - doi : 10.1093/biomet/69.1.242 .
- Gerald L. Sievers. Súlyozott rangstatisztika egyszerű lineáris regresszióhoz // Journal of the American Statistical Association. - 1978. - T. 73 , sz. 363 . – S. 628–631 . - doi : 10.1080/01621459.1978.10480067 . — .
- Robert R. Sokal, F. James Rohlf. Biometria: A statisztika alapelvei és gyakorlata a biológiai kutatásban. - Macmillan, 1995. - ISBN 978-0-7167-2411-7 .
- H. Theil. A lineáris és polinomiális regressziós elemzés ranginvariáns módszere. I, II, III // Nederl. Akad. Wetensch., Proc.. - 1950. - T. 53 . – S. 386–392, 521–525, 1397–1412 . .
- Kalyanaraman Vaidyanathan, Kishor S. Trivedi. Átfogó modell a szoftvermegújításhoz // IEEE-tranzakciók a megbízható és biztonságos számítástechnikán. - 2005. - 2. évf. , szám. 2 . – S. 124–137 . - doi : 10.1109/TDSC.2005.15 .
- Xueqin Wang, Qiqing Yu. A Theil–Sen becslés elfogulatlansága // Journal of Nonparametric Statistics. - 2005. - T. 17 , sz. 6 . – S. 685–695 . - doi : 10.1080/10485250500039452 .
- Rand R. Wilcox. Megjegyzés a Theil–Sen regressziós becslőhöz, ha a regresszor véletlenszerű, a hibatag pedig heteroszkedasztikus // Biometrikus folyóirat. - 1998. - T. 40 , sz. 3 . – S. 261–268 . - doi : 10.1002/(SICI)1521-4036(199807)40:3<261::AID-BIMJ261>3.0.CO;2-V .
- Rand R. Wilcox. A modern statisztikai módszerek alapjai: A teljesítmény és a pontosság lényeges javítása. - Springer-Verlag, 2001. - S. 207-210. — ISBN 978-0-387-95157-7 .
- Rand R. Wilcox. Bevezetés a robusztus becslésbe és a hipotézisvizsgálatba . - Akadémiai Kiadó, 2005. - P. 423-427 . — ISBN 978-0-12-751542-7 .
Linkek