Átképzés

A gépi tanulásban és a statisztikában a túlillesztés ( overfitting , re- „to ” jelentésben, angol  overfitting )  olyan jelenség, amikor a felépített modell jól magyarázza a képzési halmaz példáit, de viszonylag rosszul működik azokon a példákon, amelyek nem vettek részt a képzésben ( a tesztmintákból vett példákon).

Ez annak a ténynek köszönhető, hogy egy modell felépítésekor („a tanulási folyamatban”) néhány véletlenszerű minta található a képzési mintában, amelyek hiányoznak az általános sokaságból .

Más szavakkal, a modell a lehetséges példák nagy számára emlékszik, ahelyett, hogy megtanulná észrevenni a jellemzőket.

Még akkor is, ha a betanított modell nem rendelkezik túl sok paraméterrel, akkor is várható, hogy új adatokon a teljesítménye alacsonyabb lesz, mint a betanításhoz használt adatoké [1] . Különösen a determinációs együttható értéke csökken az eredeti betanítási adatokhoz képest.

A túlillesztés kezelésének módja a modellezési módszertől és a modell felépítésének módjától függ. Például, ha egy döntési fát építenek , akkor annak egyes ágait le lehet vágni az építési folyamat során.

Módszerek a túlillesztés megelőzésére

A túlillesztés elkerülése érdekében további módszereket kell alkalmazni, például:

amely jelezheti, ha a továbbképzés már nem vezet jobb paraméterbecsléshez. Ezek a módszerek a modellek komplexitásának kifejezett megkötésén alapulnak, vagy a modell általánosítási képességének tesztelésén alapulnak a teljesítményének olyan adathalmazon történő értékelésével, amelyet nem használtak a képzéshez, és amelyet a valós adatok közelítésének tekintenek. a modell kerül alkalmazásra.

Lásd még

Jegyzetek

  1. Everitt BS (2002) Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X ("zsugorodás" szócikk)