A számítógépes látásban a szegmentálás egy digitális kép több szegmensre ( pixelkészletre , más néven szuperpixelekre) osztásának folyamata. A szegmentálás célja egy kép megjelenítésének egyszerűsítése és/vagy megváltoztatása, hogy az egyszerűbb és könnyebben elemezhető legyen. [1] A képszegmentálást általában tárgyak és határvonalak (vonalak, görbék stb.) kiemelésére használják a képeken. Pontosabban, a képszegmentálás az a folyamat, amelynek során a kép minden egyes pixeléhez címkéket rendelnek úgy, hogy az azonos címkével ellátott képpontok vizuális jellemzőkkel rendelkezzenek.
A képszegmentálás eredménye a teljes képet együttesen lefedő szegmensek halmaza, vagy a képből kinyert kontúrok halmaza (lásd Él kivonás ). A szegmensben lévő összes képpont hasonló bizonyos jellemző vagy kiszámított tulajdonságokban, például színben , fényerőben vagy textúrában . A szomszédos szegmensek jelentősen eltérnek ebben a tulajdonságban. [egy]
A képszegmentálás néhány gyakorlati alkalmazása a következő:
Számos univerzális algoritmust és módszert fejlesztettek ki a képszegmentálásra. Mivel a képszegmentálási problémára nincs általános megoldás, gyakran ezeket a módszereket kombinálni kell a témakör ismereteivel, hogy a problémát a témakörben hatékonyan megoldhassuk.
A k-means egy iteratív módszer, amellyel egy képet K klaszterekre osztanak fel. Az alap algoritmus az alábbiakban látható:
Itt általában a pixel és a klaszter közepe közötti különbségek négyzeteinek összegét vagy abszolút értékét veszik távolságnak . A különbség általában a színen, a fényerőn, a textúrán és a képpontok helyén, vagy e tényezők súlyozott összegén alapul. K választható manuálisan, véletlenszerűen vagy heurisztikusan.
Ez az algoritmus garantáltan konvergál, de lehet, hogy nem vezet optimális megoldáshoz. A megoldás minősége a klaszterek kezdeti halmazától és K értékétől függ .
A hisztogram módszerek nagyon hatékonyak más képszegmentációs módszerekkel összehasonlítva, mivel csak egy pixel áthaladást igényelnek. Ennél a módszernél a hisztogramot a kép összes pixelére számítja ki, és minimumát és maximumát használja a klaszterek megtalálásához a képen. [1] Összehasonlításképpen szín vagy fényerő használható.
Ennek a módszernek a továbbfejlesztése, hogy rekurzív módon alkalmazzák a képen látható klaszterekre, hogy kisebb klaszterekre oszthassák fel őket. A folyamatot egyre kisebb klaszterekkel ismételjük, amíg már nem jelenik meg több klaszter. [1] [4]
Ennek a módszernek az egyik hátránya, hogy nehéz lehet lényeges minimumokat és maximumokat találni egy képen. Ebben a képosztályozási módszerben a távolságmetrika és az integrált régióillesztés hasonló.
A hisztogram alapú megközelítések gyorsan adaptálhatók több képkockához, miközben megőrzik az egymenetes sebességelőnyüket. A hisztogramot többféleképpen is fel lehet építeni, ha több képkockát veszünk figyelembe. Ugyanaz a megközelítés, amelyet egyetlen képkocka esetében alkalmaznak, több képkockára is alkalmazható, és az eredmények összevonása után láthatóbbá válnak a nehezen kivehető mély- és csúcspontok. A hisztogram képpontonkénti alapon is alkalmazható, ahol információk alapján határozható meg egy adott pixelpozíció leggyakoribb színe. Ez a megközelítés mozgó tárgyakon és álló környezeteken alapuló szegmentálást használ, ami másfajta szegmentálást biztosít, amely hasznos a videókövetésben .
Az élkivonás a képfeldolgozás jól tanulmányozott területe. A régiók határai és szélei erősen összefüggenek, mivel a régiók határán gyakran erős fényerőkülönbség van. Ezért élérzékelési módszereket használnak egy másik szegmentációs módszer alapjául.
A talált élek gyakran szakadtak. De ahhoz, hogy a képen egy objektumot jelöljünk ki, zárt területhatárokra van szükség.
Az első a területek magból történő termesztésének módszere volt. Ez a módszer képeket és magokat vesz bemenetként. A magvak megjelölik a kiválasztandó objektumokat. A régiók fokozatosan növekednek, összehasonlítva az összes szabad szomszédos képpontot a régióval. Egy pixel fényereje és egy terület átlagos fényereje közötti különbséget használják hasonlóság mértékeként . A legkisebb különbséggel rendelkező képpont hozzáadódik a megfelelő területhez. A folyamat addig folytatódik, amíg az összes képpont hozzá nem ad egy régiót.
A területek magból történő termesztésének módja további bevitelt igényel. A szegmentálás eredménye a magok megválasztásától függ. A képen megjelenő zaj a magvak rossz elhelyezését okozhatja. A nem magrégió termesztési módszere egy módosított algoritmus, amely nem igényel explicit magokat. Egy területtel kezdődik – az itt kiválasztott pixelnek kevés hatása van a végső szegmentációra. Minden iterációnál ugyanúgy figyelembe veszi a szomszédos pixeleket, mint a magokat használó régiónövekedési módszer. De abban különbözik, hogy ha a minimum kisebb, mint a megadott küszöb , akkor hozzáadódik a megfelelő területhez . Ellenkező esetben a képpont nagyon különbözik az összes jelenlegi régiótól , és egy új régió jön létre , amely ezt a pixelt tartalmazza.
Ennek a módszernek az egyik változata, amelyet Haralik és Shapiro (1985) [1] javasolt, a pixelfényesség használatán alapul . A terület átlagát és szórását, valamint a jelölt pixel fényerejét a tesztstatisztika készítéséhez használják fel. Ha a tesztstatisztika elég kicsi, akkor egy pixelt adunk a területhez, és újraszámoljuk a terület átlagát és a szórást. Ellenkező esetben a rendszer figyelmen kívül hagyja a képpontot, és új terület létrehozására használja fel.
A grafikonszeletelési technikák hatékonyan alkalmazhatók a képszegmentálásra . Ezekben a módszerekben a képet súlyozott irányítatlan gráfként ábrázolják. Jellemzően egy pixel vagy pixelcsoport egy csúcshoz van társítva, és az élsúlyok határozzák meg a szomszédos pixelek (különböző) hasonlóságát. Ezután a grafikont (képet) a „jó” klaszterek eléréséhez létrehozott kritérium szerint vágjuk ki. Az ezekkel az algoritmusokkal kapott csúcsok (pixelek) minden része objektumnak minősül a képen. Néhány népszerű algoritmus ebben a kategóriában a normalizált gráfvágás [5] , a véletlenszerű séta [6] , a minimális vágás [7] , az izoperimetrikus particionálás [8] és a minimális feszítőfa -szegmentálás [9] .
A vízválasztó szegmentáció a kép gradiens abszolút értékét tekinti topográfiai felületnek. A fényerő gradiens legnagyobb abszolút értékével rendelkező képpontok a régiók határait jelentő vízválasztó vonalaknak felelnek meg. A közös vízválasztón belül bármely pixelre helyezett víz lefolyik egy közös helyi minimum fényerőre. Azok a képpontok, amelyekből a víz egy közös minimumra távozik, alkotják a szegmenst jelentő vízgyűjtő területet.
Ennek a megközelítésnek az alapfeltevés, hogy a kérdéses struktúrák vagy szervek ismétlődő geometriai alakzatokkal rendelkeznek. Ezért lehetséges egy valószínűségi modellt találni egy szerv alakváltozásának magyarázatára, majd a kép szegmentálásával korlátozásokat szabni ennek a modellnek a priori használatával. Egy ilyen feladat magában foglalja (i) a képzési példák közös pózba hozását, (ii) az adott minták változásainak valószínűségi ábrázolását, és (iii) a modellre és a képre vonatkozó statisztikai következtetést. A szakirodalomban a tudásalapú szegmentálás jelenlegi módszerei közé tartoznak az aktív forma- és megjelenési modellek, az aktív kontúrok, a deformálható minták és a szintező módszerek.
A képszegmentálás a léptéktérben különböző léptékekben történik, és néha kicsitől a nagy méretig terjed.
A szegmentálási kritérium tetszőlegesen összetett lehet, és figyelembe vehet lokális és globális kritériumokat is. Az általános követelmény az, hogy minden területet valamilyen módon össze kell kötni.
Witkin alapvető munkája [10] [11] a skálatérről azt az elképzelést tartalmazza, hogy egy egydimenziós jel egyedileg szegmentálható régiókra egyetlen olyan paraméter használatával, amely a szegmentációs skálát szabályozza.