Skálainvariáns jellemző transzformáció

A skálainvariáns jellemző transzformáció ( SIFT ) egy jellemzőészlelő algoritmus a számítógépes látásban a képek helyi jellemzőinek észlelésére és leírására. Az algoritmust Kanadában szabadalmaztatta a University of British Columbia [1] , és David Lowe publikálta 1999-ben [2] . Az alkalmazások közé tartozik az objektumfelismerés , a robotizált térképezés és a robotos navigáció, a képösszefűzés , a 3D modellezés , gesztusfelismerés , nyomon követés , vadon élő állatok azonosítása és helyzetkövetés .

Először az objektumok kulcspontjait kinyerjük SIFT-ben egy referenciaképből [2] , és tároljuk az adatbázisban. Az objektum felismerése az új képen úgy történik, hogy az új kép egyes jellemzőit összehasonlítja az adatbázis jellemzőivel, és a jellemzővektorok közötti euklideszi távolság alapján keresi a jelölt jellemzőket . Az új képen található egyezések teljes halmazából a kulcspontok azon részhalmazai kerülnek kiválasztásra, amelyek a legjobban illeszkednek az objektumhoz annak elhelyezkedése, léptéke és tájolása szempontjából. A megfelelő tulajdonságblokkok meghatározása gyors az általánosított Hough-transzformáció hatékony hash-táblázatos implementációjával . Minden 3 vagy több jellemzőből álló blokk, amely összhangban van az objektummal és annak pozíciójával, a modell illeszkedésének további részletes ellenőrzése alá esik, és a kiugró értékeket el kell vetni. Végül kiszámítjuk annak a valószínűségét, hogy egy bizonyos jellemzőkészlet egy objektum jelenlétét jelzi, amely információt ad az egyezés pontosságáról és a lehetséges kihagyások számáról. Azok az objektumok, amelyek ezeken a teszteken megfelelnek, nagy biztonsággal helyesnek tekinthetők [3] .

Áttekintés

A kép bármely objektumánál jellemzőpontok kinyerhetők az objektum "jellemző leírása" érdekében. A betanító képből kapott leírás felhasználható az objektum azonosítására, amikor megpróbáljuk megtalálni az objektumot egy sok más objektumot tartalmazó tesztképen. A megbízható felismerés érdekében fontos, hogy az edzésképből kinyert jellemzők a képlépték, a zaj és a megvilágítás változása esetén is észlelhetők legyenek. Az ilyen pontok általában nagy kontrasztú területeken helyezkednek el, például az objektumok szélein.

Ezen jellemzők másik fontos jellemzője, hogy a köztük lévő relatív pozíciók nem változhatnak egyik képről a másikra. Például, ha egy ajtónak csak a négy sarkát használnák táblaként, akkor ezek az ajtó helyzetétől függetlenül működnének. De ha az ajtófélfa pontokat is használnák, a felismerés sikertelen lehet, mert az ajtó nyitva vagy zárva lehet. Hasonlóképpen, a csuklós vagy rugalmas objektumokon elhelyezett jellemzők általában nem működnek, ha a belső geometriában bármilyen változás történik a feldolgozókészlet két képe között. A gyakorlatban azonban a SIFT sokkal nagyobb számú képjellemzőt észlel és használ, ami csökkenti az ezen helyi változások által okozott egyes hibák hozzájárulását az összes jellemzőillesztési hiba teljes hibájához.

A SIFT [1] megbízhatóan képes kiválasztani az objektumokat még zaj és részleges átfedés esetén is, mivel a SIFT jellemzőleíró invariáns az arányos skálázásra , a tájolásra , a világítás változására és az affin torzításokra részben invariáns [2] . Ez a rész leírja az eredeti SIFT algoritmust, és megemlít számos, egymással versengő technikát a zajos és átfedő objektumok felismerésére.

A SIFT-leíró képméréseken alapul a receptormezők [4] [5] [6] [7] szempontjából, amelyekhez helyi léptéket választva [10] helyi skálainvariáns referenciakereteket [8] [9] hozunk létre [10]. [11] [9] . Az algoritmus általános elméleti magyarázatát a SIFT-ről szóló Scholarpedia projektdokumentum [12] tartalmazza .

Egy feladat	Technika	Előny
kulcs helye / léptéke / forgása	Gauss-differencia / térlépték piramisa / irányok kijelölése	pontosság, stabilitás, lépték és forgási invariancia
geometriai torzítás	lokális képtájolási síkok elmosása/újramintavételezése	affin invariancia
indexelés és egyeztetés	legközelebbi szomszéd / keresse meg a "Best Bin First" kifejezést	Hatékonyság / sebesség
Klaszter azonosítás	Hough átalakítani szavazni	megbízható pozíciómodellek
Modell validálás / outlier észlelés	Lineáris legkisebb négyzetek	jobb hibatűrés kevesebb megfelelőséggel
Hipotézis jóváhagyása	Bayesi valószínűség-elemzés	megbízhatóság

Alapvető lépések

Skálainvariáns jellemzők észlelése

A Lowe-féle képjellemzők generálási módszere a képet jellemzővektorok nagy halmazává alakítja, amelyek mindegyike invariáns a (párhuzamos) képfordítás, skálázás és elforgatás alatt, részben invariáns a fényváltozásokra, és ellenáll a helyi geometriai torzulásoknak. Ezek a tulajdonságok hasonló tulajdonságokkal rendelkeznek, mint a fő látókéreg neuronjai, amelyek a főemlősök látásának alapvető alakját, színét és tárgymozgás-érzékelését kódolják [13] . a simított és újrarenderelt képek sorozatára alkalmazott skálatérben alkalmazott Gauss-differencia függvény maximuma és minimuma . Az alacsony kontrasztú és a szélek mentén lévő pontokat el kell vetni. A lokalizált kulcspontokhoz domináns orientáció van hozzárendelve. Ezek a lépések nagyobb stabilitást biztosítanak az egyeztetéshez és a felismeréshez szükséges kulcspontokhoz. A helyi affin megsértésekkel szemben ellenálló SIFT-leírókat ezután úgy kapjuk meg, hogy megvizsgáljuk a kulcs helye körüli pixeleket a helyi képtájolási síkok elmosásával és újramintavételezésével.

Funkcióegyeztetés és indexelés

Az indexelés abból áll, hogy megjegyzi a SIFT kulcsokat, és azonosítja a megfelelő kulcsokat az új képből. Lowe a best-bin-first (BBF) [14] keresési módszernek nevezett k-dimenziós faalgoritmus módosítását használta , amely nagy valószínűséggel képes azonosítani a legközelebbi szomszédot , csak korlátozott számú számítással. A BBF algoritmus módosított keresési sorrendet használ a k-dimenziós fa algoritmushoz , így a jellemzőtérben lévő területeket a keresett helytől való legközelebbi távolságuk sorrendjében keresi. Ez a keresési sorrend egy kupac alapú prioritási sor használatát igényli a keresési sorrend hatékony meghatározásához. Az egyes kulcspontokhoz a legjobb jelöltet úgy találjuk meg, hogy a képzési képekből meghatározzuk a kulcspont adatbázisban a legközelebbi szomszédot. A legközelebbi szomszédok azok a kulcspontok, amelyek minimális euklideszi távolsággal rendelkeznek az adott leíróvektortól. Az egyezés helyességének valószínűségét úgy határozhatjuk meg, hogy kiszámítjuk a legközelebbi szomszédtól való távolság és a második legközelebbi szomszéd távolságának arányát.

Alacsony [3] elutasított minden olyan egyezést, amelyben a távolságarány nagyobb, mint 0,8, ami kiküszöböli a hibás egyezések 90%-át, míg a helyes egyezések kevesebb mint 5%-át. A teljesítmény további javítása érdekében a „legjobb láda először” keresési algoritmus leáll az első 200 legközelebbi szomszéd jelölt ellenőrzése után. Egy 100 000 kulcspontot tartalmazó adatbázisnál ez 2 nagyságrenddel nagyobb sebességet biztosít a szomszédok pontos kereséséhez képest, miközben a rossz választás nem haladja meg a helyes egyezések 5%-át.

Klaszter azonosítás a Hough transzformáció megszavazásával

A Hough-transzformáció egy robusztus hipotézis-modell klaszterezésére szolgál, hogy megtalálja azokat a kulcsokat, amelyek összhangban vannak egy adott modellpozícióval A Hough-transzformáció konzisztens értelmezésű jellemzők fürtjeit tárja fel azáltal, hogy minden egyes jellemzőre szavaz minden olyan objektumpozícióra, amely konzisztens a jellemzővel. Ha egy objektum azonos pozíciójára szavazattal rendelkező jellemzők klasztereit találjuk, a helyes értelmezés valószínűsége sokkal nagyobb, mint bármely egyedi jellemző esetében. Létrejön egy hash tábla bejegyzés, amely tartalmazza az egyező hipotézisből származó becsült pozíciót, tájolást és skálát. A rendszer egy hash-táblázatban keresi az összes olyan klasztert, amely legalább 3 elemet tartalmaz a területen, és a területeket csökkenő méret szerint rendezi.

A SIFT kulcspontjai mindegyike meghatároz egy 2D-s helyet, léptéket és tájolást, és az adatbázisban minden kulcsponthoz tartozik egy bejegyzés a paramétereivel kapcsolatban, amelyek ahhoz a képzési képhez kapcsolódnak, amelyben megtalálták. Az ebből a 4 paraméterből származó analóg transzformáció csak egy közelítés a 3D objektumok 6 szabadságfokával rendelkező teljes pozíciótérhez, és nem vesz figyelembe semmilyen rugalmas deformációt. Így Lowe [3] 30 fokos területméretet használt a tájékozódáshoz a hely meghatározásához, 2-es tényezőt a léptékhez és 0,25-ös tényezőt a képzési kép maximális vetítési méretéhez (az előre jelzett léptéket használva). A nagy léptékben generált SIFT-kulcsok esetében dupla súlyt adnak a kisebb léptékű kulcsokhoz képest. Ez azt jelenti, hogy egy nagyobb méretarány képes kiszűrni a valószínűbb szomszédokat a kisebb skálán történő teszteléshez. A felismerési teljesítményt is javítja, mivel nagyobb súlyt ad a kevésbé zajos mérlegnek. Hogy elkerüljük a határhatások problémáját egy terület hozzárendelése során, minden kulcspont a 2 legközelebbi terület szavazatait vizsgálja irányonként, összesen 16 értéket adva minden egyes hipotézishez, és tovább homályosítva a pozíciószórást.

Legkisebb négyzetek modell érvényesítése

Minden létrehozott fürt ellenőrző eljárás alá esik, amely a legkisebb négyzetek hajtja végre a képmodellhez társított affin transzformációs paraméterekre. Egy [xy] T modellpont affin transzformációja [uv] T képponttá a következőképpen írható fel

{\begin{bmatrix}u\\v\end{bmatrix}}={\begin{bmatrix}m1&m2\\m3&m4\end{bmatrix}}{\begin{bmatrix}x\\y\end{bmatrix ))+{\begin{bmatrix}tx\\ty\end{bmatrix}}

ahol a párhuzamos transzláció [tx ty] T , és az affin elforgatást, a léptéket és a nyújtást az m1, m2, m3 és m4 paraméterek képviselik. A transzformációs paraméterek megszerzéséhez az egyenletet átírhatjuk úgy, hogy minden ismeretlen egy oszlopvektorban legyen.

{\begin{bmatrix}x&y&0&0&1&0\\0&0&x&y&0&1\\..\\..\end{bmatrix}}{\begin{bmatrix}m1\\m2\\m3\\m4\\tx \\ty\ end{bmatrix}}={\begin{bmatrix}u\\v\\.\\.\end{bmatrix}}

Az egyenlőség egyetlen egyezést mutat, de tetszőleges számú egyezés adható hozzá, ahol minden egyezés két sort ad az első és az utolsó mátrixhoz. Legalább 3 gyufa szükséges a megoldáshoz. Ezt a lineáris rendszert így írhatjuk fel

A{\hat {\mathbf {x} }}\approx \mathbf {b} ,

ahol A egy ismert mátrix (általában m > n ), x egy ismeretlen n - dimenziós paramétervektor , és b egy ismert m - dimenziós dimenzióvektor. $m\szer n$

Így a minimalizáló vektor a normálegyenlet megoldása ${\hat {\mathbf {x} ))$

A^{T}\!A{\hat {\mathbf {x} }}=A^{T}\mathbf {b} .

A lineáris egyenletrendszer megoldását egy pszeudoinverz mátrixnak nevezett mátrixban adjuk meg A esetén, a következő formában: ${\megjelenítési stílus (A^{T}A)^{-1}A^{T}}$

{\hat {\mathbf {x} }}=(A^{T}\!A)^{-1}A^{T}\mathbf {b} .

amely minimalizálja a modellhely-vetületek és a megfelelő képhelyek közötti távolságok négyzetes összegét.

Kiugró értékek azonosítása

A kiugró értékek most már elvethetők, ha ellenőrizzük az egyes képek jellemzői és a paramétermegoldás által adott modell közötti egyezést. Adott a legkisebb négyzetek megoldása , minden egyezésnek legfeljebb a felével kell megegyeznie a Hough-transzformációs régiók paramétereihez használt hibaintervallumnak . A kiugró értékeket eldobjuk, a fennmaradó pontokra a legkisebb négyzetek megoldását újraszámoljuk, és a folyamatot megismételjük. Ha kevesebb mint 3 pont marad a kiugró értékek eldobása után , a mérkőzést el kell utasítani. Ezen túlmenően a felülről lefelé irányuló illesztési fázist arra használják, hogy hozzáadjanak minden olyan más illesztést, amely összhangban van a kivetített modell helyzetével, és amelyeket a Hough-transzformációs régió kihagyhat a hasonló transzformációk közelítése vagy más hibák miatt.

A hipotézismodell elfogadására vagy elutasítására vonatkozó végső döntés egy részletes valószínűségi modellen alapul [15] . Ez a módszer először kiszámítja a pozíciómodell hibaegyezésének várható számát, amelyet a modell mérete, a régión belüli jellemzők száma és az illeszkedés pontossága ad meg. A Bayes-analízis ezután megadja annak valószínűségét, hogy az objektum jelen van, a talált jellemzőegyezések tényleges száma alapján. A modell akkor fogadható el, ha a helyes értelmezés végső valószínűsége nagyobb, mint 0,98. A Lowe által kifejlesztett SIFT módszer alapján az objektumfelismerés kiváló eredményeket ad, kivéve a széles megvilágítású eseteket és a nem merev transzformációkat.

Jelek

A helyi képjellemzők észlelése és leírása segíthet az objektumok felismerésében. A SIFT jellemzői lokálisak, és az objektum meghatározott szinguláris pontokon való megnyilvánulásain alapulnak. Ezek skálázási és forgási invariánsak. Ellenállnak a fényváltozásoknak, a zajnak és a nézőpont kis változásainak is. Ezeken a tulajdonságokon túl jól megkülönböztethetőek, viszonylag könnyen visszakereshetők, és kis hibával lehetővé teszik az objektumok azonosítását. Viszonylag könnyen megtalálhatóak a helyi jellemzők (nagy) adatbázisában, azonban a jellemzők nagy dimenziója nehézségeket okozhat, ezért a valószínűségi algoritmusok, mint például a k-dimenziós fák a legjobb bin-first kereséssel ( BBF) használják. Egy objektum leírása SIFT jellemzőkkel a részleges átfedés tekintetében is stabil, mivel egy objektum három SIFT jellemzője is elegendő egy objektum helyének és pozíciójának kiszámításához. A felismerés közel valós időben végrehajtható, legalábbis a modern számítógépes berendezések kis adatbázisainál.

Algoritmus

A skálatér szélsőségeinek feltárása

Kezdjük a pontok azonosításával, amelyeket a SIFT-en belül kulcspontoknak nevezünk. A képet különböző léptékű Gauss-szűrőkkel konvolálják , majd kiszámítják az egymást követő Gauss-féle elmosódott képek különbségét. A kulcspontokat ezután mintavételezzük a Gauss-féle maximális/minimális különbségként, amelyek különböző skálákon fordulnak elő. A Gauss-féle különbséget a kifejezés adja meg $D\left(x,y,\sigma \right)$

D\left(x,y,\sigma \right)=L\left(x,y,k_{i}\sigma \right)-L\left(x,y,k_{j}\sigma \ jobb)

, hol van az eredeti kép konvolúciója Gauss- elmosással léptékben , azaz

L\left(x,y,k\sigma \right)

I\left(x,y\right)

G\left(x,y,k\sigma \right)

k\sigma

L\left(x,y,k\sigma \right)=G\left(x,y,k\sigma \right)*I\left(x,y\right)

Ezért a skála és a Gauss-féle elmosódott képek különbsége a léptékek és a léptékek között . A skálázási tér szélsőértékének meghatározásához a SIFT algoritmusban a képet először különböző léptékű Gauss-elmosással konvolálják. A bélyegképeket oktávonként csoportosítjuk (egy oktáv az érték megduplázásának felel meg ), és az értéket úgy választjuk meg, hogy oktávonként fix számú bélyegképet kapjunk. Ezután kiszámítjuk a Gauss-féle különbséget a szomszédos Gauss-féle elmosódott képekhez képest egy oktávban. $k_{i}\sigma$ $k_{j}\sigma$ $k_{i}\sigma$ $k_{j}\sigma$ $\sigma$ $k_i$

Miután megkaptuk a kép Gauss-féle különbségét, a kulcspontok a kép sablonok közötti Gauss-különbségének helyi minimuma/maximumaként kerülnek meghatározásra. Ez úgy történik, hogy az egyes pixeleket összehasonlítjuk a kép Gauss-különbségével a nyolc szomszédja azonos skálán és kilenc megfelelő szomszédos pixel mindegyike szomszédos skálán. Ha a pixelérték a maximum vagy a minimum az összes összehasonlított pont között, akkor ez kerül kiválasztásra kulcspontjelöltként.

Ez a kulcspont-detektálási lépés az egyik Lindeberg-féle folt-detektálási módszer variációja, amely a Laplaci-skálára normalizált skálatér szélsőségeit találja [10] [11] . Azaz a lokális szélsőséges pontok meghatározása, figyelembe véve mind a térbeli pozíciót, mind a léptéket, diszkrét esetben, összehasonlítva a léptéktérben diszkretizált térfogatban lévő legközelebbi 26 szomszéddal. A Gauss-differencia operátor a laplaci közelítésének tekinthető, a piramis implicit normalizálásával, amely a skálanormalizált Laplacian diszkrét közelítését is tartalmazza [12] . A Laplace-operátor skálaterének szélsőségeinek keresésének egy másik valós idejű inkarnációját mutatta be Lindeberg és Bretzner, amely egy hibrid piramisábrázoláson alapul [16] , amelyet számítógép-ember interakcióhoz használtak valós idejű gesztusfelismeréshez. [17] .

A kulcspontok lokalizálása

A skálatér szélsőségeinek meghatározása túl sok jelöltet ad a kulcspontokra, amelyek közül néhány instabil. Az algoritmus következő lépése egy részletes szomszéd-illesztés végrehajtása a pontos helyhez, méretarányhoz és fő görbületi arányhoz . Ez az információ lehetővé teszi az alacsony kontrasztú (és ezért a zajra érzékeny) vagy a szélek mentén rosszul elhelyezkedő pontok elvetését.

A szomszédos adatok interpolációja a pozíciópontosság érdekében

Először is, minden egyes jelzőpont jelölt esetében közel adatinterpolációt alkalmaznak a pozíció pontos meghatározásához. A kezdeti megközelítés az volt, hogy az egyes kulcspontok helyét a kulcspontjelölt pozíciója és léptéke alapján határozták meg [2] . Az új megközelítés az extrémum interpolált helyzetét számítja ki, ami jelentősen javítja az illeszkedést és a stabilitást [3] . Az interpoláció a Gauss-féle skálatér-függvény kvadratikus Taylor - kibontásával történik úgy, hogy a kulcspontjelölt az origóban található. Ezt a Taylor-kiterjesztést a következő egyenlet adja meg: $D\left(x,y,\sigma \right)$

D({\textbf {x}})=D+{\frac {\partial D^{T}}{\partial {\textbf {x}}}}{\textbf {x}}+{\frac {1}{2}}{\textbf {x}}^{T}{\frac {\partial ^{2}D}{\partial {\textbf {x}}^{2}}}{\textbf { x}}

ahol D és deriváltja a jelölt pontban van kiszámítva, és ez az eltolás ettől a ponttól. Az extrémum helyét úgy határozzuk meg, hogy ennek a függvénynek a deriváltját a nullához viszonyítva vesszük, és egyenlővé tesszük. Ha az eltolódás bármelyik irányban nagyobb , ez azt jelzi, hogy a szélsőpont közelebb van egy másik kulcspontjelölthez. Ebben az esetben a kulcspontjelölt megváltozik, és ennek a pontnak az interpolációja történik. Ellenkező esetben egy torzítást adnak a kulcspontjelölthez, hogy interpolált becslést kapjunk a szélsőérték helyéről. A léptéktér szélsőségeinek helyének hasonló alpixel-meghatározását, amelyet Lindeberg és munkatársai fejlesztettek ki, valós időben hajtanak végre hibrid piramisok alapján [16] . ${\textbf {x}}=\left(x,y,\sigma \right)^{T}$ ${\displaystyle {\hat {\textbf {x))))$ $\textbf{x}$ ${\displaystyle {\hat {\textbf {x))))$ $0.5$

Az alacsony kontrasztú kulcspontok eltávolítása

Az alacsony kontrasztú kulcspontok elvetéséhez egy másodrendű , torzítású Taylor-kiterjesztés kerül kiszámításra . Ha ez az érték kisebb, mint , akkor a kulcspontjelölt el lesz vetve. Ellenkező esetben a rendszer egy véges léptékű térben lévő hellyel menti el , ahol a kulcspont eredeti helye. $D({\textbf {x)))$ ${\displaystyle {\hat {\textbf {x))))$ $0.03$ ${\textbf {y}}+{\hat {\textbf {x}}}$ ${\textbf {y))$

Edge hozzájárulás kizárása

A Gauss-féle differenciafüggvénynek erős értékei lesznek az élek mentén, még akkor is, ha a kulcspontjelölt nem robusztus a kis zajokhoz. Ezért a stabilitás növelése érdekében ki kell zárnia azokat a kulcspontokat, amelyek helye rosszul van meghatározva, de jelentős mértékben hozzájárulnak az élekhez.

Rosszul definiált Gauss-féle differenciafüggvény-csúcsok esetén az élen átívelő főgörbület sokkal nagyobb lesz, mint az él mentén lévő főgörbület. Ezeknek a fő görbületeknek a megtalálása megfelel a H másodrendű Hess-mátrix sajátértékeinek megtalálásának :

{\textbf {H}}={\begin{bmatrix}D_{xx}&D_{xy}\\D_{xy}&D_{yy}\end{bmatrix}}

H sajátértékei arányosak a D mátrix főgörbületeivel. Kiderült, hogy két sajátérték aránya, mondjuk a nagyobbik, a a kisebbik aránya elegendő a SIFT céljaira. . A H mátrix nyoma , azaz , a két sajátérték összegét adja, míg a determináns, azaz a szorzatot. Az arány kimutatható , ami csak a sajátértékek arányától függ, az egyedi értékektől nem. R a minimum, ha a sajátértékek egyenlőek. Így minél nagyobb a két sajátérték különbségének abszolút értéke, amely megegyezik a két főgörbület D közötti különbségének legnagyobb abszolút értékével, annál nagyobb az R értéke. Ebből következik, hogy bizonyos küszöbérték sajátérték-arány esetén, ha R mert a kulcspont jelölt nagyobb, mint , akkor a kulcspont rosszul helyezkedik el, ezért el kell dobni. Az új megközelítés [3] . $\alpha$ $\beta$ $r=\alpha /\beta$ $D_{xx}+D_{yy}$ ${\displaystyle D_{xx}D_{yy}-D_{xy}^{2))$ ${\text{R}}=\operátornév {Tr} ({\textbf {H)))^{2}/\operátornév {Det} ({\textbf {H)))$ $(r+1)^{2}/r$ $r_{\text{th))$ $(r_{\text{th}}+1)^{2}/r_{\text{th}}$ $r_{\text{th}}=10$

Ez az élválasz-elnyomási lépés a megfelelő megközelítés átadása a Harris operátornak a sarokérzékeléshez . A különbség az, hogy a küszöb mértékét a Hess-mátrixból számítjuk ki, és nem a második momentumok mátrixából .

Tájékozódási feladat

Ebben a lépésben minden kulcsponthoz egy vagy több tájolás van hozzárendelve a helyi kép színátmeneteinek iránya alapján. Ez kulcsfontosságú lépés az forgatási invariancia elérésében , mivel a kulcspont-leíró ábrázolható ehhez az orientációhoz, és ezért a kép forgatási invariánsává válik.

Először is egy Gauss-féle elmosódott kép a kulcspontokon léptékkel készül , így minden számítás léptékváltozatlan módon történik. Méretezett kép esetén a színátmenet értékét és tájolását a rendszer a pixelkülönbség alapján előre kiszámítja . $L\left(x,y,\sigma \right)$ $\sigma$ $L\left(x,y\right)$ $\sigma$ $m\left(x,y\right)$ $\theta \left(x,y\right)$

m\left(x,y\right)={\sqrt {\left(L\left(x+1,y\right)-L\left(x-1,y\right)\right)^ {2}+\left(L\left(x,y+1\right)-L\left(x,y-1\right)\right)^{2}}}

\theta \left(x,y\right)=\mathrm {atan2} \left(L\left(x,y+1\right)-L\left(x,y-1\right),L \left(x+1,y\right)-L\left(x-1,y\right)\right)

A gradiens nagyságának és irányának kiszámítása a Gauss-féle elmosódott kép kulcspontja közelében lévő minden pixelre történik. Egy irányhisztogram 36 területet tartalmaz, amelyek mindegyike 10 fokot fed le. A környező mező minden pontja hozzáadódik a hisztogram területéhez, súlyozva a gradiens nagyságával és egy Gauss-súlyozott körablakkal -val , amely a kulcspont skálájának másfélszerese. A hisztogram csúcsai a domináns irányoknak felelnek meg. A hisztogram kitöltése után a legmagasabb csúcsoknak megfelelő irányok és a legmagasabb csúcsok 80%-án belüli helyi csúcsok hozzárendelődnek a kulcsponthoz. Ha több irány van hozzárendelve, akkor minden további irányhoz egy további kulcspont jön létre, amelynek helye és léptéke megegyezik az eredeti ponttal. $\sigma$

Kulcspont leíró

Az előző lépések megkeresik a kulcspontok helyét egy adott léptékben, és hozzárendelnek egy tájolást. Ez invarianciát biztosít a pont helyére, léptékére és elforgatására. Most minden kulcsponthoz ki akarunk számítani egy leíróvektort úgy, hogy a leíró nagyon eltérő legyen, és részben invariáns más változásokhoz, például világításhoz, nézőpontokhoz és így tovább. Ezt a lépést a kulcspont léptékéhez legközelebb eső képen hajtják végre.

Mindenekelőtt irány hisztogramok készlete jön létre 4x4 szomszédos pixelen, mindegyikben 8 területtel. Ezeket a hisztogramokat a kulcspont körüli 16×16-os területen lévő elemek nagyságrendi és tájolási értékei alapján számítjuk ki, így minden hisztogram az eredeti szomszédsági régió 4×4-es alrégiójából származó elemeket tartalmaz. Az értékeket a leíró ablak szélességének felével egyenlő Gauss-függvény súlyozza tovább. A fogantyú ezután ezen hisztogramok összes értékének vektorává válik. Mivel 4×4=16 hisztogram van, mindegyik 8 régióval, a vektor 128 elemből áll. Ezt a vektort egységnyi hosszra normalizálják, hogy biztosítsák, hogy invariáns legyen a megvilágítás affin változásaival szemben. A nemlineáris megvilágítás hatásának csökkentése érdekében 0,2-es küszöbértéket alkalmazunk, és a vektort ismét normalizáljuk. A küszöbérték-eljárás még akkor is javíthatja az illesztési eredményeket, ha nincsenek nemlineáris fényhatások [18] . A 0,2-es küszöbértéket empirikusan választjuk meg, és ha egy rögzített küszöbértéket célirányosan számítottra cserélünk, az javíthatja az összehasonlítási eredményeket [18] . $\sigma$

Bár a leíró dimenzió (azaz 128) magasnak tűnik, a kisebb leírók nem teljesítenek olyan jól [3] , és a számítási költség alacsony marad, mert a közelítő BBF módszert használják a legközelebbi szomszéd megkeresésére (lásd alább). A hosszabb leírók jobb eredményeket adnának, de nem sokkal, és fennáll a veszélye, hogy megnövekszik a torzításokra és az álnevekre való érzékenység. Azt is kimutatták, hogy a jellemző illesztési pontosság 50%-nál nagyobb a nézőpont 50 fokig történő változtatása esetén. Ezért a SIFT-leírók invariánsak a kis affin változásokkal szemben. A SIFT-leírók megkülönböztethetőségének tesztelésére az egyezés pontosságát a tesztadatbázis különböző számú kulcspontjához képest is mérik, és kimutatták, hogy az egyezési pontosság csak kismértékben csökken nagy adatbázisok esetén, ami azt jelzi, hogy a SIFT-jellemzők jól megkülönböztethetők. .

A SIFT-szolgáltatások összehasonlítása más helyi jellemzőkkel

Intenzív kutatások folytak a különféle helyi leírók, köztük a SIFT [19] hatékonyságának értékelésére . A fő eredményeket az alábbiakban mutatjuk be:

A SIFT és (hasonlóan a SIFT-hez) GLOH jellemzői ( Gradient Location and Orientation Histogram ) mutatják a legmagasabb illesztési pontosságot 50 fokos affin transzformáció esetén . Ezen a határon túl a konverziós eredmények megbízhatatlanná válnak.
A deszkriptorok megkülönböztethetőségét a főkomponens módszerrel kapott deszkriptorok sajátértékeinek összegzésével mérjük a variancia által normalizált leírók esetében. Ez megfelel a különböző leíróknak megfelelő variancia mértékének, és ezáltal azok megkülönböztetésének. Jellemzők: PCA-SIFT (a SIFT-leírókra alkalmazott főkomponens-módszer), a GLOH és a SIFT adja a legmagasabb értékeket.
A SIFT-alapú leírók felülmúlják a többi modern helyi leírót mind a texturált, mind a strukturált jelenetek esetében, ugyanakkor hatékonyabbak a texturált jelenetek esetében.
A 2-2,5-szeres nagyítás és a 30 és 45 fok közötti képelforgatás esetén a SIFT és SIFT alapú leírók ismét felülmúlják a többi modern helyi leírót a texturált és strukturált jelenetek esetében.
Az elmosódás (fuzziness) minden helyi leírót érint, különösen a határokon (éleken) alapulókat, mint például az "alakkontextus" algoritmust (alakkontextus ), mivel az élek eltűnnek a határok erős elmosódása esetén. De a GLOH, a PCA-SIFT és a SIFT továbbra is jobban teljesít, mint a többi. Ez igaz a világítás változásaira is.

Az elvégzett tesztek határozottan azt sugallják, hogy a SIFT-alapú leírók a legstabilabbak és leginkább megkülönböztethetőek, ezért a leginkább ajánlottak a jellemzők egyeztetésére. A közelmúltban kifejlesztett jellemzőleírókat, például a SURF -t azonban nem vizsgálták ezekben a kísérletekben.

Kimutatták, hogy a SURF hatékonysága közel van a SIFT-hez, ugyanakkor az algoritmus sokkal gyorsabb [20] . Más tanulmányok kimutatták, hogy amikor a sebesség nem kritikus tényező, a SIFT felülmúlja a SURF-et [21] [22] . A mintavételezési hatásokat figyelmen kívül hagyva a SIFT képleíró lényegesen jobb, mint a SURF képleíró. Ugyanakkor a SURF-ben az egyszerű szinguláris pont detektor Hess-féle determinánsának skálaterében lévő szélsőérték szignifikánsan jobb szinguláris pontokból áll, mint a laplaci skálaterében lévő szélsőérték, amelyre az ún. szinguláris pont a SIFT-ben numerikus közelítést hajt végre [21] .

A SIFT-leírók képillesztési teljesítménye javítható a nagyobb teljesítmény és az alacsonyabb 1-es pontossági pontszámok elérése érdekében[ tisztázza ] ( angol 1-precision scores ) úgy, hogy az eredeti SIFT-ben a Gauss-differencia operátor skálázható térbeli szélsőértékét a méretezhető térben a Hess-determináns szélsőértékére cseréljük, vagy figyelembe vesszük az általánosított szinguláris pontok általánosabb családját. méretezhető tér [21] .

A közelmúltban a leíró kissé módosított változatát javasolták, nem egységes hisztogramrácsot használva, ami jelentősen javítja a minőséget [23] . A hisztogram régiók 4x4-es rácsának használata helyett az összes régió a tereptárgy közepe felé bővül. Ez javítja a leírók rugalmasságát a léptékváltozásokkal szemben.

A SIFT-Rank leíróról [24] kimutatták, hogy javítja a szabványos SIFT leíró teljesítményét az affin jellemzőillesztéshez. A SIFT-Rank leíró a szabványos SIFT-leíróból jön létre úgy, hogy a hisztogram minden területéhez rangot rendel a területek rendezett tömbjében. A SIFT-Rank leírók közötti euklideszi távolság invariáns a hisztogram értékeinek tetszőleges monoton változása esetén, és a Spearman-féle rangkorrelációs együtthatókhoz kapcsolódik .

Alkalmazások

Objektumfelismerés SIFT szolgáltatásokkal

Ha lehetséges egy SIFT rendszer számára, hogy különböző kulcspontokat találjon, amelyek helyükben, léptékükben és elfordulásukban változatlanok, és ellenállnak az affin transzformációknak ( léptékváltozások , elforgatás , eltolás és pozíció), valamint a megvilágítás változásai, hasznosak a tárgyfelismeréshez. Ezeket a lépéseket az alábbiakban ismertetjük

Először is, a SIFT jellemzők a bemeneti képből származnak a fent leírt algoritmus segítségével.
Ezeket a funkciókat a képzési képekből nyert adatbázis SIFT jellemzőivel párosítják. Ez a jellemzőillesztés az euklideszi legközelebbi szomszéd megközelítéssel történik. A stabilitás növelése érdekében a rendszer elveti az egyezést azoknál a kulcspontoknál, amelyeknél a legközelebbi szomszédtól való távolság és a második legközelebbi szomszéd távolságának aránya nagyobb, mint 0,8. Ez elvet sok hamis egyezést, amely a háttérben zavaró képekből ered. Végül, hogy elkerüljük az euklideszi legközelebbi szomszéd megtalálásához szükséges költséges keresést, a „best-bin-first” [14] közelítő algoritmust használjuk . Ez egy gyors módszer, amely nagy valószínűséggel visszaadja a legközelebbi szomszédot, és 1000-szeresére gyorsíthatja a keresési folyamatot, míg a legközelebbi szomszéd megtalálása az idő 95%-ában.
Bár a fent leírt távolságarány-teszt elvet sok hamis egyezést, amelyek a háttérben zavaró képekből adódnak, maradnak olyan egyezések, amelyek más objektumokhoz tartoznak. Ezért az objektum azonosítás megbízhatóságának növelése érdekében szeretnénk az azonos objektumhoz tartozó jellemzőket klaszterezni, és a klaszterezési folyamat után megmaradt egyezéseket elvetni. Ez a Hough transzformációval történik . Azonosítja azokat a jellemzőcsoportokat, amelyek valamilyen objektumpozícióra szavaznak. Ha az objektum valamely pozíciójára szavazattal rendelkező jellemzők klasztereit találjuk, a helyes értelmezés valószínűsége sokkal nagyobb lesz, mint egyetlen jellemző esetében. Minden kulcspont egy sor jellemző pozícióra szavaz, ha azok összhangban vannak a kulcspont helyével, léptékével és tájolásával. Azok a területek , amelyek legalább 3 szavazatot gyűjtenek, jelöltnek minősülnek az objektum/pozíció egyeztetésre.
Minden egyes klaszterjelölt esetében egy legkisebb négyzetes megoldást kapunk a legjobb affin vetületi becslésekhez, amelyek a képzési képeket és a bemeneti képhez kapcsolják. Ha a kulcspont vetülete ezeken a paramétereken keresztül a Hough-transzformációs régiók paramétereihez használt hibaintervallum felén belül van, akkor a kulcspont-megfelelés megmarad. Ha kevesebb, mint 3 pont marad a régiók kiugró értékeinek elvetése után, az objektum egyezése elutasításra kerül. A legkisebb négyzetes illesztés mindaddig ismétlődik, amíg valamit el lehet dobni. Ez jobban működik a lapos objektumok felismeréséhez, de nem a 3D objektumok felismeréséhez, mivel az affin modell megbízhatatlanná válik a 3D objektumok esetében.
Sirmachek és Unsalan [25] tanulmánya új megközelítést javasol a SIFT leírók használatára több objektum kiosztására. A javasolt többobjektum-észlelési megközelítést légi és műholdfelvételeken tesztelték.

A SIFT-funkciók elvileg minden olyan problémára alkalmazhatók, ahol képillesztésre van szükség. Olyan alkalmazásokon lehet dolgozni, mint például objektumok meghatározott kategóriáinak felismerése 2D képeken, 3D objektumok rekonstrukciója, mozgáskövetés és szegmentálás, robot helymeghatározása, panorámakép összefűzése és epipoláris kalibrálás . Ezen alkalmazások közül néhányat az alábbiakban részletesebben tárgyalunk.

A robot helye és a térkép

Ez az alkalmazás [26] sztereó trinokuláris rendszert használ egy jelzőpont 3D-s helyzetének becslésére. A kulcspontok csak akkor használatosak, ha mind a 3 képen következetes eltérésekkel jelennek meg, ami nagyon ritka kiesést eredményez. Ahogy a robot mozog, a meglévő 3D-s térképhez fűződő jellemzőkapcsolatok segítségével határozza meg a helyét, majd fokozatosan hozzáadja a tereptárgyakat a térképhez, miközben egy Kalman-szűrő segítségével frissíti a 3D-s pozíciót. Ez megbízható és pontos megoldást nyújt a robotok ismeretlen környezetben való megtalálásának problémájára.

Panoráma varrás

A SIFT funkcióillesztés használható képösszefűzéshez a nem panorámás képkockákból teljesen automatizált panorámakészítéshez . A bemeneti képekből kinyert SIFT jellemzők egymáshoz illeszkednek, hogy minden egyes képben k legközelebbi szomszédot találjanak. Ezek az egyezések azután az egyes képekhez m képegyeztető jelöltet keresnek. A képpárok közötti homográfiákat ezután a RANSAC ( Véletlen mintakonszenzus ) segítségével számítják ki, és egy valószínűségi modellt használnak az ellenőrzéshez . Mivel a bemeneti képekre nincs korlátozás, a rendszer grafikon keresést alkalmaz a csatlakoztatott képillesztő összetevőkre, így minden csatlakoztatott összetevő egy panorámaképhez fog illeszkedni. Végül minden csatlakoztatott komponensnél blokkbeállítás történik a kamera paramétereinek megoldása érdekében, és a panoráma feldolgozása többsávos keveréssel történik . A panorámafűzés tárgyfelismerésének SIFT által ihletett megközelítése miatt az eredményül kapott rendszer érzéketlen a képek sorrendjére, tájolására, léptékére és megvilágítására. A bemeneti képek több panorámát és képzajt is tartalmazhatnak (amelyek némelyike nem is része az összetett képnek) [27] .

3D jelenetmodellezés, felismerés és nyomkövetés

Ez az alkalmazás SIFT-funkciókat használ a 3D-s objektumfelismeréshez és a 3D-s modellezéshez kiterjesztett valóság kontextusában , amelyben a létrehozott mesterséges objektumok pontos pózban valós képekre kerülnek. A SIFT egyezést egy jelenet vagy objektum különböző szögekből készített több 2D-s képéhez határozzák meg. Ezt a blokkkorrekcióval használják a szóban forgó jelenet ritka 3D-s modelljének elkészítéséhez, és ezzel egyidejűleg visszaállítják a kamera pozícióit és a kalibrációs paramétereket. Ezután meghatározzuk a virtuális objektum pozícióját, tájolását és méretét a vizsgált modell keretkoordinátáihoz képest. Az online helyzetkövetés esetén a SIFT-funkciók az aktuális videokockából kerülnek kinyerésre, és a már kiszámított jellemzőkkel párosulnak, ami 2D-3D egyezéseket eredményez. Ezek az egyezések azután a kamera aktuális pozíciójának kiszámítására szolgálnak a virtuális vetítéshez és a végső feldolgozáshoz. A virtualizációs vetítésben a jitter csökkentésére a legalizálási technikát alkalmazzák [28] . A SIFT 3D kiterjesztéseket valós 3D objektumok felismerésére és kiemelésére is megvalósították [29] [30] .

3D SIFT-szerű leírók az emberi cselekvések felismeréséhez

A SIFT-leíró kiterjesztését a 2+1 dimenziós tér-időbeli adatokra az emberi cselekvések videóban való felismerésének kontextusában tanulmányozták [29] [31] [32] [33] . A lokális pozíciófüggő hisztogramok létrehozása a 2D SIFT algoritmusban 2D-ről 3D-re bővül, hogy leírja a tér-idő tartomány SIFT jellemzőit. Az emberi cselekvések videóban történő felismerésére való alkalmazáshoz az oktatóvideókat vagy meghatározott térbeli és időbeli pontokból, vagy véletlenszerű helyen, időben és léptékben készítik el. Az ezen szinguláris pontok körüli tér-idő régiókat ezután egy 3D SIFT leíró segítségével írjuk le. Ezeket a leírókat azután összeállítják egy " zsáknyi szavak " térbeli és időbeli modellben . A tesztklipekből kinyert 3D SIFT-leírók ezekhez a szavakhoz illeszkednek az emberi cselekvések osztályozása érdekében.

A szerzők azt állítják, hogy 3D SIFT leírójuk lényegesen jobban teljesít, mint más megközelítések, például az egyszerű 2D SIFT leírók és a gradiensérték [34] .

Az emberi agy elemzése 3D mágneses rezonancia képalkotásban

A jellemző- alapú morfometria ( FBM) technika [35] [35] a Gauss-féle skálázási elemzésére és osztályozásáraMRI(képeinekmágneses rezonanciatér Az FBM egy képet valószínûséggel modellez a képgeometria és a címkecsoportok által meghatározott független jellemzõk kollázsaként, például egészséges tárgyak és az Alzheimer-kórnak megfelelõ tárgyak. A jellemzőket először a 4D Gauss-féle skálázási térkülönbségből különálló képekké vonják ki, majd megjelenésük, geometriájuk és egyidejű előfordulási statisztikáik alapján modellezik egy csoportban, több képen. Az FBM-t az Alzheimer-kór elemzésében validálták az emberi agy ~200 volumetrikus képalkotó (MRI) sorozatával, amely automatikusan észleli az Alzheimer-kór megállapított mutatóit az agyban, és 80%-os aránnyal osztályozza a nem akut betegségeket új képeken . 35] .

Versengő módszerek

A zaj és részleges átfedés esetén a léptékváltozatlan objektumfelismerés versengő módszerei a következők.

RIFT [36] : A SIFT rotáció - invariáns általánosítása . A RIFT-leírót körkörös normalizált szeletekből állítják össze, amelyeket egyenlő szélességű koncentrikus gyűrűkre osztanak, és mindegyik gyűrűn belül kiszámítják a gradiens irányának hisztogramját. A forgási invariancia eléréséhez minden pontban megmérjük az orientációt a középponttól induló irányhoz képest.

G-RIF [37] : Generalized Robust Invariant Feature egy általános kontextus leíró, amely egyetlen kulcsban kódolja az élek tájolását, az élsűrűséget és a színinformációkat, kombinálva az észlelési információkat a térbeli kódolással. Az objektumfelismerési séma a szomszédsági környezetet használja az objektummodellek szavazáson alapuló értékelésére.

"SURF" [38] : A Speeded Up Robust funkciók nagy teljesítményű skála- és forgásinvariáns detektorok/leírók, amelyek állítólag megközelítik vagy meg is haladják a korábban javasolt sémákat reprodukálhatóság, tisztaság és megbízhatóság tekintetében. A SURF teljes konvolúciós képekre támaszkodik a számítási idő csökkentése érdekében, és a vezető meglévő detektorok és leírók erősségén alapul (a detektorok Hess- mátrixán és a valószínűségi eloszláson alapuló leírókon alapuló gyors mérést használva). Leírja a Haar wavelet válaszok eloszlását a szinguláris pont szomszédai között. A teljes képeket a rendszer a gyorsításhoz használja, és csak a 64 dimenziós jellemzővektorokat a számítási és egyeztetési idő csökkentésére. Az indexelési lépés a laplaci előjelen alapul , ami növeli az illesztés sebességét és a leíró robusztusságát.

A PCA-SIFT [39] és a GLOH [19] a SIFT változatai. A PCA-SIFT leíró a támogatott területen kiszámított x és y irányú képátmenetek vektora. A gradiens terület 39×39 helyre van felosztva, így a vektor mérete 3042. A dimenziót a főkomponensek módszerével 36- ra csökkentjük . A hely-orientációs gradiens hisztogram ( GLOH ) a SIFT-leíró kiterjesztése, amelyet a robusztusságának és megkülönböztethetőségének növelésére fejlesztettek ki. A SIFT-leírót egy olyan pozíciórács logaritmikus polárkoordinátáiban számítják ki , amelynek sugárirányában három régiója van (6, 11 és 15-re beállított sugár), szögirányban pedig 8, ami 17 régiót eredményez. A központi terület nincs szögirányokra osztva. A gradiens irányait 16 régióra kvantáltuk, ami egy 272 régiót tartalmazó hisztogramot eredményez. Ennek a leírónak a méretét a főkomponens módszer csökkenti . A főkomponens - módszer kovarianciamátrixát különböző képekről gyűjtött darabokon értékelik ki. A leíráshoz a 128 legnagyobb sajátvektort használjuk.

A Gauss-SIFT [21] egy tiszta képleíró, amelyet úgy határoznak meg, hogy az alapul szolgáló SIFT-leíró összes képét egy Gauss-származékkal mérik, ahelyett, hogy egy képpiramisban közelítenék meg a deriváltot, ahogy az a szabványos SIFT-ben történik. Ezzel a megközelítéssel a tér- és skála-diszkretizálás hatása minimálisra csökkenthető, ami potenciálisan pontosabb képleírókat eredményezhet. Lindeberg [21] kombinálta az ilyen Gauss-SIFT képleírókat általánosított szinguláris pontskálaterekkel, beleértve a Gauss-laplaciát, a Hess-determinánst, az előjel nélküli és előjeles Hess-féle négy új jellemző mértékét, valamint a Harris-Laplace-t és a Sheát. -Thomas egyes pontok. A 12 óriásplakát több transzformációját tartalmazó óriásplakát adatbázison végzett intenzív kísérleti futtatás során a zoom 6x-ig és a látóirány 45 fokos szögig, kimutatták, hogy a képfeldolgozás hatékonyságának jelentős növekedése (nagyobb hatásfok) pontszámok és alacsonyabb pontszámok 1 -pontosság) úgy érhetők el, hogy a szinguláris pontok Gauss-féle laplaciáját a szinguláris pontok Hess-féle determinánsával helyettesítjük. Mivel a szinguláris pont Gauss-különbsége a szinguláris Gauss-pont laplaciának numerikus közelítését feltételezi, ez azt mutatja, hogy jelentősen növelhető az illesztési teljesítmény, ha a SIFT szinguláris pont Hess-különbségét a szinguláris pont Hess-determinánsával helyettesítjük. További teljesítménynövekedés érhető el, ha figyelembe vesz egy előjel nélküli hesseni jellemző erősségi mértékét vagy 0-t. A Gauss-SIFT leíró és a megfelelő Gauss-SURF leíró közötti numerikus összehasonlítás azt is megmutatta, hogy a Gauss-SIFT általában lényegesen jobban teljesít, mint a Gauss-SURF számos különböző szinguláris pont skálatér detektor esetén. A tanulmány tehát azt mutatja, hogy a SIFT képleíró diszkretizációs hatás csökkentése szignifikánsan jobb, mint a SURF képleíróé, azonban a SURF-ben a jellemzőpont detektor, amely a Hess-determináns skálaterében a szélsőség numerikus közelítésének tekinthető, lényegesen jobb. mint a SIFT jellemzőpont-detektora. $D_{1}L=\operátornév {det} HL-k\,\operátornév {nyom} ^{2}HL\,{\mbox{if}}\operátornév {det} HL-k\,\operátornév {trace} ^{2}HL>0$

Wagner és munkatársai két tárgyfelismerő algoritmust fejlesztettek ki, amelyeket kifejezetten a meglévő mobiltelefonok korlátaihoz igazítottak [40] . A klasszikus megközelítéssel ellentétben a SIFT Wagner és munkatársai az FAST sarokdetektáló algoritmust használják a jellemzők észlelésére. Az algoritmus tartalmaz egy offline előkészítési fázist is, ahol a funkciók különböző nagyítási szinteken jönnek létre, valamint egy online fázist, ahol a funkciók csak a telefon kamerájának rögzített zoomszintjéhez jönnek létre. Ezenkívül a funkciók csak rögzített, 15 × 15 pixeles területekből jönnek létre, és csak egy 36 dimenziós SIFT-leíró jön létre. A megközelítést tovább bővítették a Scalable Vocabulary Tree -vel való integrációval [41 ] . Ez lehetővé teszi nagyszámú objektum hatékony felismerését a mobiltelefonnal. A megközelítést elsősorban a rendelkezésre álló RAM mennyisége korlátozza .

A KAZE és az A-KAZE (KAZE funkciók és Kaze Boosted Features) egy új 2D-s jellemzők észlelési és jellemzési módszere, amely jobban teljesít, mint a SIFT és a SURF. Széles népszerűségre tett szert, mivel szabadon terjesztik és nyílt forráskódokkal rendelkezik. Az algoritmus szintén nem szabadalmaztatott. A KAZE-t Pablo F. Alcantarilla, Adrien Bartoli és Andrew J. Davison hozta létre [42] .

Lásd még

Konvolúciós Neurális Hálózat
Kép összefűzése
Zoom space
SLAM
Képkészlet szerinti szerkezet

Jegyzetek

↑ 12 U.S. _ 6 711 293 számú szabadalom , "Módszer és berendezés a kép méretarányos invariáns jellemzőinek azonosítására és ezek felhasználása egy objektum helyének meghatározására a képen", David Low szabadalma a SIFT algoritmusra, 2004. március 23.
↑ 1 2 3 4 Lowe, 1999 , p. 1150–1157.
↑ 1 2 3 4 5 6 Lowe, 2004 , p. 91–110.
↑ Koenderink, van Doorn, 1987 , p. 383-396.
↑ Koenderink, van Doorn, 1992 , p. 597-605.
↑ Lindeberg:BICY, 2013 , p. 589-635.
↑ Lindeberg:AdvImg, 2013 , p. 1-96.
↑ Lindeberg: PLOS ONE, 2013 .
↑ Lindeberg 12. , 2014 , p. 701-713.
↑ 12 Lindeberg , 1994 .
↑ 1 2 Lindeberg, 1998 , p. 79–116.
↑ 12. Lindeberg , 2012 , p. 10491.
↑ Serre, Kouh, Cadieu, Knoblich, Kreiman, Poggio, 2005 .
↑ 1 2 Beis, Lowe, 1997 , p. 1000–1006.
↑ Lowe, 2001 , p. 682-688.
↑ 1 2 Lindeberg, Bretzner, 2003 , p. 148–163.
↑ Bretzner, Laptev, Lindeberg, 2002 , p. 423-428.
↑ Kirchner 12 , 2016 , p. 291-295.
↑ 1 2 Mikolajczyk, Schmid, 2005 , p. 1615–1630
↑ TU-chemnitz.de (lefelé irányuló kapcsolat) . Letöltve: 2018. november 12. Az eredetiből archiválva : 2011. május 22. (határozatlan)
↑ 1 2 3 4 5 Lindeberg, 2015 , p. 3-36.
↑ Oyallon, Rabin, 2015 .
↑ Cui, Hasler, Thormaehlen, Seidel, 2009 .
↑ Toews, Wells III, 2009 , p. 172–177.
↑ Sirmacek, Unsalan, 2009 , p. 1156–1167.
↑ Se, Lowe, Little, 2001 , p. 2051.
↑ Brown, Lowe, 2003 , p. 1218–1225.
↑ Gordon, Lowe, 2006 , p. 67-82.
↑ 1 2 Flitton, Breckon, 2010 , p. 11,1–12.
↑ Flitton, Breckon, Megherbi, 2013 .
↑ Laptev, Lindeberg, 2004 , p. 91–103.
↑ Laptev, Caputo, Schuldt, Lindeberg, 2007 , p. 207–229.
↑ Scovanner, Ali, Shah, 2007 , p. 357–360.
↑ Niebles, Wang, Li, 2006 , p. 1156–1167.
↑ 1 2 3 Toews, Wells III, Collins, Arbel, 2010 , p. 2318–2327.
↑ Lazebnik, Schmid, Ponce, 2004 .
↑ Kim, Yoon, Kweon, 2006 .
↑ Bay, Tuytelaars, van Gool, 2006 .
↑ Ke, Sukthankar, 2004 .
↑ Wagner, Reitmayr, Mulloni, Drummond, Schmalstieg, 2008 .
↑ Henze, Schinke, Boll, 2009 .
↑ KAZE funkciók . Letöltve: 2018. november 12. Az eredetiből archiválva : 2018. november 3.. (határozatlan)

Irodalom

David G. Lowe. Objektumfelismerés helyi léptékben invariáns jellemzőkből // Proceedings of the International Conference on Computer Vision . - 1999. - T. 2. - S. 1150-1157. - doi : 10.1109/ICCV.1999.790410 .
David G. Lowe. Megkülönböztető képjellemzők a skálainvariáns kulcspontokból // International Journal of Computer Vision. - 2004. - T. 60 , sz. 2 . - S. 91-110 . - doi : 10.1023/B:VISI.0000029664.99615.94 .
Serre T., Kouh M., Cadieu C., Knoblich U., Kreiman G., Poggio T. A Theory of Object Recognition: Computations and Circuits in the Feedforward Path of the Ventral Stream in Primate Visual Cortex // Számítástechnika és mesterséges Intelligence Laboratory Technical Report, 2005. december 19. - MIT-CSAIL-TR-2005-082, 2005.
Beis J., David G. Lowe. Alakzatindexelés hozzávetőleges legközelebbi szomszéd kereséssel nagy dimenziós terekben // Konferencia a számítógépes látásról és mintafelismerésről, Puerto Rico: sn . - 1997. - S. 1000-1006. - doi : 10.1109/CVPR.1997.609451 .
David G. Lowe. Helyi jellemzőnézet-fürtözés a 3D objektumfelismeréshez // IEEE Conference on Computer Vision and Pattern Recognition. - Kauai, Hawaii, 2001. - S. 682-688.
Lazebnik S., Schmid C., Ponce J. Semi-Local Affine Parts for Object Recognition // Proceedings of the British Machine Vision Conference . – 2004.
Sungho Kim, Kuk-Jin Yoon, In So Kweon. Objektumfelismerés általánosított robusztus invariáns jellemzővel és a közelség és hasonlóság Gestalt-törvényével // Konferencia a számítógépes látásról és mintafelismerésről (CVPRW'06). – 2006.
Bay H., Tuytelaars T., van Gool L. SURF: Speeded Up Robust Features // Proceedings of the 9th European Conference on Computer Vision . – 2006.
Ke Y., Sukthankar R. PCA-SIFT: A helyi képleírók megkülönböztetőbb ábrázolása // Computer Vision and Pattern Recognition . – 2004.
Mikolajczyk K., Schmid C. A helyi leírók teljesítményértékelése // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2005. - T. 27 , sz. 10 . - S. 1615-1630 . - doi : 10.1109/TPAMI.2005.188 . — PMID 16237996 .
Wagner D., Reitmayr G., Mulloni A., Drummond T., Schmalstieg D. Pose tracking from natural features on mobile phones // Proceedings of the International Symposium on Mixed and Augmented Reality . — 2008. Archiválva : 2009. június 12. a Wayback Machine -nál
Henze N., Schinke T., Boll S. Mi ez? Tárgyfelismerés természetes tulajdonságokból mobiltelefonon // A valós világgal való mobil interakcióról szóló műhelymunka anyaga . – 2009.
Tony Lindeberg. Funkcióészlelés automatikus léptékválasztással // International Journal of Computer Vision. - 1998. - T. 30 , sz. 2 . - S. 79-116 . - doi : 10.1023/A:1008045108935 .
Tony Lindeberg. Skála invariáns jellemző transzformáció // Scholarpedia. - 2012. - 7. évf . 5 . - S. 10491 . doi : 10.4249 /scholarpedia.10491 .
Tony Lindeberg, Lars Bretzner. Valós idejű skálaválasztás hibrid többléptékű reprezentációkban // Proc. Scale-Space'03, Springer számítástechnikai előadásjegyzetek. - 2003. - T. 2695 . - S. 148-163 . - ISBN 978-3-540-40368-5 . - doi : 10.1007/3-540-44935-3_11 .
Edouard Oyallon, Julien Rabin. A SURF-módszer elemzése és megvalósítása, valamint összehasonlítása a SIFT -vel // Képfeldolgozás on-line. — 2015.
Cui Y., Hasler N., Thormaehlen T., Seidel H.-P. Scale Invariant Feature Transform with Irregular Orientation Histogram Binning // A képelemzés és -felismerés nemzetközi konferenciájának (ICIAR 2009) anyaga . — Halifax, Kanada: Springer, 2009. Archiválva : 2010. szeptember 23. a Wayback Machine -nél
Matthew Toews, William M. Wells III. SIFT-Rank: Ordinal Descriptors for Invariant Feature Correspondence // IEEE International Conference on Computer Vision and Pattern Recognition . - 2009. - S. 172-177. - doi : 10.1109/CVPR.2009.5206849 .
Látásalapú mobil robotok lokalizálása és térképezése léptékváltozatlan funkciókkal // Az IEEE Nemzetközi Robottechnikai és Automatizálási Konferenciájának (ICRA) anyaga . - 2001. - T. 2. - S. 2051. - doi : 10.1109/ROBOT.2001.932909 .
Brown M., David G. Lowe. Panorámák felismerése // A számítógépes látásról szóló kilencedik IEEE nemzetközi konferencia anyaga . - 2003. - T. 2. - S. 1218-1225. - doi : 10.1109/ICCV.2003.1238630 .
Iryna Gordon, David G. Lowe. Mit és hol: 3D objektumfelismerés pontos pózzal // Kategóriaszintű objektumfelismerés felé . — Springer-Verlag, 2006.
Ivan Laptev, Tony Lindeberg. Helyi leírók a tér-időbeli felismeréshez // ECCV'04 Workshop on Spatial Coherence for Visual Motion Analysis, Springer Lecture Notes in Computer Science, 3667. kötet . - 2004. - S. 91-103. - doi : 10.1007/11676959_8 .
Ivan Laptev, Barbara Caputo, Christian Schuldt, Tony Lindeberg. Helyi sebességhez igazított mozgásesemények a térbeli-időbeli felismeréshez // Computer Vision and Image Understanding. - 2007. - T. 108 , sz. 3 . - S. 207-229 . - doi : 10.1016/j.cviu.2006.11.023 .
Paul Scovanner, Ali S., Shah M. A 3-dimenziós szita leíró és alkalmazása a cselekvés felismerésére // Proceedings of the 15th International Conference on Multimedia. - 2007. - S. 357-360. - doi : 10.1145/1291233.1291311 .
Flitton G., Breckon T. Objektumfelismerés 3D SIFT segítségével komplex CT-kötetekben // Proceedings of the British Machine Vision Conference . - 2010. - S. 11.1-12. - doi : 10.5244/C.24.11 .

Niebles JC, Wang H., Fei-Fei Li. Az emberi cselekvési kategóriák felügyelet nélküli tanulása térbeli-időbeli szavak használatával // A British Machine Vision Conference (BMVC) kiadványa . — Edinburgh, 2006. Archiválva : 2008. július 5. a Wayback Machine -nél
Beril Sirmacek, Cem Unsalan. Városi területek és épületek észlelése SIFT kulcspontok és gráfelmélet segítségével // IEEE Transactions on Geoscience and Remote Sensing. - 2009. - T. 47 , sz. 4 . - S. 1156-1167 . - doi : 10.1109/TGRS.2008.2008440 .

Matthew Toews, William M. Wells III, D. Louis Collins, Tal Arbel. Feature-based Morphometry: Discovering Group-related Anatómiai Patterns // NeuroImage. - 2010. - T. 49 , sz. 3 . - S. 2318-2327 . - doi : 10.1016/j.neuroimage.2009.10.032 . — PMID 19853047 .
Lindeberg T. Skála-térelmélet a számítógépes látásban . - Kluwer Academic Publishers, 1994. - ISBN 0-7923-9418-6 .
Jan Koenderink, Ans van Doorn. A lokális geometria ábrázolása a vizuális rendszerben // Biological Cybernetics. - 1987. - T. 3 . - S. 383-396 .
Jan Koenderink, Ans van Doorn. Általános szomszédsági operátorok // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1992. - T. 14. - S. 597-605.
Lindeberg T. Skála kiválasztása // Computer Vision: A Reference Guide / Ikeuchi K.. - Springer, 2014. - P. 701-713.
Lindeberg T. Vizuális műveletek változatlansága receptív mezők szintjén (angol) // PLOS One . - Tudományos Nyilvános Könyvtár , 2013. - 20. évf. 8 , iss. (7):e66990 .
Lindeberg T. A vizuális receptív mezők számítási elmélete // Biological Cybernetics. - 2013. - T. 107 , sz. 6 . - S. 589-635 .
Lindeberg T. Általánosított axiomatikus skála-tér elmélet // Advances in Imaging and Electron Physics. - 2013. - T. 178 . - S. 1-96 .
Flitton GT, Breckon TP, Megherbi N. A 3D-s kamatpont-leírók összehasonlítása a repülőtéri poggyászobjektum-észlelés alkalmazásával komplex CT-képekben // Mintafelismerés. - Elsevier, 2013. - doi : 10.1016/j.patcog.2013.02.008 .
Matthew Toews, William M. Wells III, D. Louis Collins, Tal Arbel. Feature-based Morphometry: Discovering Group-related Anatómiai Patterns // NeuroImage. - 2010. - T. 49 , sz. 3 . - S. 2318-2327 . - doi : 10.1016/j.neuroimage.2009.10.032 . — PMID 19853047 .
Lindeberg T. Image matching using generalized scale-space interest point // Journal of Mathematical Imaging and Vision. - 2015. - T. 52 . - S. 3-36 .
Matthew R. Kirchner. Automatic thresholding of SIFT descriptors // Képfeldolgozás (ICIP), 2016 IEEE International Conference on. - IEEE, 2016. - S. 291-295.
Lars Bretzner, Ivan Laptev, Tony Lindeberg. Kézmozdulat-felismerés többléptékű színfunkciók, hierarchikus modellek és részecskeszűrés segítségével // Proceedings of the Fifth IEEE International Conference on Automatic Face and Gesture Recognition . - Washington, DC, USA, 2002. - S. 423-428. - ISBN 0-7695-1602-5 . - doi : 10.1109/AFGR.2002.1004190 .

Linkek

Scale-Invariant Feature Transform (SIFT) a Scholarpedia-ban
A SIFT implementációja Rob Hess által elérve 2012. november 21-én
The Invariant Relations of 3D to 2D Projection of Point Sets, Journal of Pattern Recognition Research (JPRR) Archiválva : 2008. szeptember 8., a Wayback Machine , Vol. 3, 2008. 1. szám.
Lowe, DG, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, 60, 2, pp. 91-110, 2004.
Mikolajczyk, K. és Schmid, C., "A helyi leírók teljesítményértékelése", IEEE Transactions on Pattern Analysis and Machine Intelligence, 10, 27, 1615-1630, 2005.
PCA-SIFT: A helyi képleírók megkülönböztetőbb ábrázolása
Lazebnik, S., Schmid, C. és Ponce, J., Semi-Local Affine Parts for Object Recognition, BMVC, 2004.
ASIFT (Affine SIFT) : nagy nézőpont egyeztetés SIFT-vel, forráskóddal és online bemutatóval
VLFeat , egy nyílt forráskódú számítógépes képkönyvtár C nyelven (MEX interfésszel a MATLAB-hoz), beleértve a SIFT megvalósítást
LIP-VIREO , Eszközkészlet kulcspont funkciók kivonásához (binárisok Windows, Linux és SunOS rendszerhez), beleértve a SIFT megvalósítást
(Párhuzamos) SIFT C# -ban, SIFT-algoritmus C#-ban Emgu CV-vel, valamint az algoritmus módosított párhuzamos változata.
DoH & LoG + affine , SIFT eszköztárból adaptált foltdetektor
Egy egyszerű lépésről lépésre útmutató a SIFT-hez
SIFT több objektum észleléséhez
„ A SIFT-módszer anatómiája” az Image Processing On Line-ban, az algoritmus minden lépésének részletes tanulmányozása nyílt forráskódú implementációval és webes bemutatóval a különböző paraméterek kipróbálásához
ezSIFT: egy könnyen használható, önálló SIFT implementáció C/C++ nyelven . Önálló, nyílt forráskódú SIFT-megvalósítás, amely nem igényel más könyvtárakat.
3D SIFT megvalósítás: észlelés és illesztés volumetrikus képeken.