A számítógépes látás (más néven technikai látás ) egy elmélet és technológia olyan gépek létrehozására, amelyek képesek észlelni, nyomon követni és osztályozni az objektumokat.
Tudományos tudományágként a számítógépes látás a képekből információt nyerő mesterséges rendszerek létrehozásának elméletére és technológiájára utal. A videoadatok sokféle formában lehetnek, például videósorozatok, különféle kamerákból származó képek vagy 3D adatok, például Kinect -eszközből vagy orvosi szkennerből.
A számítógépes látás technológiai tudományágként a számítógépes látáselméletek és -modellek alkalmazására törekszik a számítógépes látásrendszerek felépítésében . Példák az ilyen rendszerek használatára:
A számítógépes látás a biológiai látás kiegészítéseként is leírható (de nem feltétlenül az ellenkezője). A biológiában az emberek és a különféle állatok vizuális észlelését tanulmányozzák, aminek eredményeként az ilyen rendszerek működésének modelljei jönnek létre a fiziológiai folyamatok szempontjából. A számítógépes látás ezzel szemben a hardverben vagy szoftverben megvalósított számítógépes látásrendszereket tanulmányozza és írja le. A biológiai és a számítógépes látás közötti interdiszciplináris csere mindkét tudományterületen nagyon eredményesnek bizonyult.
A számítógépes látás alszakaszai közé tartozik a műveletek visszajátszása, az eseményészlelés, a követés, a mintafelismerés, a kép-helyreállítás és még néhány más.
A számítógépes látás területe fiatalnak, változatosnak és dinamikusan fejlődőnek mondható. És bár vannak korábbi munkák, elmondható, hogy csak az 1970-es évek végén kezdõdött a probléma intenzív vizsgálata, amikor a számítógépek képesek voltak nagy adathalmazok, például képek feldolgozását irányítani. Ezek a vizsgálatok azonban általában más területeken kezdődtek, és ezért nincs szabványos megfogalmazás a számítógépes látás problémájára. Ezenkívül, és ami még fontosabb, nincs szabványos megfogalmazás a számítógépes látásproblémák megoldására. Ehelyett számos módszer létezik a különféle jól körülhatárolható számítógépes látásproblémák megoldására, ahol a módszerek gyakran problémaspecifikusak, és ritkán általánosíthatók széles körű alkalmazásokra. Sok módszer és alkalmazás még alapkutatás alatt áll, de egyre több módszert alkalmaznak kereskedelmi termékekben, ahol gyakran egy nagyobb rendszer részét képezik, amely képes megoldani összetett problémákat (például az orvosi képalkotásban vagy a mérésben és minőségben). ellenőrzés a gyártási folyamatokban). A számítógépes látás gyakorlati alkalmazásában a számítógépek előre programozva vannak meghatározott feladatok elvégzésére, de a tudásalapú módszerek egyre általánosabbak.
A mesterséges intelligencia területén fontos szerepet játszik az automatikus tervezés vagy döntéshozatal olyan rendszerekben, amelyek képesek mechanikus műveleteket végrehajtani, például robotot mozgatni valamilyen környezetben. Ez a fajta feldolgozás jellemzően olyan számítógépes látórendszereket igényel, amelyek videoérzékelőként működnek, és magas szintű információkat szolgáltatnak a környezetről és a robotról. Más területek, amelyeket néha a mesterséges intelligenciához tartozónak neveznek, és amelyeket a számítógépes látással kapcsolatban használnak, a mintafelismerés és a tanulási módszerek. Ennek eredményeként a számítógépes látást néha a mesterséges intelligencia vagy általában a számítástechnika területének részének tekintik.
A számítógépes látással kapcsolatos másik terület a jelfeldolgozás . Az egydimenziós jelek, általában az időbeli jelek feldolgozására szolgáló számos módszer természetesen kiterjeszthető kétdimenziós vagy többdimenziós jelek feldolgozására a számítógépes látásban. A képek sajátos természete miatt azonban a számítógépes látás területén számos olyan módszert fejlesztettek ki, amelyeknek nincs analógja az egydimenziós jelfeldolgozás területén. Ezen módszerek különleges tulajdonsága a nemlinearitás, ami a jel többdimenziósságával együtt a jelfeldolgozásban a megfelelő részmezőt a számítógépes látómező részévé teszi.
A számítógépes látás problémájának említett megközelítésein kívül számos vizsgált kérdés tisztán matematikai szempontból is vizsgálható. Sok módszer például statisztikákon , optimalizálási módszereken vagy geometrián alapul . Végezetül, sok munka folyik a számítógépes látás gyakorlati alkalmazásai terén – hogyan lehet a meglévő módszereket szoftverben és hardverben implementálni, illetve hogyan lehet azokat módosítani a nagy sebesség elérése érdekében az elhasznált erőforrások jelentős növekedése nélkül.
A számítógépes látás , a képfeldolgozás és a gépi látás szorosan összefüggő területek. De még mindig nem határozták meg pontosan, hogy egy, szélesebb szakasz szakaszai-e. A részletes elemzés során úgy tűnhet, hogy ezek csak ugyanazon terület különböző nevei. A félreértések elkerülése érdekében szokás megkülönböztetni őket egy adott tanulmányi tárgyra összpontosító területként. Az alábbiakban a legfontosabbak leírása található:
A képfeldolgozás vagy képelemzés főként a kétdimenziós képekkel való munkavégzésre irányul, vagyis arra, hogyan alakítsunk át egy képet a másikba. Például pixelenkénti kontrasztjavító műveletek, éljavító műveletek, zajtalanító műveletek vagy geometriai átalakítások, például affin transzformációk . Ezek a műveletek azt feltételezik, hogy a képfeldolgozás/elemzés a képek tartalmától függetlenül működik.
A számítógépes látás az egy vagy több képre vetített 3D jelenetek feldolgozására összpontosít. Például egy háromdimenziós jelenet szerkezetének vagy egyéb információinak visszaállítása egy vagy több képből. A számítógépes látás gyakran többé-kevésbé összetett feltételezéseken múlik a képeken ábrázolt dolgokkal kapcsolatban.
A gépi látás elsősorban az ipari alkalmazásokra összpontosít, mint például az autonóm robotokra, valamint a vizuális ellenőrző és mérőrendszerekre. Ez azt jelenti, hogy a képérzékelő technológiák és a vezérléselmélet a videoadatok feldolgozásához kapcsolódnak a robot irányítása érdekében, és a valós idejű adatfeldolgozás hardverben vagy szoftverben történik.
Van még egy Vizualizáció nevű terület , amely eredetileg a képek készítésének folyamatához kapcsolódott, de olykor feldolgozással, elemzéssel is foglalkozott. Például a radiográfia az orvosi alkalmazások videóadatainak elemzésével működik.
Végül a mintafelismerés egy olyan terület, amely különféle módszereket használ a videó adatokból való információ kinyerésére, főként statisztikai megközelítés alapján. Ennek a területnek egy jelentős részét e módszerek gyakorlati alkalmazásának szentelik.
Az egyik legfontosabb alkalmazás a képfeldolgozás az orvostudományban. Ezt a területet a videoadatokból történő információszerzés jellemzi a betegek orvosi diagnózisához. A legtöbb esetben a videoadatokat mikroszkóppal , radiográfiával , angiográfiával , ultrahanggal és tomográfiával nyerik . Az ilyen videoadatokból nyerhető információra példa a daganatok , érelmeszesedés vagy más rosszindulatú elváltozások kimutatása. Egy másik példa a szervméretek, a véráramlás stb. mérése. Ez az alkalmazási terület az orvosi kutatásokhoz is hozzájárul azáltal, hogy új információkat szolgáltat például az agy szerkezetéről vagy az orvosi kezelés minőségéről.
A számítógépes látás másik alkalmazási területe az ipar. Itt az információkat a gyártási folyamat támogatása céljából szerezzük be. Példa erre a minőség-ellenőrzés, ahol az alkatrészek vagy a végtermék automatikusan ellenőrzik a hibákat. Egy másik példa a robotkar által megemelt alkatrészek helyzetének és tájolásának mérése.
A katonai alkalmazások a számítógépes látás talán legnagyobb területe. Nyilvánvaló példa erre az ellenséges katonák és járművek felderítése, valamint a rakéták irányítása . A legfejlettebb rakétavezérlő rendszerek egy adott cél helyett egy adott területre küldik a rakétát, a célkiválasztás pedig akkor történik, amikor a kapott videó adatok alapján a rakéta eléri az adott területet. Egy modern katonai koncepció, mint például a „harci tudatosság” azt jelenti, hogy a különféle érzékelők, beleértve a képérzékelőket is, nagy mennyiségű információt szolgáltatnak a csatatérről, amelyek felhasználhatók stratégiai döntések meghozatalára. Ebben az esetben automatikus adatfeldolgozást alkalmaznak a kapott információ bonyolultságának csökkentése vagy megbízhatóságának növelése érdekében.
Az egyik új alkalmazási terület az autonóm járművek, beleértve a víz alatti, földi (robotok, autók), levegőt. Az autonómia szintje a teljesen autonóm (pilóta nélküli) járművektől az olyan járművekig terjed, ahol számítógépes látás alapú rendszerek támogatják a vezetőt vagy a pilótát különböző helyzetekben. A teljesen autonóm járművek számítógépes látást használnak a navigációhoz, vagyis tájékozódást szereznek a helyükről, térképet készítenek a környezetről, észlelik az akadályokat. Használhatók speciális feladatokra is, például erdőtüzek észlelésére. Ilyen rendszerek például a járművek akadályokra figyelmeztető rendszerei és a repülőgépek autonóm leszállási rendszerei. Egyes autógyártók bemutattak autonóm vezetési rendszereket, de ez a technológia még nem érte el azt a pontot, hogy tömeggyártásra kerülhessen.
Egyéb alkalmazások a következők:
A számítógépes látás fent leírt alkalmazási területei mindegyikéhez számos feladat kapcsolódik; többé-kevésbé jól meghatározott mérési vagy feldolgozási problémák sokféle módszerrel megoldhatók. Az alábbiakban bemutatunk néhány példát a tipikus számítógépes látási feladatokra.
A számítógépes látás, a képfeldolgozás és a gépi látás klasszikus feladata annak meghatározása, hogy a videoadatok tartalmaznak-e valamilyen jellegzetes tárgyat, jellemzőt vagy tevékenységet. Ezt a feladatot az ember megbízhatóan és könnyen meg tudja oldani, de a számítógépes látásban még nem oldották meg kielégítően általános esetben: véletlenszerű objektumok véletlenszerű helyzetekben.
A probléma megoldására létező módszerek csak bizonyos objektumok, például egyszerű geometriai objektumok (például poliéderek), emberi arcok, nyomtatott vagy kézzel írott karakterek, autók esetén hatásosak, és csak bizonyos feltételek mellett, általában bizonyos megvilágítás, háttér és pozíció esetén. a tárgyat a kamerához képest.
A szakirodalom számos felismerési problémát ír le:
A felismerés alapján több speciális feladat is létezik, pl.
Számos mozgásbecslési feladat, amelyek során egy képsorozatot (videóadatokat) dolgoznak fel a kép vagy 3D jelenet egyes pontjainak sebességének becsléséhez. Példák az ilyen feladatokra:
Adott két vagy több kép egy jelenetről vagy videó adat. A jelenet-restaurálás feladata a jelenet háromdimenziós modelljének újraalkotása. A modell a legegyszerűbb esetben lehet háromdimenziós térben lévő pontok halmaza. A kifinomultabb módszerek a teljes 3D-s modellt reprodukálják.
A kép-helyreállítás feladata a zaj (érzékelőzaj, mozgási elmosódás stb.) eltávolítása. A probléma megoldásának legegyszerűbb módja a különböző típusú szűrők, például az aluláteresztő vagy középáteresztő szűrők. Az összetettebb módszerek reprezentációkat használnak arra vonatkozóan, hogy a kép egyes részei hogyan nézzenek ki, és ez alapján módosítják azokat.
Magasabb szintű zajeltávolítás érhető el, ha először elemezzük a videoadatokat különböző struktúrák, például vonalak vagy élek jelenlétére, majd ezek alapján kezeljük a szűrési folyamatot.
A számítógépes látásrendszerek megvalósítása nagymértékben függ az alkalmazásuktól, a hardverplatformtól és a teljesítménykövetelményektől. Egyes rendszerek önállóak és speciális észlelési és mérési problémákat oldanak meg, míg más rendszerek nagyobb rendszerek alrendszerei, amelyek már tartalmazhatnak alrendszereket mechanikus manipulátorok (robotok), információs adatbázisok (hasonló képek keresése), ember-gép interfészek (számítógépes játékok) vezérlésére. , stb. Vannak azonban olyan funkciók, amelyek sok számítógépes látórendszerben közösek.