Optikai karakterfelismerés ( eng. optikai karakterfelismerés, OCR ) - kézzel írott , géppel írt vagy nyomtatott szöveg képeinek mechanikus vagy elektronikus fordítása szöveges adatokká , amelyek a karakterek számítógépen történő megjelenítésére szolgálnak (például szövegszerkesztőben ). Az OCR-t széles körben használják könyvek és dokumentumok elektronikus formájúvá alakítására , üzleti számviteli rendszerek automatizálására vagy szövegek közzétételére egy weboldalon.. Az optikai karakterfelismerés lehetővé teszi a szöveg szerkesztését, szavak vagy kifejezések keresését, kompaktabb formában való tárolását, anyagok megjelenítését vagy nyomtatását minőségromlás nélkül, információelemzést, valamint elektronikus fordítást , formázást vagy beszédet alkalmazhat a szövegben . Az optikai szövegfelismerés kutatott probléma a mintafelismerés , a mesterséges intelligencia és a számítógépes látás területén .
Az OCR-rendszerek kalibrálást igényelnek, hogy egy adott betűtípussal működjenek ; a korai verziókban a programozáshoz minden karakter képére volt szükség, a program egyszerre csak egy betűtípussal tudott működni. Jelenleg a legelterjedtebbek az úgynevezett "intelligens" rendszerek, amelyek a legtöbb betűtípust nagy pontossággal ismerik fel. Egyes OCR-rendszerek képesek visszaállítani a szöveg eredeti formázását, beleértve a képeket, oszlopokat és más nem szöveges összetevőket.
1929-ben Gustav Tauschek szabadalmat kapott az OCR- re Németországban , majd Handel ( ang . Paul W. Handel ) 1933-ban szabadalmat kapott módszerére az Egyesült Államokban . 1935-ben Tauschek amerikai szabadalmat is kapott módszerére. . Taushek gépe egy mechanikus eszköz volt, amely sablonokat és fotodetektort használt.
1950 -ben David H. Shepard , az Egyesült Államok Fegyveres Erők Biztonsági Ügynökségének kriptaelemzője , miután elemezte a nyomtatott üzenetek számítógépes feldolgozáshoz szükséges gépi nyelvre konvertálásának problémáját, megépített egy gépet, amely megoldotta ezt a problémát. Miután megkapta az amerikai szabadalmat, beszámolt róla a Washington Daily Newsnak (1951. április 27.) és a The New York Timesnak (1953. december 26.). Shepard ezután intelligens gépeket fejlesztő céget alapított, amely hamarosan kiadta a világ első kereskedelmi optikai karakterfelismerő rendszereit.
Az első kereskedelmi rendszert a Reader's Digestben telepítették 1955-ben. A második rendszert eladták a Standard Oilnak , hogy beolvassa a hitelkártyákat a csekkekhez. A Shepard cég által szállított egyéb rendszereket az 1950-es évek végén értékesítették, köztük az Egyesült Államok Nemzeti Légierejének oldalszkennerét , amelyet géppel írt üzenetek olvasására és telegépelésére terveztek. Az IBM később engedélyt kapott Shepard szabadalmainak használatára.
1965 körül a Reader's Digest és az RCA együttműködve létrehoztak egy OCR dokumentum-olvasót, amelyet a hirdetésekből visszaküldött Reader's Digest kuponok sorozatszámának digitalizálására terveztek. A dokumentumokra való nyomtatáshoz az RCA dobnyomtató speciális OCR-A betűtípust használt . A dokumentumolvasó közvetlenül az RCA 301 számítógéppel működött együtt (az egyik első félvezető számítógép). A gép sebessége 1500 dokumentum volt percenként: minden dokumentumot ellenőriz, kivéve azokat, amelyeket nem tudott megfelelően feldolgozni.
Az Egyesült Államok Postaszolgálata 1965 óta használ OCR-gépeket a levelek válogatására, Yakov Rabinov kutató által kifejlesztett technológiák alapján. Európában a brit posta volt az első OCR-gépeket használó szervezet. A Canada Post 1971 óta használ optikai karakterfelismerő rendszereket. Az első szakaszban az optikai karakterfelismerő rendszer szortírozó központjában a címzett neve és címe beolvasásra kerül, és egy vonalkódot nyomtatnak a borítékra. Speciális tintával hordják fel, amely ultraibolya fényben jól látható . Ez azért történik, hogy elkerüljük a félreértést a személyekkel kitöltött címmezővel, amely bárhol lehet a borítékon.
1974-ben Ray Kurzweil megalapította a Kurzweil Computer Products céget, és elkezdett dolgozni az első optikai karakterfelismerő rendszer kifejlesztésén, amely képes bármilyen betűtípussal nyomtatott szöveg felismerésére. Kurzweil úgy vélte, hogy ennek a technológiának a legjobb alkalmazása egy vakok olvasógépének létrehozása lenne, amely lehetővé tenné a vakok számára, hogy olyan számítógépet kapjanak, amely képes szöveget hangosan felolvasni. Ehhez az eszközhöz egyszerre két technológia feltalálása volt szükséges - egy CCD síkágyas szkenner és egy szintetizátor, amely szöveget beszéddé alakít. A végterméket 1976. január 13-án mutatták be Kurzweil és a Vakok Országos Szövetségének vezetői által vezetett sajtótájékoztatón.
1978-ban a Kurzweil Computer Products elindította az első kereskedelmileg sikeres OCR számítógépes programot. Két évvel később Kurzweil eladta cégét a Xerox Corporationnek, amely az OCR-rendszerek további kereskedelmi forgalomba hozatalában érdekelt. A Kurzweil Computer Products a Xerox, Scansoft néven ismert leányvállalata lett.
Az első program, amely felismerte a cirill ábécét, az orosz OKRUS cég AutoR programja volt. A programot 1992-ben kezdték el terjeszteni, DOS operációs rendszer alatt működött, és még az Intel 8088 processzorral rendelkező IBM PC / XT személyi számítógépeken is elfogadható felismerést biztosított 4,77 MHz órajelen. A 90-es évek elején a Hewlett-Packard az AutoR programmal kiegészítve szállította szkennereit az orosz piacra. Az "AutoR" algoritmus kompakt, gyors és teljesen "intelligens" volt, vagyis valóban fontfüggetlen. Ezt az algoritmust a 60-as évek végén fejlesztette ki és tesztelte két fiatal biofizikus, a Moszkvai Fizikai és Technológiai Intézet diplomái - G. M. Zenkin és A. P. Petrov. Felismerési módszerüket a Biophysics folyóirat 12. számában publikálták. 3 1967-re. Jelenleg a Zenkin-Petrov algoritmust számos alkalmazási rendszerben használják, amelyek megoldják a grafikus szimbólumok felismerésének problémáját. Az algoritmus alapján a PenReader technológiát a Paragon Software Group hozta létre 1996-ban . G. M. Zenkin folytatta a PenReader technológiával kapcsolatos munkát a Paragon Software Groupnál [1] . A technológiát a cég azonos nevű termékében használják [2] .
1993-ban megjelent az orosz ABBYY cég szövegfelismerő technológiája . Ennek alapján számos vállalati megoldás és program született tömegfelhasználók számára. Különösen az ABBYY FineReader szövegfelismerő program , a mobileszközökről származó szöveges információfelismerő alkalmazások, valamint az ABBYY FlexiCapture rendszer a dokumentumok és adatbevitel streamingjére. Az ABBYY OCR szövegfelismerő technológiák licencadói olyan nemzetközi informatikai cégek, mint a Fujitsu , a Panasonic , a Xerox , a Samsung [3] , az EMC és mások.
A nyomtatott szövegben a latin karakterek pontos felismerése jelenleg csak akkor lehetséges, ha tiszta képek állnak rendelkezésre, például beszkennelt nyomtatott dokumentumok. A probléma ezen megfogalmazásával a pontosság meghaladja a 99%-ot, abszolút pontosság csak utólagos emberi szerkesztéssel érhető el. A kézzel írott "nyomtatott" és szabványos kézírásos szövegek, valamint más formátumú (különösen nagyon nagy karakterszámú) nyomtatott szövegek felismerésének problémái jelenleg is aktív kutatás tárgyát képezik.
A módszerek pontossága többféleképpen mérhető, ezért nagyon eltérő lehet. Például, ha a nem létező szavak keresése során a megfelelő szoftverhez nem használt speciális szót találunk, a hiba fokozódhat.
Az online karakterfelismerést néha összekeverik az optikai karakterfelismeréssel. Ez utóbbi egy offline módszer, amely statikus szövegábrázolási formával működik, míg az online karakterfelismerés az írás közbeni mozgásokat veszi figyelembe. Például a PenPoint OS vagy egy táblaszámítógép használatával végzett online felismerés során meghatározhatja, hogy egy sor jobbról balra vagy balról jobbra íródik-e.
Az online kézírás-felismerő rendszerek a közelmúltban kereskedelmi termékekként váltak széles körben ismertté. Az ilyen eszközök algoritmusai azt a tényt használják ki, hogy a bemeneti vonalak egyes szakaszainak sorrendje, sebessége és iránya ismert. Ezen túlmenően, a felhasználó megtanulja csak meghatározott írási formákat használni. Ezeket a módszereket a beolvasott papíralapú dokumentumokat használó szoftverekben nem lehet alkalmazni, így a kézzel írt "nyomtatott" szöveg felismerésének problémája továbbra is nyitott. A kézírásos, műtermékek nélküli "nyomtatott" szövegű képeken 80-90%-os pontosság érhető el, de ilyen pontossággal a kép több tucat hibával konvertálódik az oldalon. Az ilyen technológia csak nagyon korlátozott számú alkalmazásban lehet hasznos.
Egy másik széles körben kutatott probléma a kézírás-felismerés . Jelenleg az elért pontosság még alacsonyabb, mint a kézzel írt "nyomtatott" szövegeknél. Magasabb pontszámot csak kontextuális és nyelvtani információk felhasználásával lehet elérni. Felismerés közben például egyszerűbb teljes szavakat keresni a szótárban, mint az egyes karakterek azonosítását a szövegből. Egy nyelv nyelvtanának ismerete segíthet annak meghatározásában is, hogy egy szó ige vagy főnév. Előfordulhat, hogy az egyes kézzel írt karakterek alakja nem tartalmaz elegendő információt a teljes kézírás pontos (több mint 98%) felismeréséhez.
A felismerés területén bonyolultabb feladatok megoldására általában intelligens felismerési rendszereket használnak, például mesterséges neurális hálózatokat .
A szövegfelismerő rendszerek kalibrálásához egy szabványos MNIST adatbázist hoztak létre , amely kézzel írt számjegyek képeiből áll.
![]() | |
---|---|
Bibliográfiai katalógusokban |
|
Optikai karakterfelismerő szoftver | |||
---|---|---|---|
ingyenes |
| ||
szabadalmazott |
|
természetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |
Nyomtató és szkenner | |||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| |||||||||||||||||||
| |||||||||||||||||||
|