Tesseact | |
---|---|
Típusú | optikai karakter felismerés |
Fejlesztők | Hewlett-Packard , Google |
Beírva | C++ |
Felület | parancs sor |
Operációs rendszer | Linux , Mac OS X és más UNIX-szerű , Windows |
Első kiadás | 1980-as évek közepe |
legújabb verzió | |
Olvasható fájlformátumok | TIFF , PNG , JPEG [d] , JP2 [d] és WebP fájlcsere formátum |
Generált fájlformátumok | HOCR , egyszerű szöveg , PDF , ALTO [d] és TSV |
Engedély | Apache 2.0 |
Weboldal | github.com/tesseract-ocr… |
Médiafájlok a Wikimedia Commons oldalon |
A Tesseract ( angolul - " tesseract ", más görögül. τέσσαρες ἀκτῖνες - "négy sugár") egy ingyenes számítógépes program szövegfelismerésre , amelyet a Hewlett-Packard fejlesztett ki az 1980-as évek közepétől, majd az 1990-es évek közepéig. "a polcon hever". 2006 augusztusában a Google megvásárolta, és az Apache 2.0 licenc alatt [2] megnyitotta a forráskódot további fejlesztés céljából. Jelenleg a program már UTF-8-cal működik, a nyelvi támogatás (beleértve az oroszt is a 3.0-s verziótól [3] [4] ) további modulok segítségével történik.
A Tesseract program magját a Hewlett Packard Bristoli Laboratóriumában és a Hewlett Packard Co-nál (Greeley , Colorado ) fejlesztették ki 1985 és 1994 között. 1996-ban jelentős változtatásokat hajtottak végre, és elkészült a Windows portja. Aztán 1998 óta részleges átállás C-ről C++-ra. A kód jelentős része eredetileg C nyelven íródott, de történtek fejlesztések a C ++ fordítókkal való kompatibilitás érdekében. [2]
A Tesseract 3.0 jelenleg GCC 2.95-ös és újabb verziójú Linuxra, valamint Visual C++ 2008 Express és újabb verziójú Windows rendszerre épül (a Visual C++ 6 támogatása a 3.0-s verzióban megszűnt [3] ).
Jelenleg a legújabb verzió az LSTM -en alapuló Tesseract 5.0 [5] .
A Tesseract a Tucan Manager letöltéskezelője használja szövegfelismerésre a CAPTCHA tesztekben .
Optikai karakterfelismerő szoftver | |||
---|---|---|---|
ingyenes |
| ||
szabadalmazott |
|