Otwarty OCR od Google

Strona główna Aktualności

O autorze

Właściciel najpopularniejszej wyszukiwarki poinformował niedawno o otwarciu kodu źródłowego silnika do optycznego rozpoznawania znaków (OCR) - Tesseract, stworzonego w laboratoriach firmy Hewlett Packard.

System był tworzony w latach 1985 - 1995, wtedy znalazł się w pierwszej trójce konkursu zorganizowanego przez Uniwersytet Nevada w Las Vegas. Niestety, krótko po tym, firma HP zrezygnowała z inwestycji w tą technologię, od tego czasu aplikacja nie była rozwijana. Rok temu, grupa pracowników firmy stwierdziła, że szkoda byłoby, żeby cały nakład pracy włożony w jej rozwój poszedł na marne i postanowiono o otwarciu źródeł. Pracę nad projektem przejął instytut zajmujący się technologiami informacyjnymi na Uniwersytecie Nevada, któremu aktywnie pomaga firma Google.

Poprawiono najważniejsze błędy, a w czerwcu tego roku zdecydowano o opublikowaniu źródeł. Tesseract obsługuje aktualnie tylko język angielski, nie potrafi jeszcze analizować układu strony, słabo radzi sobie z wielokolumnowym tekstem. Pomijając te niedociągnięcia, Tesseract osiąga najlepsze wyniki odczytu tekstu wśród otwartych narzędzi do OCR. Więcej informacji o projekcie na stronie domowej w serwisie SourceForge.net.

© dobreprogramy

Komentarze