r   e   k   l   a   m   a
r   e   k   l   a   m   a

Otwarty OCR od Google

Strona główna Aktualności

Właściciel najpopularniejszej wyszukiwarki poinformował niedawno o otwarciu kodu źródłowego silnika do optycznego rozpoznawania znaków (OCR) - Tesseract, stworzonego w laboratoriach firmy Hewlett Packard.

System był tworzony w latach 1985 - 1995, wtedy znalazł się w pierwszej trójce konkursu zorganizowanego przez Uniwersytet Nevada w Las Vegas. Niestety, krótko po tym, firma HP zrezygnowała z inwestycji w tą technologię, od tego czasu aplikacja nie była rozwijana. Rok temu, grupa pracowników firmy stwierdziła, że szkoda byłoby, żeby cały nakład pracy włożony w jej rozwój poszedł na marne i postanowiono o otwarciu źródeł. Pracę nad projektem przejął instytut zajmujący się technologiami informacyjnymi na Uniwersytecie Nevada, któremu aktywnie pomaga firma Google.

Poprawiono najważniejsze błędy, a w czerwcu tego roku zdecydowano o opublikowaniu źródeł. Tesseract obsługuje aktualnie tylko język angielski, nie potrafi jeszcze analizować układu strony, słabo radzi sobie z wielokolumnowym tekstem. Pomijając te niedociągnięcia, Tesseract osiąga najlepsze wyniki odczytu tekstu wśród otwartych narzędzi do OCR. Więcej informacji o projekcie na stronie domowej w serwisie SourceForge.net.

r   e   k   l   a   m   a
© dobreprogramy

Komentarze

r   e   k   l   a   m   a
r   e   k   l   a   m   a
Czy wiesz, że używamy cookies (ciasteczek)? Dowiedz się więcej o celu ich używania i zmianach ustawień.
Korzystając ze strony i asystenta pobierania wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.