Otwarty OCR od Google

Redakcja

06.09.2006 11:11

Właściciel najpopularniejszej wyszukiwarki poinformował niedawnoo otwarciu kodu źródłowego silnika do optycznego rozpoznawaniaznaków (OCR) - Tesseract, stworzonego w laboratoriach firmy HewlettPackard. System był tworzony w latach 1985 - 1995, wtedy znalazł się wpierwszej trójce konkursu zorganizowanego przez Uniwersytet Nevadaw Las Vegas. Niestety, krótko po tym, firma HP zrezygnowała zinwestycji w tą technologię, od tego czasu aplikacja nie byłarozwijana. Rok temu, grupa pracowników firmy stwierdziła, że szkodabyłoby, żeby cały nakład pracy włożony w jej rozwój poszedł namarne i postanowiono o otwarciu źródeł. Pracę nad projektem przejąłinstytut zajmujący się technologiami informacyjnymi naUniwersytecie Nevada, któremu aktywnie pomaga firma Google. Poprawiono najważniejsze błędy, a w czerwcu tego roku zdecydowano oopublikowaniu źródeł. Tesseract obsługuje aktualnie tylko językangielski, nie potrafi jeszcze analizować układu strony, słaboradzi sobie z wielokolumnowym tekstem. Pomijając teniedociągnięcia, Tesseract osiąga najlepsze wyniki odczytu tekstuwśród otwartych narzędzi do OCR. Więcej informacji o projekcie nastronie domowej w serwisie SourceForge.net.