Rozpoznawanie tekstów OCR w Google Docs

Google dodał możliwość rozpoznawania tekstów za pomocą OCR do Google Docs. Umożliwi to zamianę przeskanowanych książek i dokumentów na dający się edytować tekst.

Michał Majchrzycki

22 czerwca 2010, 18:03

OCR obsługuje dokumenty w formacie PDF, a także pliki graficzne. Technika umożliwia dodawanie użytkownikowi plików zeskanowanych dokumentów czy książek i przekształcenie ich na tekst, który można edytować w ramach Google Docs. Aby skorzystać z usługi wystarczy dodać dokument, a następnie zaznaczyć opcję Konwertuj tekst z plików PDF lub plików graficznych na Dokumenty Google. Gotowy tekst zapisywany jest w formie dokumentu tekstowego na serwerach Google. Zachowywany jest również oryginalny plik PDF. Nowa usługa posiada jeszcze błędy - nierozpoznawane są niektóre znaki, czasami spora część tekstu zawiera błędy. W niektórych przypadkach skanowanie nie zostaje sfinalizowane.

Prace nad usługą trwały od października zeszłego roku. Wcześniej Google przejął serwis reCAPTCHA zajmujący się między innymi przenoszeniem do postaci cyfrowej starodruków. Dzięki temu nabytkowi możliwe było wykorzystanie technologii do rozwinięcia silnika OCR.

Źródło artykułu: www.dobreprogramy.pl