reklama

Google przeszukuje skany

Strona główna Aktualności

O autorze

W wyszukiwarce Google dodano możliwość przeszukiwania plików PDF, które zawierają skany papierowych dokumentów.

Wykorzystywana jest do tego otwarta technologia OCRopus bazująca na oprogramowaniu Tesseract stworzonym przez HP. Google próbowało ją wykorzystać już rok temu, jednak było sporo problemów z małymi czcionkami oraz szeryfowymi. Zatrudniono jednak inżynierów, którzy pracowali nad rozwiązaniem tego problemu. Jak to działa obecnie można się przekonać szukając takich fraz jak repairing aluminum wiring czy spin lock performance. Wybierając podgląd jako HTML można przekonać się, że faktycznie skany zostały rozpoznane jako tekst i np. zaznaczyć go i skopiować. Minusem jest tylko to, że gubione są rysunki, zachowywany jest jednak tekst w nich umieszczony.

© dobreprogramy
reklama

Komentarze

reklama