Google przeszukuje skany

Google przeszukuje skany

Grzegorz Niemirowski
01.11.2008 03:14

W wyszukiwarce Google dodano możliwość przeszukiwania plików PDF,które zawierają skany papierowych dokumentów. Wykorzystywana jest do tego otwarta technologia OCRopus bazująca naoprogramowaniu Tesseract stworzonym przez HP. Google próbowało jąwykorzystać już rok temu, jednak było sporo problemów z małymiczcionkami oraz szeryfowymi. Zatrudniono jednak inżynierów, którzypracowali nad rozwiązaniem tego problemu. Jak to działa obecniemożna się przekonać szukając takich fraz jak repairing aluminum wiring czy spin lock performance. Wybierając podgląd jakoHTML można przekonać się, że faktycznie skany zostały rozpoznanejako tekst i np. zaznaczyć go i skopiować. Minusem jest tylko to,że gubione są rysunki, zachowywany jest jednak tekst w nichumieszczony.

Źródło artykułu:www.dobreprogramy.pl
Oceń jakość naszego artykułuTwoja opinia pozwala nam tworzyć lepsze treści.
Wybrane dla Ciebie
Komentarze (13)