Google przeszukuje skany

Strona głównaGoogle przeszukuje skany
01.11.2008 03:14
Grzegorz Niemirowski
Grzegorz Niemirowski

W wyszukiwarce Google dodano możliwość przeszukiwania plików PDF,które zawierają skany papierowych dokumentów. Wykorzystywana jest do tego otwarta technologia OCRopus bazująca naoprogramowaniu Tesseract stworzonym przez HP. Google próbowało jąwykorzystać już rok temu, jednak było sporo problemów z małymiczcionkami oraz szeryfowymi. Zatrudniono jednak inżynierów, którzypracowali nad rozwiązaniem tego problemu. Jak to działa obecniemożna się przekonać szukając takich fraz jak repairing aluminum wiring czy spin lock performance. Wybierając podgląd jakoHTML można przekonać się, że faktycznie skany zostały rozpoznanejako tekst i np. zaznaczyć go i skopiować. Minusem jest tylko to,że gubione są rysunki, zachowywany jest jednak tekst w nichumieszczony.

Udostępnij:
Wybrane dla Ciebie
Komentarze (13)