r   e   k   l   a   m   a
r   e   k   l   a   m   a

Naptha: rozszerzenie OCR dla Chrome, za pomocą którego wydobędziesz tekst z obrazków

Strona główna AktualnościOPROGRAMOWANIE

Chyba każdemu z nas zdarzyło się spróbować skopiować zawartość strony internetowej, tylko po to, by zorientować się, że to co zaznaczyliśmy nie jest tekstem, a ordynarnie wstawionym obrazkiem. Ręczne przepisywanie zawartości to nic przyjemnego, a nie zawsze mamy pod ręką aplikację OCR, by obrazek poddać automatycznej obróbce. Niezłym rozwiązaniem w tej sytuacji może być narzędzie o nazwie Naptha.

Naptha jest kompleksowym narzędziem OCR, które dla niepoznaki udaje rozszerzenie do Google Chrome. Pod względem jakości wykrywania i rozpoznawania tekstu dorównuje popularnym opensource'owym silnikom, choć oczywiście odstaje od zaawansowanych, komercyjnych aplikacji tego typu. W swoim zakresie zastosowań jest jednak wyjątkowe, dając internautom metodę na łatwe pozyskanie tekstu z praktycznie każdej grafiki.

Zintegrowana z menu kontekstowym przeglądarki Naptha swoje działanie rozpoczyna po zbliżeniu wskaźnika myszy do zawierającego interesujący napis obrazka, rozpoczynając wówczas poszukiwania występujących na nim bloków tekstu. Wykorzystuje w tym celu algorytm Stroke with Transform Microsoftu, obliczający dla każdego piksela szerokość zawierającego go najbardziej prawdopodobnego pociągnięcia. Jako że fonty mają zwykle dość podobne szerokości, są w ten sposób łatwe do wychwycenia. Zastosowanie znanego ze specyfikacji HTML5 rozwiązania WebWorkers pozwala cały proces uruchomić w tle, nie zakłócając w ten sposób działania samej przeglądarki.

Po zaznaczeniu interesującego bloku tekstu i wybraniu opcji jego skopiowania, zawierająca go bitmapa zostaje przesłana na serwer, na którym działa OCR-owy silnik Ocrad. Po najdalej kilku sekundach otrzymujemy z powrotem przetworzony tekst, który można normalnie wkleić, np. do dokumentu Worda czy LibreOffice. Jeśli to co zwrócił Ocrad nas nie zadowala, można przełączyć w opcjach Napthy silnik na google'owego Tesseracta, który z niektórymi krojami fontów radzi sobie wyraźnie lepiej.

Na tym możliwości tego ciekawego rozszerzenia się nie kończą. Z poziomu kontekstowego menu możemy wywołać mechanizm tłumaczenia napisów (obsługiwane są na razie angielski, hiszpański, rosyjski, niemiecki, francuski, chiński i japoński). Jeszcze ciekawszą funkcją tego rozszerzenia jest usuwanie napisów z obrazków. Zaznaczając tekst na obrazku i wybierając z menu Translate opcję Erase uzyskujemy czystą, wolną od tekstu wersję, którą można np. skopiować do schowka. Mechanizm ten wykorzystuje algorytmy podobne do znanego z Photoshopa kontekstowego wypełniania i w większości wypadków przynosi dobre efekty.

Więcej dowiecie się ze strony projektu – projectnaptha.com. Rozszerzenie na razie dostępne jest tylko na Chrome i chromopodobne przeglądarki, głównie ze względu na problemy z implementacją Web Workers dla Firefoksa. Musimy ostrzec, że ze względu na zależność narzędzia od zewnętrznej usługi, może ono w każdej chwili przestać działać. Pomysł jednak jest na tyle innowacyjny, że może przyciągnąć innych programistów – może w końcu pojawi się wersja, która będzie korzystała z lokalnie uruchomionego silnika OCR?

r   e   k   l   a   m   a
© dobreprogramy
r   e   k   l   a   m   a
r   e   k   l   a   m   a

Komentarze

r   e   k   l   a   m   a
r   e   k   l   a   m   a
Czy wiesz, że używamy cookies (ciasteczek)? Dowiedz się więcej o celu ich używania i zmianach ustawień.
Korzystając ze strony i asystenta pobierania wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.