Tabula od Mozilli rozwiąże problemy z tabelami w PDF-ach

Tabula od Mozilli rozwiąże problemy z tabelami w PDF-ach04.04.2013 15:46

PDF stał się standardem w wymianie dokumentów – spotkamy sięz nim tak w korespondencji z firmami, jak i urzędami. Zaletę majedną: zapisany w nim dokument da się otworzyć na praktyczniekażdym urządzeniu, z zachowaniem oryginalnego formatowania czyrozmaitych dopisków. Gdy jednak przychodzi coś z treściami w takprzesłanym dokumencie zrobić, zaczyna się płacz – nawet banalneskopiowanie tekstu to kłopot (nie zgadza się np. kodowanie znaków),zaś porządne przeniesienie treści zawartych w tabelach graniczy zniemożliwością. Wszyscy, którzy odczuli jakim kłopotem potrafiąbyć dokumenty w PDF, z przyjemnością powinni powitać software'owąperełkę od Mozilli o nazwie Tabula.[img=pdf]Tabula to aplikacja automagiczna: użytkownik wgrywa dokument PDFprzez webowy interfejs, a następnie zaznacza zakres tabelarycznychtreści, jakie chciałby pobrać z dokumentu. Niemal natychmiastotrzymuje HTML-ową tabelkę z zaznaczonymi danymi oraz opcje icheksportu do formatu CSV.Za tą magią stoi niejeden algorytm – wykorzystywane są m.in.techniki maszynowego rozpoznawania obrazu. Tabula na początku musiporadzić sobie z problemem brakujących spacji (w PDF-ach słowaoddzielane są od siebie poprzez odsunięcie ich od siebie), byzrekonstruować oryginalny ciąg słów. Później tworzona jest mapawspółrzędnych każdego znaku na stronie dokumentu: za pomocąbiblioteki Apache PDFBox powstaje XML-owy opis zaznaczonej treści.Następnie do akcji wchodzi system rozpoznawania ramek. Oczywiściełatwiej jest, gdy każdy wiersz tabeli jest oddzielony od siebieliniami, wówczas linie te wykrywa się za pomocą biblioteki OpenCVi tzw. transformacjiHougha, metody pozwalającej na wykrywanie regularnych kształtów.Jeśli jednak rozdzielenia między wierszami nie ma, algorytmwyszukuje słowa, które które nachodzą na siebie w pionowejwspółrzędnej. Granice wiersza są wówczas wytyczane na podstawiekrawędzi danego skupiska słów. Podobnie rozpoznawane (i w raziepotrzeby wytyczane) są granice kolumn. Głównym ograniczeniem Tabuli jest niemożność zastosowania jejdo skanowanych PDF-ów – jak twierdzą autorzy, darmowe rozwiązaniaOCR nie są jeszcze na tyle dobre, by można było za ich pomocązautomatyzować rozpoznawanie danych. Narzędzie nie radzi sobie teżwciąż z wierszami i kolumnami rozciągającymi się na wielekomórek.[img=tabula_export]Największym kłopotem z zastosowaniem Tabuli jest na razie brakzasobów autorów do udostępnienia publicznie działającejaplikacji. Trzeba sobie przygotować serweroweśrodowisko z Javą, Ruby i Pythonem, tak jak zostało to opisanew dokumentacji. Osoby, którym nie chce się tego robić, mogąobecnie wypróbowaćdemo, do którego niestety własnego dokumentu wgrać nie można.Pozostaje więc jedynie liczyć na to, że w przyszłości jakiświększy internetowy gracz, pokroju Google'a, zechce wbudować Tabulęw swój pakiet online'owych narzędzi (oprogramowanie udostępnionejest na wolnej licencji MIT).

Źródło artykułu:www.dobreprogramy.pl
Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.