Strona używa cookies (ciasteczek). Dowiedz się więcej o celu ich używania i zmianach ustawień. Korzystając ze strony wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.    X

e-książki a formatowanie tekstu

E-książki (zwane również e-bookami) stają się ostatnio coraz popularniejsze. Coraz więcej księgarni ma w swej ofercie publikacje w postaci cyfrowej. Zabawną kwestią jest to, że książki papierowe objęte są 5 procentowym VATem, natomiast książki cyfrowe - 23 procentowym. Nie o tym jednak chciałem pisać…

Jakość produktu, za który płacimy

Człowiek płaci, człowiek wymaga. A czego? Jakości! Niestety e-książki, które dostępne są w różnego rodzaju księgarniach są robione po prostu byle jak. Tekst się zgadza (choć też nie zawsze), prezentuje się na czytniku niby przyzwoicie, ale niestety idealnie nie jest. Zajrzałem więc kiedyś z ciekawości do kodu pliku .epub pobranego z bazy publikacji wolnelektury.pl i niesamowicie się zdziwiłem.

  • Kod polskiej publikacji w ANSI a nie w UTF-8,
  • znacznik nagłówka 2 z przypisaniem do klasy H3 (niezły misz-masz),
  • brak znaków twardej spacji (przez co na końcu linii pozostają osierocone spójniki - widział ktoś, by coś takiego miało miejsce w drukowanej publikacji?!).

I coś, czego nie widać na zrzutach ekranu:

  • stosowanie na przemian znaków minusa, pauzy i półpauzy (przez co moduł text-to-speech ma problemy i czasami zdarza się, że na początku każdej wypowiedzi w rozmowie czyta na głos słowo „minus”),
  • stosowanie wielu znaków końca linii (Enterów) zamiast ustalić odstęp za pomocą stylu,
  • stosowanie wielu spacji zamiast użycia tabulacji,
  • itp., itd.

Ręce mi opadły. W przypadku plików z WeltBilda, Empiku czy NextTo wcale nie jest lepiej.

Skąd taki stan rzeczy?

Powodów może być wiele, ale wydaje mi się, iż głównym z nich jest to, że za tworzenie e-książek odpowiedzialni są humaniści bez podstawowej wiedzy z zakresu korzystania z pakietów biurowych. Nie oszukujmy się - dziś mało kto tworzy publikacje w Acrobat Pro lub InDesign. Zdecydowana większość publikacji powstaje w Wordzie/Writerze i jest ona tworzona za pomocą funkcji „Zapisz jako PDF”. Fraza „znajomość pakietów biurowych” to dziś standard w CV, jednak mało kto tak naprawdę potrafi z tych programów korzystać. Niektórzy piszą to z premedytacją, by ubarwić swoje CV, inni piszą to, bo w swej głupocie naprawdę uważają, że potrafią korzystać z Worda. Tymczasem po zaznaczeniu opcji pokazywania ukrytych elementów formatowania cała ta „wiedza” pięknie się ukazuje.

Calibre i jakość konwersji formatów ebooków

Do tego wpisu skłonił mnie komentarz DjLeo pod newsem o pojawieniu się nowej wersji programu Calibre.

Co do samej konwersji na formaty epub czy mobi to ta heurystyka pozostawia jeszcze wiele do życzenia. Przynajmniej jeżeli chodzi o konwersje z pdf-ów.

Mając na uwadze to, co napisałem powyżej o umiejętności korzystania z programów do redagowania tekstu przez twórców/redaktorów e-książek nasuwa się pytanie - w jaki sposób Calibre ma konwertować idealnie e-książki na różne formaty, skoro pliki źródłowe wołają o pomstę do nieba? Np. zamiast konkretnych nagłówków są inne (np. tak jak wyżej na obrazku H2 z przypisaną klasą H3) lub tytuły rozdziałów są tworzone poprzez wyśrodkowanie tekstu zwykłego akapitu, powiększenie jego czcionki i jej pogrubienie. Jeśli chodzi o nagłówki to przecież w przypadku e-publikacji są one dość istotne, bo na ich podstawie generowane są spisy treści.

Nie da się więc stworzyć skryptu, który konwertowałby idealnie publikacje cyfrowe pomiędzy różnymi formatami, bo trzeba by przewidzieć wszystkie możliwe sposoby używania edytorów tekstu przez ludzi, a ile ludzi, tyle różnych sposobów obsługi Worda, Writera i innych programów. Nawet gdyby komuś udało się coś takiego zrobić, to skrypt ten pewnie pracowałby kilka godzin, by ogarnąć jedną książkę.

Lekarstwo?

Przestudiowałem specyfikację formatu FutureBook (FB2). Nie jest on w Polsce specjalnie popularny, ale e-booki czytam za pomocą aplikacji FBReader więc wybór formatu wydał mi się oczywisty. Swoją drogą okazało się, że jego składnia okazała się dla mnie dużo bardziej przejrzysta niż te z formatów EPUB czy MOBI. Stworzyłem sobie w Wordzie własny zestaw stylów i 3 makra (1. do usuwania zbędnych wolnych przestrzeni - wielu enterów, spacji i tabulatorów, 2. do poprawiania błędów formatowania - wstawianie twardych znaków, zamiana trzech kropek na znak trzykropka, zmiana minusa na pauzę, itd., 3. Do konwersji kodu HTML do kodu FB2).
Następnie dostosowałem sobie Worda tak, by mi się wygodnie z niego korzystało.

Na warsztat wziąłem więc pierwszą lepszą e-książkę, którą była „Gra o tron” George’a R. R. Martina. Przekopiowałem tekst z epuba do Worda, a w nim pozmieniałem formatowanie tekstu za pomocą stylów, odpaliłem makra do usuwania pustych przestrzeni i do poprawiania błędów, a następnie zapisałem dokument jako przefiltrowany html. Otworzyłem tekst w notatniku i skopiowałem go do Worda, a następnie uruchomiłem makro do konwersji kodu html na kod fb2. Następnie ten kod przekopiowałem do Notepada++ i zapisałem plik jako FB2.

Efekt?

  • Plik w 100% zgodny ze specyfikacją formatu FutureBook,
  • DZIAŁAJĄCA możliwość dostosowywania pod siebie wyglądu KAŻDEGO elementu e-książki z poziomu aplikacji FBReader,
  • Plik wynikowy (FB2) o wielkości 2090kB, a po zapisaniu jako FB2.ZIP plik ma wielkość 900kB. Warto dodać, że większość programów do czytania e-booków w formacie FB2 obsługuje je bez konieczności rozpakowywania archiwum ZIP, w którym znajduje się plik FB2,
  • Plik źródłowy ePUB miał wiekość 2,7MB, a plik w tym samym formacie, który utworzyłem konwertując stworzony przeze mnie plik FB2 na format ePUB zaledwie 985kB. Czyli wychodzi na to, że w kupionym pliku 2/3 danych to śmieciowy kod,
  • Okazało się również, że Calibre konwertuje pliki idealnie pomiędzy formatami FB2, ePUB i MOBI dając w efekcie pliki w 100 procentach zgodne ze specyfikacjami poszczególnych formatów, o ile format wejściowy jest zgodny z jego specyfikacją.

Tak więc wracając do zarzutu DjLeo:

Co do samej konwersji na formaty epub czy mobi to ta heurystyka [w Calibre] pozostawia jeszcze wiele do życzenia.

Czy to ta heurystyka faktycznie nie działa dobrze, czy może coś innego? 

oprogramowanie urządzenia mobilne inne

Komentarze

0 nowych
przemo_li   11 #1 11.01.2013 16:29

No nie przesadzajmy. Mamy dużo dobrych specjalistów od tworzenia ebooków...

Tylko że jak ktoś już wydał na "skład" na "tradycyjną" formę książki to "oszczędza" na wersji elektronicznej.

Już nie mówiąc o samo-publikacji czy konwersji na inne formaty bez żadnego ludzkiego nadzoru.


No ale tak jest taniej. A nikt drożej nie chce płacić... (A rynek ebooków premium chyba nie istnieje.)

DjLeo MODERATOR BLOGA  18 #2 11.01.2013 16:35

Bierzesz książkę do ręki, wykonujesz skanowanie do pdf lub jpg. Jak kto woli. I świat się wali. Przynajmniej na czytniku. Tak mam ja.

Ostatni cytat wyjąłeś trochę z kontekstu, wyraźnie napisałem, że chodzi mi o pdf. Nie twierdzę, że inne formaty ze soba nie wspołpracują i konwersja działa źle, jednak proponuję zrobić konwersje z pdfa do epuba. W tym przypadku Calibre nie bardzo się sprawdza. Tzn. jak jest dobrze sformatowany pdf to źle nie jest. Ale jak wykonasz pdfa sam (skanując publikacje), to jest gorzej niż źle.

Co do pdfów i ich wyświetlania w formacie pdf, to jestem zaskoczony, wszystkie zakupione książki przy okazji ostatniej promocji na ebookpoint.pl, wyświetlają się na czytniku świetnie.

drobok   14 #3 11.01.2013 16:47

Znajdź dobry soft do konwersji na obrazu do pdf i wtedy wszystko będzie ok :P
A co do epub etc, też pewnie wszystko automaty robią, pewnie nawet nikt tego nie czyta.

Autor edytował komentarz.
Demagog   4 #4 11.01.2013 16:47

A dałbyś radę udostępnić te makra? Chętnie sam bym zerknął.

kamil_w   11 #5 11.01.2013 16:49

Ostatnio miałem okazję skanować książkę i za pomocą finereadera przerobiłem ją na format .doc. Idealnie nie wyszło, ale skoro ja znalazłem sposób na zautomatyzowanie procesu "ogarniania" suchego tekstu, to chyba mam prawo oczekiwać, że osoby, które każą sobie płacić za ich pracę również się przyłożą do swojej pracy.

Faktem jest, że jest coraz lepiej, ale wciąż może być lepiej.

Frankfurterium   10 #6 11.01.2013 18:43

Do poprawnego składu e-książek nie trzeba Adobe'ów ani innego drogiego softu. W 99% przypadków wystarczy Sigil. Nie jest to kombajn ani konwerter pokroju Calibre, ale właśnie soft do składu i korekcji plików epub. Darmowy, otwartoźródłowy, multiplatformowy.

Tak wygląda:
http://s7.postimage.org/cvmdrwewr/screen.jpg

Vidivarius   14 #7 11.01.2013 19:13

@kamil_w
Bardzo dobry tekst. Trafiłeś nim akurat w temat, który również u mnie wywołuje pewien sprzeciw.
Formatowanie zakupionych ebooków to jakaś istna wolna amerykanka. Zasadniczo wiem co mówię gdyż sam składam książki do druku i trochę się w tym orientuję. Nie rzadko nie trzymają zasad dokumentacji danego formatu książki to jeszcze co gorsza nie trzymają zasad składu i edytorstwa. Ten bałagan najczęściej bierze się z automatycznej konwersji PDF-ów przygotowanych do drukarni na pliki ebooków. Redaktorzy znają się na składzie książki papierowej ale nie mają pojęcia o EPUB-ach, MOBI, FB2 itp., a ci którzy ogarniają te formaty nie mają pojęcia jak powinien wyglądać prawidłowy skład książki.

"Otworzyłem tekst w notatniku i skopiowałem go do Worda"
Zasadniczo metoda jest dobra, tyle że przepuszczając przez Notatnik/Notepada++ pozbywasz się ważnej części formatowania. Chodzi o całkiem sporą (np. w przypadku Gry o tron) ilość tekstu pisanego italiką. Co akurat w przypadku tej książki bardzo ją kastruje.
Spotkam czasem pliki z niewłaściwą stroną kodową. Też na początku chciałem to przepuścić przez Notepada++ ale z uwagi na utratę części formatowania znalazłem inny sposób. Tworzę w Notepadzie++ plik tekstowy UTF-8, otwieram go w Wordzie, wklejam do niego tekst książki (zachowując formatowanie - ta italika), dalej poprawki, poprawki, nagłówki, etc i zapisuję plik jako RTF/DOC/DOCX. Dzięki temu mam uporządkowany tekst, kodowanie UTF-8, oryginalne formatowanie poszczególnych fragmentów (italika) i edytowalny plik.


Ja osobiście wolę RTF-a gdyż otworzy go większość czytników i zachowuję przy okazji możliwość edycji tekstu jak będzie trzeba. Też można go zZIPopać.
Nie ukrywam, że niekiedy wyławiam z odmętów internetu jakieś książki, ale zawsze szukam jakiegoś formatu edytowalnego (RTF DOC), gdyż większość udostępnianych PDF-ów to jakaś kpina. Niewłaściwe przełamanie linii, odstępy między akapitami, dywiz zamiast półpauzy lub pauzy, itd, itd. Dlaczego ci ludzie zapisują to do PDF, nie lepiej zostawić jakiś edytowalny format? Zawsze można sobie by poprawić błędy formatowania. Te PDF-y to przekleństwo.

kamil_w   11 #8 11.01.2013 19:26

@Frankfurterium
Wiem, wiem. Zanim zaprzągłem do pracy Worda i Notepada++ próbowałem programów Sigil i fictionbookeditor, ale przy dłuższych publikacjach działają one bardzo powoli. Zwykłe przełączeniu widoku z widoku edycji na widok kodu trwało u mnie tyle, że mogłem spokojnie w międzyczasie zrobić sobie kawę (a laptopa mam całkiem dobrego - i5-480M, 8GB RAM).

@Demagog
Właśnie zauważyłem, że mam jeszcze jakiś błąd w makrach, bo gdy w dokumencie mam cytaty lub wiersze, to makro działa po prostu tak sobie - pierwszy znacznik traktuje jako koniec dokumentu i zamienia go na . Muszę to jeszcze poprawić.

https://dl.dropbox.com/u/5730855/Dokumenty/usuwanie_pustych_przestrzeni.vb
https://dl.dropbox.com/u/5730855/Dokumenty/poprawianie_bledow.vb

I trzecie makro - konwerter (do lekkiej poprawki).
https://dl.dropbox.com/u/5730855/Dokumenty/HTML_2_FB2.vb

I dodatkowo plik ze stylem Worda (do umieszczenie w katalogu QuicStyles).
https://dl.dropbox.com/u/5730855/Dokumenty/Ksi%C4%85%C5%BCkowy.dotx
(makro do konwersji dość mocno bazuje właśnie na tym pliku i z innymi stylami nie będzie działać)

Oczywiście dałoby się to zrobić lepiej, wydajniej (np. za pomocą jakiegoś parsowania XML), ale kilku kwestii nie potrafiłem rozgryźć, więc posłużyłem się narzędziami, które ogarniam. :D

kamil_w   11 #9 11.01.2013 19:29

@Vidivarius
Fakt. Czcionka pochyła po skopiowaniu do notatnika znika, ale zawsze może z PDF'a, czy ePUBa skopiować bezpośrednio do Worda. Właśnie przed chwilą to zrobiłem z "Tańcem ze Smokami" i właśnie tu mi wyszło, że to moje makro do konwersji wymaga jeszcze poprawy. ;/

DjLeo MODERATOR BLOGA  18 #10 11.01.2013 20:16

@kamil_w

"Ostatnio miałem okazję skanować książkę i za pomocą finereadera przerobiłem ją na format .doc. Idealnie nie wyszło, ale skoro ja znalazłem sposób na zautomatyzowanie procesu "ogarniania" suchego tekstu, to chyba mam prawo oczekiwać, że osoby, które każą sobie płacić za ich pracę również się przyłożą do swojej pracy. "

Wiesz ta metoda może się sprawdza, ale przy jakiś prostszych tekstach. Ja czasami mam jakieś skomplikowane zagnieżdżone tabelki, kolumny i cuda. Więc różnie z tym bywa. Powiem Ci, że się wbiłeś z tematem bo jestem w trakcie tworzenia, wpisu traktującego trochę o tym problemie. Jednak bardziej poradnika.

kamil_w   11 #11 11.01.2013 20:25

Fakt. Nie brałem pod uwagę tabel, kolumn i innych cudów na kiju. Ograniczyłem się jedynie do elementów, które uwzględnione są w specyfikacji FictionBook. Jest to format do typowych książek (nagłówki, tytuły, akapity, wiersze, cyctaty, kod, obrazki, przypisy, epigrafy). W specyfikacji tego formatu nie znalazłem nic na temat tabel, kolumn itp. i w zasadzie jest to w jakimś stopniu uzasadnione bo jest to format, który jest stworzony z myślą właśnie o prostej formie tekstu (czyli takiej, jaka występuje w większości książek).

pamix   7 #12 11.01.2013 20:33

@kamil_w

Kod polskiej publikacji w ANSI a nie w UFT8 (nie żebym się czepiał :-))

Od czasu do czasu czytam e-booki i nie zastanawiam się wtedy, czy tekst jest dobrze sformatowany. Większość odbiorców takich książek nie wie czym się rożni format PDF od np. ePub. Więc tym bardziej nie będą dociekać czy są w pliku jakieś błędy czy nie. Ale jeśli poruszyłeś już ten temat to problem rzeczywiście istnieje. I za to właśnie płacimy grubą kasę. Ja bym bardziej się zastanawiał dlaczego są one tak drogie w stosunku do wersji "analogowej", jeśli nie mamy kartek, grubej okładki i często pomijamy też pośredników (sprzedawanie w Sieci) oraz transport.

Autor edytował komentarz.
kamil_w   11 #13 11.01.2013 20:49

Literówka. Poprawiłem.

"Ja bym bardziej się zastanawiał dlaczego są one tak drogie w stosunku do wersji "analogowej""

O jednej z przyczyn wspomniałem na samym początku wpisu.

xomo_pl   21 #14 11.01.2013 20:49

@drobok;#3
"
Znajdź dobry soft do konwersji na obrazu do pdf i wtedy wszystko będzie ok "

abbby OCR - jest nawet wersja online (za freee 3 strony/ użytkownik ale bez problemu da się więcej kont założyć) albo za ok400 pełna wersja programu- polecam przerabiam tym skany na tekst w różnych językach i zawsze jest ok.

kamil_w   11 #15 11.01.2013 20:58

Abbyy Finereader'a dostawaliśmy na HotZlocie w 2011 roku. ;)

Meszuge   16 #16 12.01.2013 08:14

Calibre najlepiej sobie radzi konwertując z wyjściowego pliku .rtf. Przynajmniej u mnie, gdy potrzebny mi wynikowy .mobi.

Frankfurterium   10 #17 12.01.2013 23:04

A jeszcze jakiś rok temu Calibre kompletnie wariował przy konwersji z RTF. Rozwalał układ, mieszał kodowanie - wynikowy epub był jednym wielkim śmieciem. Długo się męczyłem i w końcu odkryłem, że wystarczyło taki plik najpierw zapisać jako ODT (Opem/Libre Office) i wszystko było w porządku.

oprych   13 #18 14.01.2013 15:18

@Frankfurterium
To zależy od wersji Calibre i chyba LO u mnie był problem z nagłówkami h1, h2, h3 przy rozdziałach.
Człowiek się namęczył, poprawił formatowanie, a Calibre nie chwytało.

Dopiero jak brałem w MO 07/10 i zapisywałem do rtf, to Calibre tworzył rozdziały

  #19 20.02.2014 11:30

hej a ja mam taki problem, że książka jest pdf, tylko że nie była robiona jako tekst tylko jako zdjęcia i mój onyx w ogóle jej nie widzi, jak ją można uratować? :(

  #20 24.01.2015 00:15

Witam, jestem autorem, publikuję swoje książki również w wersji elektronicznej chciałbym jednak zaznaczyć że my autorzy nie jesteśmy odpowiedzialni za ich (książek) kształt ostateczny. Pracownicy korporacji odpowiadają za kształt ostateczny i z ubolewaniem muszę stwierdzić że często nadużywają naszego (autorów) zaufania. Oni bowiem zajmują się konwersją i jak odkryłem bez mojej woli redakcją. Osobiście spotkałem się z przeinaczeniem tekstu w opisie swojej książki. Pracownicy wydawnictwa informowali mnie "że się tym zajmą" niestety przeinaczenie nadal jest widoczne. Wielokrotne ponawianie protestu nic nie wniosło. Nie mam pojęcia ile jeszcze przeinaczeń mogło pojawić się w moim tekście czy jego formacie. Zaufałem że skoro mam do czynienia z profesjonalnym wydawcą i firmą funkcjonującą przecież na całym świecie to do mojej publikacji fachowcy podejdą profesjonalnie. Jak się okazało nadużyto mojego zaufania.

  #21 05.02.2016 21:32

Co do "ciężaru" pliku tekstowego: na jego wielkość ma wpływ czcionka - dołączona lub nie, kompletna lub częściowo - do dokumentu.

  #22 30.09.2016 11:54

Chcesz mieć coś zrobione dobrze? Zrób to sam. Po wielu latach prób i poszukiwań jedynie dobre źródło tekstu bez błędów + staranny skład tekstu w LaTeX-u + konwersja do PDF-a w rozmiarze dokładnie takim (co do milimetra) jak rozmiar ekranu czytnika daje jak dla mnie zadowalający efekt. Wszystko inne okazało się gorsze jeżeli chodzi o końcową jakość książki.