Blog (92)
Komentarze (104)
Recenzje (0)

Nie da się? Czyli jak z przeglądarki zapisać 14639 tekstów z fantastyka.pl w plikach EPUB

@marcinw2Nie da się? Czyli jak z przeglądarki zapisać 14639 tekstów z fantastyka.pl w plikach EPUB27.08.2020 23:16

Kilka miesięcy temu zachciało mi się przejrzeć teksty z fantastyka.pl, ale... strona nie ma wersji mobilnej. Czytanie na telefonie z przeglądarki nie wchodziło w grę, więc zrobiłem dwie rzeczy:

  1. usiadłem i na szybko napisałem w PHP konwerter do EPUB (post)
  2. zaproponowałem napisanie CMSa, który mógłby obsługiwać tę stronę i mieć dodaną taką funkcjonalność (ostatni post o projekcie)

Konwerter spotkał się raczej ze średnim przyjęciem, ale uaktualniałem go o kolejne opcje i dodałem podobną funkcjonalność dla fantastykapolska.pl. Na chwilę obecną całość sprawdza się całkiem nieźle i pozwala chociażby na szybkie uaktualnianie plików, które mamy na dysku. Wersja z github "z pudełka" jest przystosowana do Linuxa (operuje w /tmp i zawiera takie komendy jak "rm").

Przyszedł sierpień i zauważyłem taką bibliotekę jak JSZip.

Czy kod w JavaScript może mieć taką samą funkcjonalność jak konwerter w PHP?

Pytanie to nie dawało mi spokoju przez kilka nocy, więc usiadłem i napisałem co potrzeba.

Jak tego użyć?

  1. pobieramy i rozpakowujemy https://github.com/marcinwiacek/fantastyka/archive/master.zip
  2. wczytujemy plik fantastyka.htm w przeglądarce
  3. wybieramy dział z fantastyka.pl, (jeżeli mamy) stary plik i to, czy chcemy usunąć z pliku "martwe" teksty
  4. klikamy "Start" i czekamy, a na końcu zapisujemy nasz plik

Od strony technicznej:

  • wersja w JavaScript obsługuje lwią większość funkcji z wersji w PHP
  • w obu zdecydowałem się na czytanie stron i tekstów jeden po drugim, żeby nie obciążać serwera docelowego (nie chcę rozwijać tego tematu)
  • testowałem w wersji desktopowej w Chromium i Firefox, nie sprawdzałem w Safari
  • w konsoli przeglądarki widać komunikat typu "Synchronous XMLHttpRequest on the main thread is deprecated because of its detrimental effects to the end user’s experience"
  • w Chrome konieczne jest kliknięcie od czasu do czasu na przycisk Wait

Co poszło nie tak?

Z pełną premedytacją napisałem kod, który nie obciąża fantastyka.pl i robi rzeczy sekwencyjnie. Wiąże się to z tym, że kod w wątku przeglądarki działa poniekąd tak długo, że przeglądarka "zauważa", że ten się zawiesił (stąd też informacje o stanie podaję w tytule strony - w Chromium DOM nie jest wystarczająco szybko odświeżany).

Mógłbym oczywiście użyć Web Workera i przetwarzanie robić w jednym wątku, a wyświetlanie stanu w drugim... ale wtedy strona nie mogłaby być używana lokalnie z dysku.

Kolejną ciekawostką tutaj jest, że strony musiałem czytać przez serwis zewnętrzny.

A sam JSZip?

Powiedziałbym, że pewne rzeczy nie są do końca intuicyjne (przykładowo nie znalazłem synchronicznej metody do czytania zawartości pliku wewnątrz skompresowanego pliku), ale całość daje radę.

Swoją drogą widać, jaką drogę przeszedł JavaScript - z prostego narzędzia do wyświetlania okienek dialogowych i wyniku 2+2 (przypominają mi się książki Heliona i czerwone papierowe Chipy z okolic 1997) doszliśmy do tego, że do języka przemycana jest wielowątkowość i wiele konstrukcji z innych języków.

Bardzo mi to przypomina historię Basica - z prostego z numerowanymi liniami, przechodził poprzez QBasic, Visual Basic, VBA i wersje .NET, aż w końcu został odsunięty na boczny tor.

Niezależnie jednak od wszystkiego - całość działa wystarczająco dobrze, a ja pewnie będę sukcesywnie dodawał nowe funkcjonalności czy usuwał ewentualne usterki.

Miłego czytania!

PS. Nie planuję tego dodać na stronę domową mwiacek.com - chcę uniknąć sytuacji, że jakaś mądra duszyczka przyjdzie i zacznie się czepiać o to, że przechowuję pirackie pliki.

PS2. https://github.com/marcinwiacek/fantastyka

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.