Nie ma czegoś takiego, jak czysty tekst. Kodowanie wielobajtowe

Nie ma czegoś takiego, jak czysty tekst. Kodowanie wielobajtowe10.03.2020 07:15
Nie ma czegoś takiego, jak czysty tekst. (fot. Pixabay)

Ustaliliśmy ostatnio, że jeden bajt na znak to za mało, a ponieważ stać nas na więcej, świat rozpoczął implementowanie różnych metod kodowania stosujących wiele bajtów. Na czym polegają problemy z zastosowaniem takiego kodowania? Wydaje się ono rozwiązaniem bolączki, jaką są strony kodowe i zregionalizowane, nieprzenośne ustawienia zbiorów znaków. Co może pójść źle podczas przejścia na Unicode implementowany w postaci wielobajtowych, "szerokich" znaków (wide character, wchar)?

Całkiem sporo. Zastosowanie tak zdefiniowanego Unicode (są też inne!) sprawia, że każdy plik tekstowy efektywnie dwukrotnie rośnie. A ponieważ miejsce na dysku i szerokość łącz nie podwoją się tylko dlatego, że bardzo tego chcemy, natychmiast pojawiają się opory, czy na pewno "akurat teraz" jest konieczność zakodowania pliku w Unicode, bo wyjątkowo potrzeba nam dużo miejsca. Zadawanie takich pytań oznacza, że pomysł jest wadliwy. Wadliwość ta wynika nie z samego Unicode'u, ale z jego implementacji, np. UCS-2 (wszystko stanie się jasne już niedługo).

Skąd wiadomo, że znak jest szeroki?

Tych wad jest więcej. Przetwarzanie łańcuchów tekstu jest bardzo często operacją elementarną i nieabstrahowaną wyżej, celem zachowania wysokiej wydajności. Wskutek tego programy nierozumiejące, że nie mają już do czynienia z jednobajtowym tekstem, zaczynają wariować.

Nasza bułeczka rozjechała się, bowiem dwubajtowe "Ł" zostało potratkowane jako ASCII. To typowa postać plików Unicode otwieranych w MS-DOS (fot. Kamil Dudek)
Nasza bułeczka rozjechała się, bowiem dwubajtowe "Ł" zostało potratkowane jako ASCII. To typowa postać plików Unicode otwieranych w MS-DOS (fot. Kamil Dudek)

Kodowanie wielobajtowe o stałej szerokości zakłada, że jeżeli znak mieści się w tradycyjnym ASCII, nie zachodzi potrzeba wykorzystania drugiego bajtu i pozostaje on pusty (00). Gdy wielobajtowa litera ma jeden bajt pusty, wyświetlanie się nie posypie. Gdy jednak znak jest złożony (jak "ą" lub "🍉"), możemy dostać na ekranie śmieci, zależne w dodatku od strony kodowej, a więc różne między komputerami.

Jak stracić literki

Pal licho, gdy chodzi o samo wyświetlanie. Problem z programem nieświadomym tego, że ma do czynienia z wielobajtowym tekstem może prowadzić do utraty danych! Spójrzmy na poniższy prosty przykład w języku C. Osobom religijnie obrażonym wczorajszą pętlą for od razu ułatwię zadanie i podpowiem, że nie tak się parsuje pliki tekstowe, a deskryptor jest niebezpiecznie otwierany. Mając ten emfatyczny ceremoniał za sobą, popatrzmy:


#include "dobreprogramy.h"
char buf[24] ;
int main (void)
{
        memset(buf, '\0', sizeof(buf));
        int rb = read(open(UTFILE, 0x0000), buf, sizeof(buf)) ;
        if (rb > 0) { printf("%s\n", buf) ; }
        else { return rb ; }
        // Proszę tak nigdy nie robić :)
}

Taki (prostacki) program, nakarmiony plikiem "tekstowym" o wielobajtowym zapisie, mimo pełnego bufora nie wypisze nic. Wewnętrzne struktury języka C sprawiają, że puste bajty pliku zakodowanego dwubajtowo są traktowane jako terminator i w konsekwencji program wypisuje pustkę. Mogłoby się wydawać, że to elementarny błąd i nie należy arbitralnie szastać printfem. Istotnie. Ale zarazem żyjemy w świecie, gdzie co chwilę trzeba gdzieś łatać przepełnienia bufora. Obrażanie się na kod nie wpływa na rzeczywistość, w jakiej funkcjonujemy.

Warstwa kompatybilności z piekłem

To jeszcze nie wszystko. Ponieważ, jak wiemy, przetwarzanie tekstu bywa niskopoziomowe i chodzi w nim o strumienie bajtów, alokowanie pamięci dla buforów również może odbywać się "niskopoziomowo" i w kolejności dyktowanej przez platformę. Tak się bowiem składa, że lokalizacja znaczącego bajtu między architekturami różni się. Na przykład x86 adresuje "od końca". Ta różnica przekłada się na miejsce dodatkowych bajtów dla znaków w tekście Unicode.

Windows twierdzi, że to zwyczajny tekst, ale OpenSUSE jest innego zdania (fot. Kamil Dudek)
Windows twierdzi, że to zwyczajny tekst, ale OpenSUSE jest innego zdania (fot. Kamil Dudek)

Jako, że i tak w tekst planujemy ładować dodatkowe bajty, co nam szkodzi do tekstu, na początku, dorzucić dwóch bajtów oznaczających porządek kodowania znaków? W ten sposób powstał Byte Order Mark (BOM), czyli dwa bajty: EE i EF. W zależności od ich ustawienia (EE EF lub EF EE) wiadomo, w którym kierunku liczy platforma i gdzie znajdują się znaczące bajty w strumieniu.

Co może pójść nie tak?

Oczywiście spontaniczne dodawanie bajtów do tekstu to dolewanie oliwy do ognia: próba rozwiązania stworzonego samodzielnie problemu poprzez pogarszanie sytuacji innym. Obecność BOM potrafi pięknie wyłożyć pliki skryptowe i wsadowe. Biedaskrypty BAT i CMD potrafią nie działać, gdy zaczynają się od BOM (acz nie zawsze...). Starsze wersje sh też potrafią się zaciąć na takich plikach, twierdząc np. że są binarne. Telnet rozłączy się, gdy napotka BOM, bo 0xFF jest ponad jego siły (IAC). Co gorsza, problem jest niewidoczny gołym okiem. Bajtów EE i EF nie widać w edytorze tekstu, więc łatwo je przeoczyć, chcąc rozwiązać problem nie znając jego źródła.

Jak sobie z tym poradzić? Krótko mówiąc - lepiej implementując standard Unicode! O zastosowanym rozwiązaniu dowiemy się z drugiej części.

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.