Blog (12)
Komentarze (42)
Recenzje (0)

Cholerne ą-ę – czyli kodowanie w UTF-8

@mcywinskiCholerne ą-ę – czyli kodowanie w UTF-813.03.2013 14:35

Studia jak to studia, wymuszają na biednym studencie zgłębianie dziwacznych zakamarków wiedzy. Tym razem moje ćwiczenia z Teorii Informacji i Kodowania poruszyły temat Unicode, a konkretniej UTF-8.

Skoro na co dzień używamy tego kodowania w wielu plikach, to warto go poznać. Sposoby, które przedstawię na łamach tego wpisu mogą okazać się szczególnie przydatne studentom. Nie mam zamiaru tłumaczyć tutaj dlaczego takie kodowanie jest fajne (lub nie) ani tony zbędnej teorii, a raczej praktycznie pokazać jak przed kolokwium albo sprawdzianem szybko nauczyć się kodować dowolne znaki w UTF-8.

UWAGA: Zakładam, że czytelnik w biegły sposób potrafi poruszać się pomiędzy systemem binarnym i heksadecymalnym.

Rys teoretyczny

Lata temu grupa mądrych ludzi zza oceanu wymyśliła, że znaki w dokumentach możemy kodować na podstawie tabeli ASCII. O ile ASCII tylko i wyłącznie w czystej postaci jest już dzisiaj rzadko spotykane, to w kodowaniu UTF-8 ma olbrzymie znaczenie – zaraz zobaczymy dlaczego.

Tabela ta oczywiście nie zawiera znaków innych niż z alfabetu łacińskiego, ponieważ amerykanie nie mieli takiej potrzeby. Próbowano to obejść przy pomocy stron kodowych. Ten kto jeszcze pamięta Windows 9x, ten wie o co chodzi ;)

Wracając to problemu kodowania znaczków innych niż w tablicy ASCII wymyślono tak:

  • Jeżeli znak, który chcemy zakodować znajduje się w tablicy ASCII, to zapisujemy go standardowo według jego kodu z tablicy
  • W przeciwnym razie posłużmy się sposobem kodowania, który wykładowca tłumaczył jak najbardziej zawiłym sposobem na wykładzie

Co to dla nas oznacza?

Jeżeli mamy literkę jak A lub e lub dowolną inną z tablicy ASCII, to wyszukujemy jej kod i wpisujemy w plik. Tak robią edytory tekstu przy kodowaniu UTF-8. Więc A zapiszemy jako 41h, e zapiszemy jako 101h.

Kodujemy!

Aby zakodować coś spoza kodu ASCII, użyjemy do tego kolejnej tabelki.

Dla każdego znaku z tabelki posłużymy się następującym algorytmem:

  • Odnajdujemy interesujący nas znak w tablicy i zapisujemy jego numer Unicode (U+x)
  • Rozpisujemy numer binarnie (uwaga, numer jest zapisany heksadecymalnie)
  • Kodujemy znaki w kolejnych „przedziałach” bitów grupowanych po 8, numerując każdy przedział kolejno bitami 10, 110, 1110, 11110...

Brzmi strasznie? Tylko w teorii. Zakodujmy dla przykładu literkę Ę. 1. Odnajduję kod literki Ę i zapisuję go: U+118. 2. Rozpisuję binarnie 118h: 000100011000, po pominięciu nic nie zmieniających bitów otrzymuję 100011000. 3. Koduję:

  • Próbuję zapisać w pierwszym przedziale bity. Numer pierwszego przedziału to 10. Mam do wykorzystania 6 bitów, więc biorę ostatnie 6 bitów naszego rozpisanego 118h: 011000. Po włączeniu numeru przedziału na początek otrzymuję: 1001 1000
  • Pozostały mi bity 00100. Koduję więc drugi przedział i numeruję go kolejno: 110. Łączę numer z pozostałymi bitami i otrzymuję: 1100 0100
  • Zakodowałem całą liczbę! Teraz łączymy przedziały: 1100 0100 1001 1000
  • W przeliczeniu na system szesnastkowy otrzymujemy C498h.

Jeżeli znamy podstawowe przeliczenia między systemami liczbowymi, to kodowanie w UTF-8 nie powinno sprawić nikomu problemu. A jak sprawdzić czy na pewno dobrze zadokowaliśmy znak?

Sprawdzenie

Z przyzwyczajenia używam dość archaicznego programu HexView

W ulubionym edytorze (w moim przypadku TextPad ) zapisuję naszą przykładową literkę Ę i zapisuję, stosując kodowanie UTF-8.

Następnie w HexView otwieram nasz plik tekstowy i sprawdzam rezultat:

Widok znaku w UTF-8
Widok znaku w UTF-8

Jak widać, literka Ę jest zakodowana poprawnie :)

Podsumowanie

Jak widać nie taki diabeł straszny i spokojnie można nauczyć się kodowania znaków, a potem może i zaimplementować własny algorytm ich zapisu w swoje programy? Niezależnie od tego czy mój wpis służył w celu zaspokojenia własnej ciekawości, czy też nauki do kolosa na kierunku technicznym, mam nadzieję że pomogłem :) Jeżeli popełniłem gdzieś po drodze błąd, to proszę abyście mnie poprawili ;)

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.