Strona używa cookies (ciasteczek). Dowiedz się więcej o celu ich używania i zmianach ustawień. Korzystając ze strony wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.    X

Cyfrowy dźwięk

WprowadzenieW dzisiejszych czasach dźwięk zapisany w postaci cyfrowej towarzyszy nam niemalże na co dzień. Poczynając od płyt CD, odtwarzaczy mp3, przez komputery, na dzwonkach w komórkach kończąc. Wielu z nas nawet nie zawraca uwagi na to, w jaki sposób tak naprawdę odbywa się zapisanie i odtworzenie dźwięku w postaci cyfrowej. W poniższym tekście chciałbym przedstawić czytelnikom kilka podstawowych pojęć związanych z tym tematem.

44,1 kHz i 16 bitówZapewne każdy, kto choć odrobinę interesuje się technologią słyszał o tych dwóch, odrobinę magicznych, liczbach. Kiedyś występowały one w kontekście płyty CD-Audio, dziś także i plików dźwiękowych. Co właściwie oznaczają? Aby uświadomić sobie ich znaczenie spójrzmy na poniższy rysunek (1).

Oś pionowa określa rozdzielczość, to właśnie ona wyrażona jest w liczbie szesnastu bitów dla płyty CD. Liczba ta pozwala na zapisanie 65 536 poziomów. Oś pozioma zaś oznacza kolejne próbki w czasie. To ich ilość wyznacza wartość 44,1 kHz - 44 100 próbek w ciągu jednej sekundy. Wartości te są ważne w procesie kwantyzacji, który polega na przetwarzaniu ciągłego sygnału analogowego, dostarczanego np. przez mikrofon, na sygnał dyskretny, czyli taki o skończonej wielkości. Przy podanych wyżej parametrach przetwornik analogowo-cyfrowy co 1/44100 sekundy pobiera chwilową wartość sygnału, odwzorowuje ją w 65 536 poziomowej skali i zapisuje jako jedną, 16-bitową próbkę. Warto zauważyć, że w czasie tego procesu tak naprawdę tracimy nieskończenie wielką ilość danych, ponieważ pomiędzy jedną próbką a drugą moglibyśmy zmieścić bardzo dużo kolejnych. Jednak całe szczęście nasze zmysły łatwo oszukać i nasz słuch nie dostrzega drobnych „schodków” jakie powstają z niedokładnych danych cyfrowych po powrotnej konwersji na sygnał analogowy.

Dlaczego wybrano akurat takie wartości?Jeżeli chodzi o rozdzielczość bitową, to odpowiedź jest dość prosta. Taka liczba możliwych poziomów pozwala na dobre odtworzenie dynamiki sygnału. Oznacza to, że odstęp pomiędzy sygnałem cichym a głośnym będzie na tyle duży, iż przy odtworzeniu będzie można je bez problemu rozróżnić, a nagrane instrumenty będą brzmiały realistycznie. Częstotliwość próbkowania uwarunkowana jest twierdzeniem Kotielnikowa-Shannona. Zgodnie z nim, aby móc wiernie odtworzyć sygnał ciągły (analogowy) z sygnału dyskretnego (cyfrowego), musiał on być próbkowany z częstotliwością co najmniej dwa razy większą niż najwyższa składowa widma tego sygnału. Ludzki słuch jest w stanie usłyszeć dźwięki o częstotliwościach od 16 Hz do 20000 Hz. W przypadku płyty CD-Audio najwyższa częstotliwość (2) jaką można bez problemu przy jej pomocy odtworzyć wynosi połowę 44,1 kHz czyli 22,05 kHz. Jest to zdecydowanie poza zasięgiem ludzkiego ucha, więc taka granica powinna jak najbardziej wystarczyć.
Oczywiście te dwa parametry nie są stałe i ulegają zmianie w zależności od zastosowań, np. telefonia GSM koduje sygnał w częstotliwości 8 kHz i na 13-tu bitach. Przez to najwyższą częstotliwością jaką może przesłać bez zniekształceń są 4 kHz. Sygnał powyżej tej częstotliwości ucina się odpowiednim filtrem, ponieważ w przeciwnym wypadku słyszalne by były efekty aliasingu.

Na zakończenieAby nie zanudzać czytelników i żeby wpisy czytało im się wygodniej, swoje spostrzeżenia związane z cyfrowym dźwiękiem zawrę w kolejnym wpisie. Prócz tego mam zamiar w najbliższym czasie choć w zarysie opisać zasadę działania kodeka mp3, bo myślę że wielu z nas pewnie używa go nawet nie wiedząc w jaki sposób pozwala na aż 10 krotne zmniejszenie objętości :)

Przypisy:
(1) Przepraszam za słabą jakość obrazu. Jest to fragment książki „Komputerowe studio muzyczne w domu” pana Michała Ołowni, który zachowałem w postaci zdjęcia z telefonu, po to aby samemu zapamiętać jak to właściwie jest z tym dźwiękiem :)
(2) Zwie się ją częstotliwością Nyquista

-----------------------------------------------------------Część drugą powyższego wpisu znajdziecie tutaj. 

Komentarze

0 nowych
GL1zdA   12 #1 02.09.2010 11:20

Warto tylko zaznaczyć, że twierdzenie K-S jest prawdziwe gdy próbkuje wartości ciągłe. W przypadku dźwięku cyfrowego, tak jak napisałeś, dokonywana jest kwantyzacja, co uniemożliwia wierne odtworzenie wejściowego sygnału. Stąd parametry 44100/16 dają tylko przybliżenie nagranego sygnału.

TheUsh   7 #2 02.09.2010 11:32

@GL1zdA:
Jeszcze co do twierdzenia K-S i częstotliwości Nyquista zauważyłem niedawno ciekawą rzecz. Wraz ze wzrostem częstotliwości sygnał jest coraz gorzej odwzorowywany, co jest chyba w miarę oczywiste, bo np. przy częstotliwości bliskiej granicznej do opisania jednego okresu sygnału będą wykorzystywane tylko 2 próbki. Powoduje to jednak problem tego typu, że w pewnym momencie przetwornik cyfrowo analogowy nie jest w stanie poprawnie odczytać dynamiki sygnału, przez co dźwięk cichnie :) O tym w następnym wpisie :)

flaszer   10 #3 02.09.2010 14:26

Przypomniałeś mi właśnie jak w zeszłym roku uczyłem się między innymi tych rzeczy na pewien egzamin na PWr ;) Krótko, zwięźle i na temat. Ciekaw teraz jestem co napiszesz o kodekach MP3, bo to również temat ciekawy.

Airborn   8 #4 03.09.2010 23:14

Warto również zauważyć, że 20kHz jest częstotliwością znacznie zawyżoną. W praktyce górna granica pasma słuchu leży poniżej tej wartości, dodatkowo, po 18stym roku życia zaczyna ciągle spadać.

TheUsh   7 #5 04.09.2010 00:03

@Airborn:
Fakt, górna granica dla ludzkiego słuchu spada nawet do 16kHz, ale nie chciałem wprowadzać większego zamieszania, dlatego podałem tylko wartości przepisane żywcem z encyklopedii :)

  #6 04.09.2010 17:45

Co z tego jak .mp3 pozwala zmniejszyć 10x jak jakość jest fatalna, odcina wszystko poniżej 40hz, a wysokie tony w plikach mp3 to tragedia,

TheUsh   7 #7 04.09.2010 18:52

@zzzzzPPPPP:
Wysokie tony przeważnie uwarunkowane są od tego jakiego kodeka się użyje ;) np. LAME obcina wszystko powyżej 16kHz, więc prawda - młodzi ludzie będą czuli wyraźną różnicę w wysokim paśmie. Z resztą subiektywne odczucie tego jak brzmi dana empetrójka zależy też od tego jak bardzo słuch słuchacza odbiega od użytego modelu psychoakustycznego, więc spieranie się o to czy coś brzmi źle czy dobrze jest raczej bez sensu. Inni mogą nie zauważyć różnicy ;)
Btw. nawet jeżeli obcina poniżej 40Hz, to tę różnicę odczują pewnie jedynie fanatycy rzeczy w stylu dubstep, którzy specjalnie inwestują w dobre subwoofery ;) Powiem szczerze, że nawet zestaw monitorów studyjnych, na których mam przyjemność pracować, nie osiąga częstotliwości niższych niż 40Hz, a co dopiero mówić o przeciętnym sprzęcie konsumenckim ;)

  #8 05.09.2010 10:36

Już nie chodzi nawet o muzyka, ale filmy. W dobrych filmach mamy niskie rejestry i te wszystkie filmy typu "DVD Rip" mają zazwyczaj dźwięk zakodowany w mp3 i odcięte to co najlepsze.

TheUsh   7 #9 05.09.2010 15:14

Tyle, że w tych DVD Ripach nie tylko dźwięk jest do bani. Nie dziw się, że coś brzmi fatalnie, skoro zakodowane jest z jak najmniejszą ilością bitów. Przez to muszą ucierpieć niskie i wysokie częstotliwości, bo to one są najmniej znaczące dla zrozumienia przekazu. Z resztą sam skazujesz się na gorszą jakość oglądając pirackie DVD Ripy i nie masz co narzekać na to, że to wina formatu.

  #10 05.09.2010 21:47

Ciekawe co to za monitory. Czytałem raz, chyba w Estradzie, o tym że dlatego niektóre płyty tak tragicznie brzmią ponieważ w studiach mają do bani monitory.