r   e   k   l   a   m   a
r   e   k   l   a   m   a

Eksabajty danych w pudełku: Microsoft z syntetycznego DNA zrobił pamięć masową

Strona główna AktualnościSPRZĘT

W świecie, w którym modnym słowem staje się „eksabajt”, a na najpopularniejszy serwis wideo w Internecie wgrywa się bez zahamowań wideo 4K z zabawami kotków czy śmianiem się nastolatek, potrzeba lepszej pamięci masowej staje się coraz bardziej pilna. W końcu przez ostatnie kilka lat nie zmieniło się tak wiele, pojemność dysków twardych rośnie tylko liniowo, nie nadąża za ilością produkowanej informacji. Potrzebujemy jakiejś rewolucji – i niewykluczone, że tę rewolucję przyniesie nam Microsoft. Naukowcy pracujący dla firmy z Redmond wzięli się za biotechnologię, opracowując bardzo ciekawą metodę przechowywania danych w DNA. Na syntetycznej nici kwasu deoksyrybonukleinowego zapisali 200 MB, a następnie je odczytali. Może to niewiele, ale liczy się gęstość zapisu, a ta wzrosła tysiąckrotnie w porównaniu do zapisu magnetycznego.

Zapis w materiale biologicznym w niczym nie przypomina zapisu „zer” i „jedynek” na elektronicznych czy magnetycznych nośnikach. W opracowanej przez badaczy Microsoftu i University of Washington metodzie zera i jedynki są przekształcane w „litery” zasad azotowych nukleotydów (adenina, guanina, cytozyna i tymina – AGCT). Pozostający wciąż w elektronicznej formie zapis zostaje następnie rozbity na części, z „liter” biolodzy molekularni ze startupu Twist Bioscence syntetyzują wielką liczbę cząsteczek DNA, które wystarczy jedynie odwodnić, by zapewnić trwałość – możliwość przechowywania danych przez setki lat.

Odczytywanie tych danych wiąże się z wykorzystaniem reakcji łańcuchowej polimerazy (PCR) do powielania łańcuchów DNA. Po tym jak znacząco zwiększona zostaje koncentracja pożądanych fragmentów, zostają one zsekwencjonowane i zdekodowane, a na wynikowym ciągu uruchamia się algorytmy korekcji błędów. W ten właśnie sposób zapisany został klip wideo OK Go pt. This too shall pass, wraz z najpopularniejszymi książkami Projektu Gutenberg, Powszechną Deklaracją Praw Człowieka w stu językach i bazą danych nasion organizacji Crop Trust.

r   e   k   l   a   m   a

Sam Microsoft niewiele więcej ujawnił w komunikacie prasowym na temat zasady działania swojej pamięci DNA, ale znaleźliśmy artykuł, w którym działanie całego tego mechanizmu jest opisane znacznie bardziej rzetelnie.

System pamięci masowej na bazie DNA wykorzystuje zautomatyzowany syntetyzer DNA kodujący dane mające być przechowywane w cząsteczce, pojemnik-bibliotekę danych z przedziałami przechowującymi pule cząsteczek, oraz sekwencer DNA, który odczytuje sekwencje kodu genetycznego i przekształca je w cyfrowe dane.

Podstawową jednostką takiej pamięci jest nić DNA. Tworzy ją od 100 do 200 nukleotydów, może ona przechować od 50 do 100 bitów informacji. Niewiele – a to oznacza, że zwykle obiekt informacji musi zostać przeniesiony na wielką liczbę nici DNA. W tym celu wykorzystywana jest metoda adresowania klucz-wartość, w której klucz jest powiązany z pulą zawierającą wymaganą nić, a następnie mechanizm losowego dostępu służy do wydobycia nici z puli.

Mogłoby się wydawać, że konwersja z binarnych danych na czterozasadowy kod DNA zostanie zrobiona najprościej jak można, wykorzystując system liczbowy o podstawie 4. Np. bajt 011101112 zapisalibyśmy jako 13134, czyli w kodzie genetycznym np. CTCT (cytozyna-tymina-cytozyna-tymina). Jednak badacze zdecydowali się użyć systemu liczbowego o podstawie 3, tak by wykorzystywać jeden nukleotyd na potrzeby korekcji błędów. Tak więc bajt 011101112 zostaje zapisany jako 111023, czyli ciąg CCCAG.

Ta korekcja błędów to kolejna poważna sprawa dla nośników DNA, poziom błędów jest tak wysoki, że wymaga oprócz popularnych algorytmów ECC czy LDPC także redundancji, choć z możliwością ręcznego dostrajania, i to z dokładnością do bloku, w zależności od poziomu dokładności wymaganego od przechowywanych danych. Wiadomo – są dane takie jak pliki JPG, w których pojedyncze błędy nie stanowią problemu. Z drugiej strony kod maszynowy musi być zapisany z pełną precyzją. Takie selektywne sterowanie dokładnością znacząco zwiększa też wydajność operacji zapisu i odczytu – a operacje te wraz z rozmiarem danych stają się coraz powolniejsze i podatne na błędy.

Skoro już mowa o samej wydajności, to trzeba pamiętać o jednym: z DNA nie będzie zamienników dzisiejszych pamięci masowych, ani dysków talerzowych, ani tym bardziej pamięci półprzewodnikowych. Czasy dostępu są o rzędy wielkości wyższe, mierzone nawet w godzinach. Jednak w zamian dostajemy idealną pamięć archiwalną, w której zapisane dane przetrwać mogą stulecia. Co najważniejsze zaś, jest to pamięć o ogromnej pojemności – jak to ładnie stwierdził jeden z badaczy, cały zbiór informacji na tej planecie, szacowany na jakieś 700 eksabajtów, mógłby się zmieścić w pudełku po butach. DNA bowiem doskonale się pakuje w trójwymiarowej przestrzeni.

Teraz, gdy naukowcy Microsoftu pokazali, że możliwy jest zapis i odczyt do biologicznych pamięci ze stuprocentową dokładnością, pozostaje tylko czekać na komercjalizację tego rozwiązania, właśnie jako nośnika pamięci archiwalnych. W końcu można chyba poczekać kilka minut na dostęp do rzadkiej książki czy filmu sprzed stulecia.

© dobreprogramy
r   e   k   l   a   m   a
r   e   k   l   a   m   a

Komentarze

r   e   k   l   a   m   a
r   e   k   l   a   m   a
Czy wiesz, że używamy cookies (ciasteczek)? Dowiedz się więcej o celu ich używania i zmianach ustawień.
Korzystając ze strony i asystenta pobierania wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.