Google otwiera źródło narzędzia do analizy danych. "Liczy się prywatność"

(fot. Shutterstock.com)

05.09.2019 16:35

Google zdecydowało się na otwarcie kodu biblioteki odpowiedzialnej za anonimizację danych telemetrycznych. Oficjalnie firma chce pomóc innym organizacjom przetwarzającym duże zbiory danych. Ciężko jednak nie ulec wrażeniu, że jest to zarazem zagrywka marketingowa, mająca na celu odparcie zarzutów o szpiegostwo użytkowników.

Jak wynika z oficjalnych deklaracji, każdy zbiór danych telemetrycznych w Google'u jest anonimizowany. Mówiąc wprost, przetwarzany w sposób taki, aby uniemożliwić powiązanie danych z konkretnymi osobami. Spółka stosuje w tym celu technikę zwaną prywatnością różnicową.

Czym jest prywatność różnicowa? Chodzi o dodanie do zbioru danych szumu generowanego matematycznie. Taki szum oddaje wzorce, ale jest niemożliwy do bezpośredniego odczytu. Algorytm bezproblemowo zliczy odsetek określonych przypadków, ale już nie powiąże ich z nazwiskami czy danymi teleadresowymi. Google wyjaśnia na przykładzie:

Wyobraźmy sobie na przykład, że mierzymy ogólne trendy wyszukiwania informacji na temat grypy w danym regionie geograficznym. Aby osiągnąć prywatność różnicową, do zbioru danych dodajemy szum. Oznacza to, że możemy dodać lub odjąć liczbę osób szukających informacji o grypie w konkretnej okolicy, ale to działanie nie wpłynie na nasz pomiar trendu w całym regionie geograficznym. Warto jednak pamiętać, że po dodaniu szumu zbór danych może być mniej przydatny.

Anonimizacja a uogólnienie

Oczywiście prywatność różnicowa to tylko jedna z technik, które powszechnie stosuje się do anonimizacji danych. Samo Google, poza ścisłą kontrolą pracowników i obowiązujących wewnątrz firmy zasad, chwali się uogólnianiem danych przez tzw. k-anonimizację. Technika ta polega na budowaniu podzbiorów z rekordów o cechach wspólnych.

Załóżmy, że w jakiejś bazie danych znajduje się 100 warszawiaków. Wtedy na każdego mieszkańca stolicy przypada 99 innych osób o wspólnym wykładniku. Algorytm tym samym nie jest w stanie ustalić tożsamości konkretnej osoby bazując wyłącznie na informacji o miejscu zamieszkania.

TensorFlow Privacy

Otwarcie kodu algorytmu prywatności różnicowej dla administratorów baz danych nie jest pierwszą zagrywką tego typu ze strony Google'a. W marcu firma z Mountain View podzieliła się kodem biblioteki TensorFlow Privacy, implementującej anonimizację w procesie nauczania modeli sztucznej inteligencji tak, aby te również nie mogły ustalać tożsamości danych osób w próbce.

– Ten rodzaj analizy można wdrożyć na wiele różnych sposobów i do wielu różnych celów – pisze Miguel Guevara, menedżer produktu Google w departamencie prywatności i ochrony danych, na blogu. – Na przykład, jeśli jesteś lekarzem, możesz porównać średni czas pozostawania pacjentów w różnych szpitalach w celu ustalenia, czy istnieją różnice w opiece. Prywatność różnicowa jest wysoce analitycznym środkiem zapewniającym, że przypadki użycia takie jak ten są rozpatrywane w sposób chroniący prywatność – tłumaczy Guevara.

Apple też się tym chwaliło

Ciekawostką jest, że wykorzystaniem prywatności różnicowej swego czasu intensywnie chwaliło się Apple. Miało to miejsce w okolicach premiery iOS 10. Producent iPhone'ów, jak wówczas głosił, wykorzystał właśnie tę technikę w celu anonimizacji danych telemetrycznych pobieranych ze swych smartfonów i tabletów. Oszczędził jednak detali.

Tymczasem kod algorytmu należącego do Google'a można znaleźć na GitHubie.

Programy

Zobacz więcej