Google otwiera źródło narzędzia do analizy danych. "Liczy się prywatność"

Google otwiera źródło narzędzia do analizy danych. "Liczy się prywatność"05.09.2019 16:35
(fot. Shutterstock.com)

Google zdecydowało się na otwarcie kodu biblioteki odpowiedzialnej za anonimizację danych telemetrycznych. Oficjalnie firma chce pomóc innym organizacjom przetwarzającym duże zbiory danych. Ciężko jednak nie ulec wrażeniu, że jest to zarazem zagrywka marketingowa, mająca na celu odparcie zarzutów o szpiegostwo użytkowników.

Jak wynika z oficjalnych deklaracji, każdy zbiór danych telemetrycznych w Google'u jest anonimizowany. Mówiąc wprost, przetwarzany w sposób taki, aby uniemożliwić powiązanie danych z konkretnymi osobami. Spółka stosuje w tym celu technikę zwaną prywatnością różnicową.

Czym jest prywatność różnicowa? Chodzi o dodanie do zbioru danych szumu generowanego matematycznie. Taki szum oddaje wzorce, ale jest niemożliwy do bezpośredniego odczytu. Algorytm bezproblemowo zliczy odsetek określonych przypadków, ale już nie powiąże ich z nazwiskami czy danymi teleadresowymi. Google wyjaśnia na przykładzie:

Wyobraźmy sobie na przykład, że mierzymy ogólne trendy wyszukiwania informacji na temat grypy w danym regionie geograficznym. Aby osiągnąć prywatność różnicową, do zbioru danych dodajemy szum. Oznacza to, że możemy dodać lub odjąć liczbę osób szukających informacji o grypie w konkretnej okolicy, ale to działanie nie wpłynie na nasz pomiar trendu w całym regionie geograficznym. Warto jednak pamiętać, że po dodaniu szumu zbór danych może być mniej przydatny.

Anonimizacja a uogólnienie

Oczywiście prywatność różnicowa to tylko jedna z technik, które powszechnie stosuje się do anonimizacji danych. Samo Google, poza ścisłą kontrolą pracowników i obowiązujących wewnątrz firmy zasad, chwali się uogólnianiem danych przez tzw. k-anonimizację. Technika ta polega na budowaniu podzbiorów z rekordów o cechach wspólnych.

Załóżmy, że w jakiejś bazie danych znajduje się 100 warszawiaków. Wtedy na każdego mieszkańca stolicy przypada 99 innych osób o wspólnym wykładniku. Algorytm tym samym nie jest w stanie ustalić tożsamości konkretnej osoby bazując wyłącznie na informacji o miejscu zamieszkania.

TensorFlow Privacy

Otwarcie kodu algorytmu prywatności różnicowej dla administratorów baz danych nie jest pierwszą zagrywką tego typu ze strony Google'a. W marcu firma z Mountain View podzieliła się kodem biblioteki TensorFlow Privacy, implementującej anonimizację w procesie nauczania modeli sztucznej inteligencji tak, aby te również nie mogły ustalać tożsamości danych osób w próbce.

– Ten rodzaj analizy można wdrożyć na wiele różnych sposobów i do wielu różnych celów – pisze Miguel Guevara, menedżer produktu Google w departamencie prywatności i ochrony danych, na blogu. – Na przykład, jeśli jesteś lekarzem, możesz porównać średni czas pozostawania pacjentów w różnych szpitalach w celu ustalenia, czy istnieją różnice w opiece. Prywatność różnicowa jest wysoce analitycznym środkiem zapewniającym, że przypadki użycia takie jak ten są rozpatrywane w sposób chroniący prywatność – tłumaczy Guevara.

Apple też się tym chwaliło

Ciekawostką jest, że wykorzystaniem prywatności różnicowej swego czasu intensywnie chwaliło się Apple. Miało to miejsce w okolicach premiery iOS 10. Producent iPhone'ów, jak wówczas głosił, wykorzystał właśnie tę technikę w celu anonimizacji danych telemetrycznych pobieranych ze swych smartfonów i tabletów. Oszczędził jednak detali.

Tymczasem kod algorytmu należącego do Google'a można znaleźć na GitHubie.

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.