Wstępniak na nowy tydzień: władza nad światem dzięki wiedzy o świecie, czyli jak Google ustali prawdę o wszystkim

Wstępniak na nowy tydzień: władza nad światem dzięki wiedzy o świecie, czyli jak Google ustali prawdę o wszystkim02.03.2015 12:11

Chyba każdy, kto kiedykolwiek miał okazję prowadzić stronęinternetową, spotkał się z terminem SEO – optymalizacją podkątem wyszukiwarek. Wokół zagadnienia związanego z takimprzygotowaniem formy i treści witryny, by uzyskała jak najlepsząpozycję wyszukiwania dla zadanych słów kluczowych wyrósł cały biznes,w którym złotouści handlowcy wydzwaniali po właścicielach firm,obiecując im rozmaite magiczne obrzędy, dzięki którym to właśnie ichstrona będzie numerem 1. w wynikach Google. Nie żeby wszystko to byłowyssane z palca, techniki optymalizacji faktycznie mogą pomóc, aheurystyki na bazie których tworzony jest ranking wynikówwyszukiwania nie biorą się znikąd. Przez długi czas fundamentalny tualgorytm PageRank jest zaś na tyle prosty, że nawet taki złotoustyhandlowiec może swojemu klientowi wyjaśnić, o co tu chodzi. Z tymwięc większym zaciekawieniem – i rozbawieniem – przeczytałemkilka dni temu artykuł autorstwa informatyków z Google, zapowiadającynową, radykalnie odmienną od dotychczasowych metodę wyliczaniarankingu. Jeśli zostanie ona wdrożona, to większość tych technik SEOdziś stosowanych będzie można wyrzucić do śmieci, a te, którepotencjalnie mogłyby je zastąpić, okażą się zbyt trudne dlaprzeciętnego speca od doboru słów kluczowych.

Tak dla przypomnienia – liczbowo wyznaczona wartość,oznaczająca dla wyszukiwarki jakość strony, brała się z uwzględnienialiczby innych stron do niej odsyłających i ich liczbowo oznaczonejjakości. Im więc większa ocena linkującego hipertekstu, tym większeznaczenie tego linku. Pozwala to uchronić ranking przed operacjamipolegającymi na tworzeniu ogromnej liczby bezwartościowych stron,zawierających odnośniki do promowanej treści (tzw. farmami linków).Oczywiście to jedynie przybliżony opis wersji wzorcowej algorytmu,szczegółów jego implementacji nigdy nie ujawniono, co więcej, byłtraktowany jako jedna z największych tajemnic handlowych Google. Niema to jednak z tej perspektywy specjalnego znaczenia, istotne jestto, że zawartość strony miała mniejsze znaczenie niż struktura grafuopisującego powiązania między stronami.

Nowy pomysł, opisany w artykulept. Knowledge-Based Trust: Estimating the Trustworthiness of WebSources, to ukłon w stronę corazsilniejszych technik sztucznej inteligencji stosowanych przez Google,w szczególności tego, co nazywane jest ontologią wiedzy. Wyszukiwarkabudując swój ranking wyników dalej będzie brała pod uwagę jakośćstron, ocenianą jednak na podstawie ich zawartości. Miarą tej jakościstać się ma, uwaga, poprawność rzeczowej informacji przekazanej przezźródło. Im mniej fałszywych faktów w treści, tym większa wiarygodnośćstrony. Oczywiście wszystko to ma być analizowane maszynowo –googlebot sam znajdzie fakty na stronach i oceni je, korzystając zmetod stosowanych już dziś do budowy baz wiedzy, a by odróżnić błędyrzeczowe od błędów wynikających z procesu wyszukiwania faktów,sięgnie po całkiem wyrafinowane modele probabilistyczne.

Póki co wszystko pięknie, ale jakwyszukiwarka odróżni fakty poprawne od niepoprawnych? Tu pomocąposłuży metoda z KnowledgeVault, tworzonej od kilku lat przez Google ogromnej bazy wiedzy,która w 2014 roku zawierała już ponad 1,6 mld faktów orzeczach, wyekstrahowanych zbardziej i mniej zaufanych źródeł w Internecie. Te bardziej zaufaneźródła to m.in. baza ustrukturyzowanej wiedzy Freebase (należąca odkilku lat do Google) oraz Wikipedia, a te mniej zaufane – toprzeróżne strony WWW, których zawartość obrobiona zostaje algorytmamimaszynowego uczenia stosowanymi przez Google.

Introducing the Knowledge Graph

Taka semantyczna integracjaustrukturyzowanej maszynowo wiedzy jest zgodną z korporacyjną kulturąGoogle odpowiedzią na pytanie o przyszłość wyszukiwania, któremiałoby spełniać trzy funkcje – odpowiedzi, konwersacji iprzewidywania pytań użytkownika. Ranking budowany w oparciu ozaufanie bazujące na wiedzy (Knowledge-based trust, KBT, formalniezdefiniowaną strukturę algebraiczną) wygląda bardzo ładnie(przynajmniej dla lubiących matematykę), a efekty jego zastosowaniana syntetycznych zbiorach danych pokazują, że KBT nie tylkopozwala skutecznie wyselekcjonować jako najlepsze strony, które iprzez PageRank zostają ocenione jako najlepsze, ale też wskazać naźródła, które choć mają niski PageRank, posiadają wysoką wartośćinformacyjną.

I póki poruszamy się posyntetycznych zbiorach danych, mówimy o algebraicznych trójkach iobliczeniowej efektywności, nic temu pomysłowi zarzucić nie można –do momentu gdy nie zastanowimy się nad samą koncepcją faktu, prawdy ifałszu z bardziej krytycznej strony. Sami autorzy artykułu chybaprzeczuwali, jak bardzo kontrowersyjny jest zaproponowany przez nichmodel, wykorzystując przykład tak prowokacyjny, jak tylko się da(przynajmniej dla Amerykanów. Zamiast analizować typowe w logice iepistemologii przykłady w rodzaju koloru nieba, rozważają otóżkwestię narodowości Barracka Obamy, w której za wartość prawdziwąuznane są Stany Zjednoczone, zaś za wartość fałszywą… Kenia.Jeśli ktoś nie wie o co chodzi, to do tej pory w USA spora liczbaludzi (głównie wśród wyborców Partii Republikańskiej i uczestnikówrozmaitych niszowych ruchów politycznych) przekonanajest, że Barrack Obama nie urodził się na Hawajach, lecz w Kenii,a jego akt urodzenia został sfałszowany, by umożliwić mu start wwyborach prezydenckich. I tak oto, zastosowanie KBT na stronachinformujących, że wybierając Obamę na prezydenta USA naruszono drugiartykuł Konstytucji sprawia, że strony te, jako zawierająceniepoprawne rzeczowo informacje, automatycznie zostaną zdegradowane wrankingu – i nic z tego, że mogą do nich linkować tysiącenajlepszych blogów.

Niestety bowiem pojęcia prawdyczy faktów są dobre tylko w dziedzinie nauk dedukcyjnych, takich jakmatematyka. Poza nimi sprawa staje się skomplikowana. To co dlajednego jest „faktem i prawdą”, dla drugiego może byćordynarną propagandą. Niejednokrotnie za „prawdę” uznajesię aktualny konsensus. Banalna kwestia statusu Plutona – czywedług bazy wiedzy Google'a jest on planetą, czy nie jest? Niestetywygląda na to, że znakomici pod względem swoich kompetencjimatematycznych naukowcy z Mountain View są kompletnymi ignorantami,jeśli chodzi o epistemologię, teorię wiedzy czy filozofię nauki.Podają dobrze skonstruowane definicje swoich struktur algebraicznych,nie wyjaśniają jednak nigdzie, co mają na myśli, pisząc „fakt”.Czy to fakt w sensie naiwnego drugiego pozytywizmu (Ernst Mach ispółka)? Czy to fakt w sensie nadanym przez którąś ze szkółkonstruktywistów (np. von Glaserfelda)? Odpowiedzi na te akademickie,filozoficzne pytania mają tu bezpośrednie konsekwencje dla jednej znajważniejszych usług informatycznych działających w naszejcywilizacji – o ile w ogóle zostaną postawione.

Stawiać ich raczej w Google niktnie będzie. Stopniowe zastąpienie algorytmów rankingowych bazującychna obiektywnych sygnałach algorytmami bazującymi na interpretacjitreści daje decydentom z wielkiej korporacji ogromny wpływ na świat,pozwalając karać wszelkie treści, które naruszałyby wyznaczony przeznich konsensus. Co tu może pójść źle? Zautomatyzowany syndromgrupowego myślenia jest bronią memetyczną o potencjale wręczoszałamiającym. Pozostaje tylko czekać więc, aż Knowledge Vaultzostanie zintegrowany z usługą AdWords, tak by za odpowiednią kwotęmożna było dopisać „fakt” do google'owej bazy wiedzy.

Póki jednak Google nie wytyczy słusznej dla wszystkich bazywiedzy, zapraszam do kolejnego tygodnia z naszym portalem, na którymdopuszczamy, różne, czasem nawet bardzo skrajne głosy i stanowiska.Już teraz zapowiem, że ruszamy z kolejnym bardzo atrakcyjnymkonkursem, dotyczącym sprzętu i rozwiązań technicznych AMD – wktórym nagrodami będą produkty „czerwonej drużyny”.Będziemy też ze szczególną uwagą przyglądać się wieściom z Barcelony,gdzie wyruszyli nasi redakcyjni koledzy, na własne oczy obejrzeć cudatechniki, prezentowane podczas Mobile World Congress. Życzę ciekawejlektury, oraz oczywiście powodzenia w konkursie!

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.