Wstępniak na nowy tydzień: władza nad światem dzięki wiedzy o świecie, czyli jak Google ustali prawdę o wszystkim

Chyba każdy, kto kiedykolwiek miał okazję prowadzić stronęinternetową, spotkał się z terminem SEO – optymalizacją podkątem wyszukiwarek. Wokół zagadnienia związanego z takimprzygotowaniem formy i treści witryny, by uzyskała jak najlepsząpozycję wyszukiwania dla zadanych słów kluczowych wyrósł cały biznes,w którym złotouści handlowcy wydzwaniali po właścicielach firm,obiecując im rozmaite magiczne obrzędy, dzięki którym to właśnie ichstrona będzie numerem 1. w wynikach Google. Nie żeby wszystko to byłowyssane z palca, techniki optymalizacji faktycznie mogą pomóc, aheurystyki na bazie których tworzony jest ranking wynikówwyszukiwania nie biorą się znikąd. Przez długi czas fundamentalny tualgorytm PageRank jest zaś na tyle prosty, że nawet taki złotoustyhandlowiec może swojemu klientowi wyjaśnić, o co tu chodzi. Z tymwięc większym zaciekawieniem – i rozbawieniem – przeczytałemkilka dni temu artykuł autorstwa informatyków z Google, zapowiadającynową, radykalnie odmienną od dotychczasowych metodę wyliczaniarankingu. Jeśli zostanie ona wdrożona, to większość tych technik SEOdziś stosowanych będzie można wyrzucić do śmieci, a te, którepotencjalnie mogłyby je zastąpić, okażą się zbyt trudne dlaprzeciętnego speca od doboru słów kluczowych.

Adam Golański

2 marca 2015, 12:11

Tak dla przypomnienia – liczbowo wyznaczona wartość,oznaczająca dla wyszukiwarki jakość strony, brała się z uwzględnienialiczby innych stron do niej odsyłających i ich liczbowo oznaczonejjakości. Im więc większa ocena linkującego hipertekstu, tym większeznaczenie tego linku. Pozwala to uchronić ranking przed operacjamipolegającymi na tworzeniu ogromnej liczby bezwartościowych stron,zawierających odnośniki do promowanej treści (tzw. farmami linków).Oczywiście to jedynie przybliżony opis wersji wzorcowej algorytmu,szczegółów jego implementacji nigdy nie ujawniono, co więcej, byłtraktowany jako jedna z największych tajemnic handlowych Google. Niema to jednak z tej perspektywy specjalnego znaczenia, istotne jestto, że zawartość strony miała mniejsze znaczenie niż struktura grafuopisującego powiązania między stronami.

Nowy pomysł, opisany w artykulept. Knowledge-Based Trust: Estimating the Trustworthiness of WebSources, to ukłon w stronę corazsilniejszych technik sztucznej inteligencji stosowanych przez Google,w szczególności tego, co nazywane jest ontologią wiedzy. Wyszukiwarkabudując swój ranking wyników dalej będzie brała pod uwagę jakośćstron, ocenianą jednak na podstawie ich zawartości. Miarą tej jakościstać się ma, uwaga, poprawność rzeczowej informacji przekazanej przezźródło. Im mniej fałszywych faktów w treści, tym większa wiarygodnośćstrony. Oczywiście wszystko to ma być analizowane maszynowo –googlebot sam znajdzie fakty na stronach i oceni je, korzystając zmetod stosowanych już dziś do budowy baz wiedzy, a by odróżnić błędyrzeczowe od błędów wynikających z procesu wyszukiwania faktów,sięgnie po całkiem wyrafinowane modele probabilistyczne.

Póki co wszystko pięknie, ale jakwyszukiwarka odróżni fakty poprawne od niepoprawnych? Tu pomocąposłuży metoda z KnowledgeVault, tworzonej od kilku lat przez Google ogromnej bazy wiedzy,która w 2014 roku zawierała już ponad 1,6 mld faktów orzeczach, wyekstrahowanych zbardziej i mniej zaufanych źródeł w Internecie. Te bardziej zaufaneźródła to m.in. baza ustrukturyzowanej wiedzy Freebase (należąca odkilku lat do Google) oraz Wikipedia, a te mniej zaufane – toprzeróżne strony WWW, których zawartość obrobiona zostaje algorytmamimaszynowego uczenia stosowanymi przez Google.

Introducing the Knowledge Graph

Taka semantyczna integracjaustrukturyzowanej maszynowo wiedzy jest zgodną z korporacyjną kulturąGoogle odpowiedzią na pytanie o przyszłość wyszukiwania, któremiałoby spełniać trzy funkcje – odpowiedzi, konwersacji iprzewidywania pytań użytkownika. Ranking budowany w oparciu ozaufanie bazujące na wiedzy (Knowledge-based trust, KBT, formalniezdefiniowaną strukturę algebraiczną) wygląda bardzo ładnie(przynajmniej dla lubiących matematykę), a efekty jego zastosowaniana syntetycznych zbiorach danych pokazują, że KBT nie tylkopozwala skutecznie wyselekcjonować jako najlepsze strony, które iprzez PageRank zostają ocenione jako najlepsze, ale też wskazać naźródła, które choć mają niski PageRank, posiadają wysoką wartośćinformacyjną.

I póki poruszamy się posyntetycznych zbiorach danych, mówimy o algebraicznych trójkach iobliczeniowej efektywności, nic temu pomysłowi zarzucić nie można –do momentu gdy nie zastanowimy się nad samą koncepcją faktu, prawdy ifałszu z bardziej krytycznej strony. Sami autorzy artykułu chybaprzeczuwali, jak bardzo kontrowersyjny jest zaproponowany przez nichmodel, wykorzystując przykład tak prowokacyjny, jak tylko się da(przynajmniej dla Amerykanów. Zamiast analizować typowe w logice iepistemologii przykłady w rodzaju koloru nieba, rozważają otóżkwestię narodowości Barracka Obamy, w której za wartość prawdziwąuznane są Stany Zjednoczone, zaś za wartość fałszywą… Kenia.Jeśli ktoś nie wie o co chodzi, to do tej pory w USA spora liczbaludzi (głównie wśród wyborców Partii Republikańskiej i uczestnikówrozmaitych niszowych ruchów politycznych) przekonanajest, że Barrack Obama nie urodził się na Hawajach, lecz w Kenii,a jego akt urodzenia został sfałszowany, by umożliwić mu start wwyborach prezydenckich. I tak oto, zastosowanie KBT na stronachinformujących, że wybierając Obamę na prezydenta USA naruszono drugiartykuł Konstytucji sprawia, że strony te, jako zawierająceniepoprawne rzeczowo informacje, automatycznie zostaną zdegradowane wrankingu – i nic z tego, że mogą do nich linkować tysiącenajlepszych blogów.

Niestety bowiem pojęcia prawdyczy faktów są dobre tylko w dziedzinie nauk dedukcyjnych, takich jakmatematyka. Poza nimi sprawa staje się skomplikowana. To co dlajednego jest „faktem i prawdą”, dla drugiego może byćordynarną propagandą. Niejednokrotnie za „prawdę” uznajesię aktualny konsensus. Banalna kwestia statusu Plutona – czywedług bazy wiedzy Google'a jest on planetą, czy nie jest? Niestetywygląda na to, że znakomici pod względem swoich kompetencjimatematycznych naukowcy z Mountain View są kompletnymi ignorantami,jeśli chodzi o epistemologię, teorię wiedzy czy filozofię nauki.Podają dobrze skonstruowane definicje swoich struktur algebraicznych,nie wyjaśniają jednak nigdzie, co mają na myśli, pisząc „fakt”.Czy to fakt w sensie naiwnego drugiego pozytywizmu (Ernst Mach ispółka)? Czy to fakt w sensie nadanym przez którąś ze szkółkonstruktywistów (np. von Glaserfelda)? Odpowiedzi na te akademickie,filozoficzne pytania mają tu bezpośrednie konsekwencje dla jednej znajważniejszych usług informatycznych działających w naszejcywilizacji – o ile w ogóle zostaną postawione.

Stawiać ich raczej w Google niktnie będzie. Stopniowe zastąpienie algorytmów rankingowych bazującychna obiektywnych sygnałach algorytmami bazującymi na interpretacjitreści daje decydentom z wielkiej korporacji ogromny wpływ na świat,pozwalając karać wszelkie treści, które naruszałyby wyznaczony przeznich konsensus. Co tu może pójść źle? Zautomatyzowany syndromgrupowego myślenia jest bronią memetyczną o potencjale wręczoszałamiającym. Pozostaje tylko czekać więc, aż Knowledge Vaultzostanie zintegrowany z usługą AdWords, tak by za odpowiednią kwotęmożna było dopisać „fakt” do google'owej bazy wiedzy.

Póki jednak Google nie wytyczy słusznej dla wszystkich bazywiedzy, zapraszam do kolejnego tygodnia z naszym portalem, na którymdopuszczamy, różne, czasem nawet bardzo skrajne głosy i stanowiska.Już teraz zapowiem, że ruszamy z kolejnym bardzo atrakcyjnymkonkursem, dotyczącym sprzętu i rozwiązań technicznych AMD – wktórym nagrodami będą produkty „czerwonej drużyny”.Będziemy też ze szczególną uwagą przyglądać się wieściom z Barcelony,gdzie wyruszyli nasi redakcyjni koledzy, na własne oczy obejrzeć cudatechniki, prezentowane podczas Mobile World Congress. Życzę ciekawejlektury, oraz oczywiście powodzenia w konkursie!

Adam Golański