r   e   k   l   a   m   a
r   e   k   l   a   m   a

Wstępniak na nowy tydzień: władza nad światem dzięki wiedzy o świecie, czyli jak Google ustali prawdę o wszystkim

Strona główna AktualnościDOBREPROGRAMY

Chyba każdy, kto kiedykolwiek miał okazję prowadzić stronę internetową, spotkał się z terminem SEO – optymalizacją pod kątem wyszukiwarek. Wokół zagadnienia związanego z takim przygotowaniem formy i treści witryny, by uzyskała jak najlepszą pozycję wyszukiwania dla zadanych słów kluczowych wyrósł cały biznes, w którym złotouści handlowcy wydzwaniali po właścicielach firm, obiecując im rozmaite magiczne obrzędy, dzięki którym to właśnie ich strona będzie numerem 1. w wynikach Google. Nie żeby wszystko to było wyssane z palca, techniki optymalizacji faktycznie mogą pomóc, a heurystyki na bazie których tworzony jest ranking wyników wyszukiwania nie biorą się znikąd. Przez długi czas fundamentalny tu algorytm PageRank jest zaś na tyle prosty, że nawet taki złotousty handlowiec może swojemu klientowi wyjaśnić, o co tu chodzi. Z tym więc większym zaciekawieniem – i rozbawieniem – przeczytałem kilka dni temu artykuł autorstwa informatyków z Google, zapowiadający nową, radykalnie odmienną od dotychczasowych metodę wyliczania rankingu. Jeśli zostanie ona wdrożona, to większość tych technik SEO dziś stosowanych będzie można wyrzucić do śmieci, a te, które potencjalnie mogłyby je zastąpić, okażą się zbyt trudne dla przeciętnego speca od doboru słów kluczowych.

Tak dla przypomnienia – liczbowo wyznaczona wartość, oznaczająca dla wyszukiwarki jakość strony, brała się z uwzględnienia liczby innych stron do niej odsyłających i ich liczbowo oznaczonej jakości. Im więc większa ocena linkującego hipertekstu, tym większe znaczenie tego linku. Pozwala to uchronić ranking przed operacjami polegającymi na tworzeniu ogromnej liczby bezwartościowych stron, zawierających odnośniki do promowanej treści (tzw. farmami linków). Oczywiście to jedynie przybliżony opis wersji wzorcowej algorytmu, szczegółów jego implementacji nigdy nie ujawniono, co więcej, był traktowany jako jedna z największych tajemnic handlowych Google. Nie ma to jednak z tej perspektywy specjalnego znaczenia, istotne jest to, że zawartość strony miała mniejsze znaczenie niż struktura grafu opisującego powiązania między stronami.

Nowy pomysł, opisany w artykule pt. Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources, to ukłon w stronę coraz silniejszych technik sztucznej inteligencji stosowanych przez Google, w szczególności tego, co nazywane jest ontologią wiedzy. Wyszukiwarka budując swój ranking wyników dalej będzie brała pod uwagę jakość stron, ocenianą jednak na podstawie ich zawartości. Miarą tej jakości stać się ma, uwaga, poprawność rzeczowej informacji przekazanej przez źródło. Im mniej fałszywych faktów w treści, tym większa wiarygodność strony. Oczywiście wszystko to ma być analizowane maszynowo – googlebot sam znajdzie fakty na stronach i oceni je, korzystając z metod stosowanych już dziś do budowy baz wiedzy, a by odróżnić błędy rzeczowe od błędów wynikających z procesu wyszukiwania faktów, sięgnie po całkiem wyrafinowane modele probabilistyczne.

r   e   k   l   a   m   a

Póki co wszystko pięknie, ale jak wyszukiwarka odróżni fakty poprawne od niepoprawnych? Tu pomocą posłuży metoda z Knowledge Vault, tworzonej od kilku lat przez Google ogromnej bazy wiedzy, która w 2014 roku zawierała już ponad 1,6 mld faktów o rzeczach, wyekstrahowanych z bardziej i mniej zaufanych źródeł w Internecie. Te bardziej zaufane źródła to m.in. baza ustrukturyzowanej wiedzy Freebase (należąca od kilku lat do Google) oraz Wikipedia, a te mniej zaufane – to przeróżne strony WWW, których zawartość obrobiona zostaje algorytmami maszynowego uczenia stosowanymi przez Google.

Taka semantyczna integracja ustrukturyzowanej maszynowo wiedzy jest zgodną z korporacyjną kulturą Google odpowiedzią na pytanie o przyszłość wyszukiwania, które miałoby spełniać trzy funkcje – odpowiedzi, konwersacji i przewidywania pytań użytkownika. Ranking budowany w oparciu o zaufanie bazujące na wiedzy (Knowledge-based trust, KBT, formalnie zdefiniowaną strukturę algebraiczną) wygląda bardzo ładnie (przynajmniej dla lubiących matematykę), a efekty jego zastosowania na syntetycznych zbiorach danych pokazują, że KBT nie tylko pozwala skutecznie wyselekcjonować jako najlepsze strony, które i przez PageRank zostają ocenione jako najlepsze, ale też wskazać na źródła, które choć mają niski PageRank, posiadają wysoką wartość informacyjną.

I póki poruszamy się po syntetycznych zbiorach danych, mówimy o algebraicznych trójkach i obliczeniowej efektywności, nic temu pomysłowi zarzucić nie można – do momentu gdy nie zastanowimy się nad samą koncepcją faktu, prawdy i fałszu z bardziej krytycznej strony. Sami autorzy artykułu chyba przeczuwali, jak bardzo kontrowersyjny jest zaproponowany przez nich model, wykorzystując przykład tak prowokacyjny, jak tylko się da (przynajmniej dla Amerykanów. Zamiast analizować typowe w logice i epistemologii przykłady w rodzaju koloru nieba, rozważają otóż kwestię narodowości Barracka Obamy, w której za wartość prawdziwą uznane są Stany Zjednoczone, zaś za wartość fałszywą… Kenia. Jeśli ktoś nie wie o co chodzi, to do tej pory w USA spora liczba ludzi (głównie wśród wyborców Partii Republikańskiej i uczestników rozmaitych niszowych ruchów politycznych) przekonana jest, że Barrack Obama nie urodził się na Hawajach, lecz w Kenii, a jego akt urodzenia został sfałszowany, by umożliwić mu start w wyborach prezydenckich. I tak oto, zastosowanie KBT na stronach informujących, że wybierając Obamę na prezydenta USA naruszono drugi artykuł Konstytucji sprawia, że strony te, jako zawierające niepoprawne rzeczowo informacje, automatycznie zostaną zdegradowane w rankingu – i nic z tego, że mogą do nich linkować tysiące najlepszych blogów.

Niestety bowiem pojęcia prawdy czy faktów są dobre tylko w dziedzinie nauk dedukcyjnych, takich jak matematyka. Poza nimi sprawa staje się skomplikowana. To co dla jednego jest „faktem i prawdą”, dla drugiego może być ordynarną propagandą. Niejednokrotnie za „prawdę” uznaje się aktualny konsensus. Banalna kwestia statusu Plutona – czy według bazy wiedzy Google'a jest on planetą, czy nie jest? Niestety wygląda na to, że znakomici pod względem swoich kompetencji matematycznych naukowcy z Mountain View są kompletnymi ignorantami, jeśli chodzi o epistemologię, teorię wiedzy czy filozofię nauki. Podają dobrze skonstruowane definicje swoich struktur algebraicznych, nie wyjaśniają jednak nigdzie, co mają na myśli, pisząc „fakt”. Czy to fakt w sensie naiwnego drugiego pozytywizmu (Ernst Mach i spółka)? Czy to fakt w sensie nadanym przez którąś ze szkół konstruktywistów (np. von Glaserfelda)? Odpowiedzi na te akademickie, filozoficzne pytania mają tu bezpośrednie konsekwencje dla jednej z najważniejszych usług informatycznych działających w naszej cywilizacji – o ile w ogóle zostaną postawione.

Stawiać ich raczej w Google nikt nie będzie. Stopniowe zastąpienie algorytmów rankingowych bazujących na obiektywnych sygnałach algorytmami bazującymi na interpretacji treści daje decydentom z wielkiej korporacji ogromny wpływ na świat, pozwalając karać wszelkie treści, które naruszałyby wyznaczony przez nich konsensus. Co tu może pójść źle? Zautomatyzowany syndrom grupowego myślenia jest bronią memetyczną o potencjale wręcz oszałamiającym. Pozostaje tylko czekać więc, aż Knowledge Vault zostanie zintegrowany z usługą AdWords, tak by za odpowiednią kwotę można było dopisać „fakt” do google'owej bazy wiedzy.

Póki jednak Google nie wytyczy słusznej dla wszystkich bazy wiedzy, zapraszam do kolejnego tygodnia z naszym portalem, na którym dopuszczamy, różne, czasem nawet bardzo skrajne głosy i stanowiska. Już teraz zapowiem, że ruszamy z kolejnym bardzo atrakcyjnym konkursem, dotyczącym sprzętu i rozwiązań technicznych AMD – w którym nagrodami będą produkty „czerwonej drużyny”. Będziemy też ze szczególną uwagą przyglądać się wieściom z Barcelony, gdzie wyruszyli nasi redakcyjni koledzy, na własne oczy obejrzeć cuda techniki, prezentowane podczas Mobile World Congress. Życzę ciekawej lektury, oraz oczywiście powodzenia w konkursie!

© dobreprogramy
r   e   k   l   a   m   a
r   e   k   l   a   m   a

Komentarze

r   e   k   l   a   m   a
r   e   k   l   a   m   a
Czy wiesz, że używamy cookies (ciasteczek)? Dowiedz się więcej o celu ich używania i zmianach ustawień.
Korzystając ze strony i asystenta pobierania wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki.