Blog (2)
Komentarze (14)
Recenzje (0)

Gra dla poprawy jakości Wikipedii

@lewoniewskiGra dla poprawy jakości Wikipedii06.08.2018 19:22

Niedawno ukazała się wersja beta gry online WikiBest. Projekt jest częścią badań nad jakością danych w Wikipedii. Gra pozwala porównać jakość danych w różnych wersjach językowych Wikipedii. Obecnie serwis umożliwia porównanie jakości danych w 5 językach: polskiej, angielskiej, ukraińskiej, białoruskiej, rosyjskiej. W najbliższej przyszłości planowane jest zwiększenie liczby języków.

Mimo swojej popularności Wikipedia jest często krytykowana za niską jakość. W świecie nauki istnieją różne podejścia do automatycznej oceny jakości artykułów w tej darmowej encyklopedii. Jednak nadal pozostaje wiele problemów do rozwiązania. Na przykład, jak automatycznie oceniać lub porównywać jakość poszczególnych faktów w różnych wersjach językowych na ten sam temat?

W Wikipedii każdy artykuł może mieć kilka wersji językowych (nawet ponad 200). Z jednej strony upraszcza to dostęp do informacji poszczególnym społecznościom językowym. Z drugiej strony może to powodować trudności w określaniu lepszych informacji, ponieważ każda z tych wersji może być tworzona i edytowana niezależnie od innych. Na przykład, czytelnicy i redaktorzy angielskiej wersji artykułu o Gnieźnie nie muszą wiedzieć, co jest napisane na temat tego miasta w polskojęzycznej wersji Wikipedii, chociaż można się spodziewać, że informacje mogą być lepszej jakości w tej drugiej (oczywiście, nie we wszystkich przypadkach ta zasada działa;)).

Gra WikiBest została zaprojektowana w celu tworzenia algorytmów automatycznego porównywania jakości danych pomiędzy poszczególnymi wersjami językowymi artykułów na podstawie decyzji użytkowników (graczy). Aby zbudować takie modele, zostaną zastosowane techniki uczenia maszynowego oraz sztucznej inteligencji z wykorzystanie dodatkowych miar. To może pomóc w wyborze bardziej kompletnych, wiarygodnych i aktualnych informacji, które mogłyby wzbogacić inne wersje językowe Wikipedii.

Strona internetowa gry: WikiBest.net

Pierwszy krótki wykład wideo na temat działania WikiBest:

Główne cechy

Obecnie minimalne wymagania dla gracza - znajomość 4 języków (rosyjski, ukraiński, polski, angielski) na poziomie podstawowym, który pozwoliłby porównać zawartość infoboxów (w uproszczeniu - tabele z danymi) w artykułach Wikipedii. Zalecana jest również znajomość języka białoruskiego - wtedy będzie możliwość porównania jakości we wszystkich dostępnych 5 wersjach językowych. Aby wziąć udział w grze, musisz się zarejestrować. Po otrzymaniu kodu aktywacyjnego na mailu - możesz zacząć "walczyć" o jakość w Wikipedii! ;)

Na ekranie pojawiają się infoboksy w 5 (4) wersjach językowych na ten sam temat - na przykład może to być miasto, gra komputerowa, uniwersytet, firma lub inny obiekt. Możliwe jest przesuwanie okien z infoboksami. Dla każdej wersji językowej można zaznaczyć cztery opcje dotyczące zawartych w nich danych: najlepsza jakość, najlepsza kompletność, najlepsza wiarygodność, najlepsza aktualność.

W idealnej sytuacji każda z dostępnych opcji powinna być zaznaczona tylko między 5 (4) językami. Innymi słowy, musimy określić, który jest najlepszy w każdej z czterech "nominacji". Istnieją jednak wyjątkowe przypadki, gdy najlepszymi mogą być dwie wersje językowe jednocześnie. W takich sytuacjach, gra oferuje użytkownikowi dodanie komentarza, z informacją o tym, dlaczego on (ona) tak sądzi.

Aby zatwierdzić wybór oraz przejść do następnych pięciu (czterech) infoboksów, należy kliknąć "Dalej". Powtarzamy zgodnie ze schematem opisanym powyżej.

Za wykonaną pracę gracze "zarabiają" doświadczenie, co prowadzi podwyższenia poziomu.

Ze względu na to, że badania prowadzone są głównie przez specjalistów w zakresie uczenia maszynowego oraz analizy danych, grywalizacja może nie jest mocnym punktem tego projektu;) Zatem będę wdzięczny za wskazówki lub linki do przydatnych materiałów w tym kierunku.

Ogólnie mówiąc, projekt jest niekomercyjny. Zatem, wszelkie wsparcie jest mile widziane :)

Trochę teorii

Czym jest jakość danych? Pytanie nie jest proste, a społeczność naukowa nie ma jednej definicji - wszystko zależy od kontekstu;) Zacznijmy od tego, że ocena jakości jest pojęciem subiektywnym i zależy od odbiorcy, jego wiedzy, doświadczenia oraz zapotrzebowania na te informacje w określonym czasie. Mówiąc prościej, jakość danych można zdefiniować jako przydatność do użycia.

Aby ocenić jakość danych, należy również wziąć pod uwagę różne wymiary, takie jak na przykład kompletność, aktualność, wiarygodność.

W grze WikiBest kompletność oznacza, jak szeroko opisany jest obiekt. Trzeba sprawdzić, jakie parametry są wpisane do infoboksu - czy wszystkie podstawowe parametry tego obiektu są dostępne dla czytelnika. Na przykład, jeśli jest to miasto, jednymi z najważniejszych parametrów mogą być: populacja, powierzchnia, prezydent itp.

Aktualność związana jest z różnicą między wprowadzonymi parametrami obiektu a faktycznym stanem rzeczy. Na przykład, większą aktualność danych populacyjnych będzie miał infoboks, w którym wartość jest pokazywana według stanu na 2018r., w porównaniu do infoboksu, w którym ten sam parametr ma wartość z 2016 roku.

Wiarygodność w kontekście gry pokazuje, jak wiele informacji jest popartych wiarygodnymi źródłami. W ten sposób czytelnik może sprawdzić poprawność wpisanej wartości danego parametru.

Dlaczego 5 języków?

Jak już wspomniano powyżej, gra jest częścią badań naukowych, w których biorę bezpośredni udział. Mogę być pewien w podstawowej znajomości tych języków, zatem mogę prowadzić badania danych pochodzących z tych wersji Wikipedii.

Jeżeli chodzi o opcjonalność wyboru języka białoruskiego, wynika to z rozmiaru białoruskiej edycji Wikipedii. Obecnie tam jest ok. 150 tysięcy artykułów. Dla porównania ukraińska Wiki zawiera już ponad 800 tysięcy, rosyjska - prawie 1,5 miliona (źródło).

Głównym celem badań naukowych jest wzbogacenie mniej rozwiniętych wersji językowych Wikipedii. W tym sensie wersja białoruska ma duży potencjał - można przenieść wiele danych z innych badanych wersji językowych. Jednak wiadomo już, że jakość danych zależy od tematu oraz wersji językowej, zatem najpierw musimy określić "kandydata" do "kopiowania" (w rzeczywistości nadal trzeba przetłumaczyć te dane - ale to nie jest problem przy użyciu semantyki).

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.