Sonda ws. debaty. Tak TVP miało wykryć głosujące boty

– Były trzy fale fałszywych głosów – zdradza nasz informator szczegóły środowej sondy prezydenckiej na Twitterze. Administracja profilu portal tvp.info unieważniła ją po kilkudziesięciu minutach, twierdząc, że głosują fikcyjne konta.

fot. TVP

Piotr Urbaniak

17 czerwca 2020, 23:34

Punktualnie o godzinie 21.00 na antenie Telewizji Polskiej wystartowała Debata Prezydencka 2020 z udziałem wszystkich 11 kandydatów. Chwilę później na twitterowym profilu portalu tvp.info ruszyła sonda mająca na celu wyłonienie zwycięzcy. Co mogło pójść nie tak? – zapytacie. Odpowiedź jest wyjątkowo przewidywalna.

Niespełna pół godziny po rozpoczęciu głosowania podano, że zostaje ono unieważnione. Powód to ponoć wykryta aktywność botów. "Szanowni Państwo, z przykrością informujemy, że sonda już na obecnym etapie jest nieważna. Wykryliśmy strumień 600 botów" – oświadczył portal tvp.info w jednym z postów. Oczywiście błyskawicznie podchwycili to politycy opozycji i lawina ruszyła. Kolejna awantura o sondę gotowa.

Ale cała sprawa jest intrygująca z powodu innego niż ten polityczny. Przesianie w krótkim czasie tak dużej liczby interakcji to nie lada gimnastyka, a portal tvp.info potrafi do tego precyzyjnie wskazać liczbę kont-botów w chwili, gdy już po kilkunastu minutach trwania głosowania na liczniku było kilka tysięcy reakcji.

Twitter nie wskazuje, z jakich kont oddawane są głosy. Nie umieszcza ich również na krzywej czasu, a po prostu wrzuca, mówiąc nieładnie, do jednego wora. W tym kontekście wyjaśnienie portalu tvp.info sugeruje wykorzystanie jakiegoś zewnętrznego narzędzia.

Anatomia Twittera—teoretycznie

Takie narzędzie mogłoby zapisywać stempel czasowy każdego głosu, czyli czas bieżący w momencie jego oddania z dokładnością nawet do setnych części sekundy. I jeśli 600 głosów istotnie oddano w dokładnie tym samym momencie, to jest to dowód przemawiający za użyciem botów. Choć zarazem będący sytuacją nieco abstrakcyjną, gdyż wykluczającą z łańcucha ewentualne opóźnienia połączenia sieciowego, nie wspominając już o serwerach Twittera.

Zresztą, funkcje zliczające Twittera i ich niedokładność to temat na osobny artykuł. Wystarczy zobaczyć, jak skacze czasem liczba followersów. Albo jak wyniki ankiety potrafią odświeżać się z wyraźnym opóźnieniem.

Przyjmijmy jednak, że głosy były rozłożone w czasie, a API zadziałało bez zarzutów. Rodzi się pytanie numer dwa, a mianowicie jak zaklasyfikowano je jako bota. Kwadrans to 900 sekund, a w tym czasie w głosowaniu portalu tvp.info pojawiło się już kilka tysięcy respondentów. Łatwo zaważyć, że daje to zdecydowanie więcej niż jeden głos na sekundę. Konia z rzędem temu, kto umie to przefiltrować.

Narzędzie do zadań specjalnych

Od wiarygodnego informatora, pracującego w jednym z ministerstw, redakcji dobrychprogramów udało się dowiedzieć, że portal tvp.info istotnie wykorzystał zewnętrzne narzędzie do monitoringu głosów. Nie ma ono konkretnej nazwy; jest przygotowane specjalnie dla Telewizji Polskiej, choć zdaniem twórców na Zachodzie wiele mediów ma podobne rozwiązania.

Algorytm próbkuje liczbę odpowiedzi co 1 sekundę i potrafi z dokładnością około 60-70 proc. wskazać, czy ma do czynienia z ruchem fałszywym. Jak widać, jest to rozwiązanie dalekie od perfekcji, ale daje pewne wskazówki.

– Były trzy fale fałszywych głosów trwające od 1 do 3 minut – zdradza nasz informator szczegóły środowej sony prezydenckiej na Twitterze. – Dały równo 5 tys. odpowiedzi jednemu z kandydatów – dodaje. Żadne nazwisko w rozmowie nie pada, ale łatwo się domyślić, o którym kandydacie mowa. W chwili zawieszenia sondy tylko Rafał Trzaskowski zgromadził taką liczbę głosów. Inna sprawa, że miał on ich na tyle dużo, że nawet bez pomocy botów byłby na prowadzeniu.

Piotr Urbaniak