Będzie polski ChatGPT? Naukowcy zapraszają do współpracy przy bocie

Będzie polski ChatGPT? Naukowcy zapraszają do współpracy przy bocie14.05.2023 14:07
Robot z polską flagą
Źródło zdjęć: © Bing Image Creator

Badacze z Wrocławia pracują nad polskim odpowiednikiem ChatGPT. Aby go jednak opracować, potrzebują jak najwięcej danych o tym, jak wyglądają rozmowy Polaków ze sztuczną inteligencją. Dlatego apelują o to, by w ramach rozmów z ChatemGPT korzystać z przygotowanego przez nich polskiego okienka.

ChatGPT udostępniony został w listopadzie ub.r. przez amerykańską firmę OpenAI. To bazujący na sztucznej inteligencji generator treści - bot, z którym porozumiewać się można językiem naturalnym. Narzędzie - posługuje się ono również językiem polskim - jest w stanie odpowiadać na pytania, tłumaczyć dokumenty na różne języki, przeprowadzić korektę i redakcję językową tekstów, streszczać i analizować prace naukowe, sugerować rozwiązania przeróżnych problemów, pisać eseje, scenariusze, poprawiać błędy w kodach programistycznych, przeszukiwać bazy danych. A jego zastosowania dopiero są odkrywane.

"Szacujemy, że nawet do 70 proc. osób w Polsce nie miało do czynienia z tym czatem. Dla wielu osób trudnością nie do pokonania jest choćby to, że ChatGPT nie ma polskiego interfejsu. W dodatku, aby móc z czatu skorzystać, trzeba się zalogować - używając logowania przez konto Google, czy podając numer telefonu. To bariera, której wiele osób nie jest w stanie przekroczyć. My wychodzimy tym problemom naprzeciw" - tłumaczy w rozmowie z PAP dr Jan Kocoń z projektu CLARIN-PL Politechniki Wrocławskiej.

Polskie okienko ChatGPT

Zespół z Wrocławia przygotował polskie okienko dialogowe dla ChatuGPT. Pomysł jest bardzo prosty: za pośrednictwem polskiej strony rozmawia się z ChatemGPT, ale wgląd do tej rozmowy mają również polscy badacze. Dzięki temu polscy użytkownicy mają łatwiejszy dostęp do amerykańskiej aplikacji, a badacze zdobywają bazę zapytań do czatu i informacje, czego w tych odpowiedziach brakuje.

Dalsza część artykułu pod materiałem wideo

Corsair HS55 Wireless - recenzja słuchawek

Strona zespołu CLARIN-PL przygotowana jest w języku polskim. A kilka pierwszych pytań można zadać natychmiast, bez logowania. Dla użytkowników, którzy się zalogują (rejestracja jest darmowa) przewidziane są większe limity niż w przypadku bezpłatnego dostępu do ChatuGPT. W ten sposób badacze chcą zachęcić polskich internautów do uchylenia rąbka tajemnicy na temat tego, jak wyglądają ich konwersacje ze sztuczną inteligencją.

"Pracujemy nad polskim odpowiednikiem ChatuGPT. Żeby to rozwiązanie miało szansę zaistnieć, musimy zebrać jak najwięcej informacji o metodach używania takich czatów przez polskich odbiorców. ChatGPT powstał za granicą i niekoniecznie przy jego opracowywaniu pochylono się tam nad problemami, które są istotne dla polskich użytkowników" - mówi dr Kocoń.

ChatGPT średnio sobie radzi z językiem polskim

Naukowcy oceniają, że ChatGPT znacznie słabiej posługuje się językiem polskim niż np. angielskim. Popełnia błędy językowe i nie najlepiej rozumie zapytania formułowane w naszym języku. To widać na przykład wtedy, kiedy prosimy czat o napisanie wiersza czy piosenki - zwraca uwagę badacz. Po angielsku wychodzi to całkiem nieźle, ale po polsku tekst zwykle się nawet nie rymuje.

"Nie mamy informacji, jak powstawał model OpenAI, ale naszym głównym podejrzeniem jest to, że on polskiego 'widział' relatywnie niewiele w stosunku do innych języków. Najprawdopodobniej model stosuje międzyjęzykowy transfer wiedzy na podstawie bazy tłumaczeń" - ocenia naukowiec.

Badacz opisuje, że tworzenie sztucznej inteligencji składa się z dwóch głównych etapów: trzeba mieć dużą bazę danych - w tym przypadku tekstów, na podstawie których model uczy się języka. A potem potrzebna jest jeszcze baza zapytań i odpowiedzi, na podstawie których sztuczna inteligencja uczy się generować pożądane treści. Problemem jest nie tylko to, że ChatGPT widział mało tekstów w języku polskim na etapie tworzenia modeli języka, ale i na etapie szkolenia widział mało polskich instrukcji, zapytań.

A taki był ładny - amerykański. A będzie swojski - polski

Dlatego naukowcy z Wrocławia chcą opracować model, w którego sercu będzie od samego początku język polski. "Nie jesteśmy w stanie konkurować z OpenAI w języku takim jak angielski, ale jeśli chodzi o języki słowiańskie - mamy dużo do zaoferowania. Mamy zebraną bardzo dużą bazę tzw. tekstów korpusowych (służących do badań lingwistycznych) - w języku polskim. Na ich podstawie jesteśmy w stanie zrobić duży model językowy. A potem chcemy go stroić na instrukcjach, które dostaniemy od użytkowników. Najważniejsze dla nas jest to, aby za pośrednictwem naszego okienka użytkownicy zgłaszali różnego rodzaju nieprawidłowości wynikające z używania czata" - tłumaczy naukowiec.

Jeśli czat poda odpowiedź niezgodną z oczekiwaniami, można wcisnąć smutną buźkę pod okienkiem dialogowym. Już to wystarczy badaczom jako sygnał, żeby przyjrzeli się odpowiedzi bota i sprawdzili, co jest nie tak. Po każdej ocenie odpowiedzi otwiera się okienko, w którym można naukowcom wpisać swój komentarz - np. by zwrócić uwagę na błędy językowe; na to, że ChatGPT zmyślił jakieś informacje albo że jego odpowiedź była obraźliwa. A nawet wpisać, jaka odpowiedź by nas satysfakcjonowała. W ten sposób nie tylko pomagamy polskim badaczom, ale również trenujemy swoje krytyczne myślenie i ćwiczymy ograniczone zaufanie do sztucznej inteligencji.

Komentarze i reakcje internautów będą przeglądane przez polski zespół badaczy. A zapytania i wnioski z tych rozmów będą służyły do prac nad polskim botem. "Żeby powstał dobry czat, musi mieć do dyspozycji dużo instrukcji. Tak zrobiło OpenAI - zatrudniło mnóstwo ludzi, którzy rozmawiali z botem i korygowali odpowiedzi czatu"- mówi rozmówca PAP. W ten sposób czat uczył się, jakie treści są pożądane, a jakich treści nie powinien generować.

Chodzi m.in. o to, by nauczyć sztuczną inteligencję, że jest pewna klasa pytań, na które czat nie może odpowiedzieć wprost (np. treści mogące ułatwić popełnienie przestępstwa, naruszające prywatność lub obrażające uczucia religijne). Ktoś musiał więc kiedyś ręcznie dla takiej klasy zapytań przygotować wzorcowe odpowiedzi, a model stroił się do tych instrukcji. Polscy badacze nie mają takich nakładów jak amerykańska firma. Nie są w stanie sami przewidzieć wszystkich możliwych zastosowań czata i sprawdzić, czy dobrze się on spisuje. Skorzystają więc z interakcji polskich użytkowników z ChatemGPT, żeby trenować swój model.

Wrocławscy naukowcy idą na całość

Badacz informuje, że jego uczelnia - we współpracy z Wrocławskim Centrum Sieciowo-Superkomputerowym - jest w trakcie zakupów sprzętu obliczeniowego, który ma przydać się w rozwijaniu badań nad polską sztuczną inteligencją. Budżet jest duży - to ok. 80 mln zł, ale sprzęt trafi do naukowców dopiero w przyszłym roku. Już teraz jednak badacze przygotowali dodatkowy budżet na dostęp do mocy obliczeniowych. "Nie chcemy czekać na sprzęt z założonymi rękami, już teraz przygotowujemy dane, na których będziemy trenować model" - relacjonuje.

Naukowiec apeluje też do badaczy i specjalistów z różnych dziedzin o pomoc w pracach nad polską sztuczną inteligencją. "Jeśli chcemy mieć polskie wysokomarżowe technologie, musimy je rozwijać i badać. A bez danych nie ruszymy z miejsca" - podkreśla.

W skład zespołu wchodzą: Bartosz Walkowiak, Dawid Banach, Tomasz Walkowiak, Magdalena Drewniak, Jan Wieczorek, Paweł Kazienko, Tomasz Naskręt, Jan Kocoń, Maciej Piasecki.

Autor: Ludwika Tomala

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.