Polski odpowiednik ChatGPT? Powstał w Gdańsku

Polski odpowiednik ChatGPT? Powstał w Gdańsku09.03.2024 06:59
Nowy model językowy
Źródło zdjęć: © Adobe Stock | REDPIXEL

Naukowcy z Politechniki Gdańskiej oraz AI Lab z Ośrodka Przetwarzania Informacji - Państwowego Instytutu Badawczego stworzył modele językowe, bazujące wyłącznie na polskich tekstach. Jak przekazuje PAP, mogą być one polskimi odpowiednikami GPT.

Zespół naukowców z Politechniki Gdańskiej oraz AI Lab z Ośrodka Przetwarzania Informacji (OPI) – Państwowego Instytutu Badawczego, stworzył polskojęzyczne modele językowe o nazwie Qra. To pierwsze tego typu narzędzie na taką skalę, które stanowi odpowiednik otwartych narzędzi takich jak Meta czy Mistral AI. Jak podkreśla gdańska uczelnia techniczna, Qra charakteryzuje się lepszym zrozumieniem treści w języku polskim oraz tworzy spójne teksty z większą precyzją.

Informacja o tym osiągnięciu została przekazana przez biuro prasowe Politechniki Gdańskiej w piątek. Jak podano, modele językowe zostały opracowane na bazie terabajta danych tekstowych, które są wyłącznie w języku polskim.

Dalsza część artykułu pod materiałem wideo

Sztuczna inteligencja pomoże Polakom

"Qra to pierwszy tej skali i najlepszy w modelowaniu języka polskiego odpowiednik otwartych narzędzi Mety czy Mistral AI. Qra lepiej rozumie treści w języku polskim, lepiej rozumie pytania zadawane w tym języku i lepiej sama tworzy spójne teksty" - czytamy w komunikacie.

Modelowanie języka polskiego odbywało się w specjalistycznym środowisku obliczeniowym dedykowanym do budowy modeli sztucznej inteligencji, które powstało na Politechnice Gdańskiej w Centrum Kompetencji STOS. To jedno z najnowocześniejszych centrów IT w tej części Europy, gdzie znajduje się superkomputer Kraken.

Jak informuje uczelnia, w procesie tworzenia modeli wykorzystano klaster 21 kart graficznych NVIDIA A100 80GB. Przygotowanie środowiska, utworzenie narzędzi i modeli oraz ich trenowanie (w oparciu m.in. o treści z takich obszarów, jak prawo, technologia, nauki społeczne, biomedycyna, religia czy sport) i testowanie zajęło zespołom około pół roku. "Dzięki rozbudowanej infrastrukturze CK STOS właściwy proces trenowania w przypadku najbardziej złożonego z modeli został skrócony z lat do około miesiąca" - przekazano.

Model lepszy niż modele dużych firm

W wyniku współpracy Politechniki Gdańskiej i Ośrodka Przetwarzania Informacji powstały trzy modele o różnym stopniu złożoności, tj. Qra 1B, Qra 7B, Qra 13B. Modele Qra 7B oraz Qra 13B uzyskują istotnie lepszy wynik perplexity, czyli zdolności do modelowania języka polskiego w zakresie jego rozumienia, warstwy leksykalnej, czy samej gramatyki, niż oryginalne modele Llama-2-7b-hf (Meta) oraz Mistral-7B-v0.1 (Mistral-AI).

Testy pomiaru perplexity przeprowadzono m.in. na zbiorze pierwszych 10 tys. zdań ze zbioru testowego PolEval-2018 oraz dodatkowo przetestowano modele na zbiorze 5 tysięcy długich i bardziej wymagających dokumentów napisanych w 2024 r.

Modele Qra mają stanowić podstawę rozwiązań informatycznych do obsługi spraw i procesów, które wymagają lepszego zrozumienia języka polskiego.

"Na tym etapie Qra jest fundamentalnym modelem językowym, który potrafi generować poprawne gramatycznie i stylistycznie odpowiedzi w języku polskim. Tworzone treści są bardzo wysokiej jakości, co potwierdza m.in. miara perplexity" - zaznaczano w komunikacie.

Zespół naukowców zapowiedział, że rozpocznie pracę nad strojeniem modeli, aby zweryfikować ich możliwości pod kątem takich zadań, jak klasyfikacja tekstów, dokonywanie ich streszczeń, odpowiadania na pytania.

Opracowane modele zostały upublicznione w repozytorium OPI-PG na platformie huggingface. Model można pobrać do swojej dziedziny i problemów czy zadań, jak np. udzielanie odpowiedzi.

Szanowna Użytkowniczko! Szanowny Użytkowniku!
×
Aby dalej móc dostarczać coraz lepsze materiały redakcyjne i udostępniać coraz lepsze usługi, potrzebujemy zgody na dopasowanie treści marketingowych do Twojego zachowania. Twoje dane są u nas bezpieczne, a zgodę możesz wycofać w każdej chwili na podstronie polityka prywatności.

Kliknij "PRZECHODZĘ DO SERWISU" lub na symbol "X" w górnym rogu tej planszy, jeżeli zgadzasz się na przetwarzanie przez Wirtualną Polskę i naszych Zaufanych Partnerów Twoich danych osobowych, zbieranych w ramach korzystania przez Ciebie z usług, portali i serwisów internetowych Wirtualnej Polski (w tym danych zapisywanych w plikach cookies) w celach marketingowych realizowanych na zlecenie naszych Zaufanych Partnerów. Jeśli nie zgadzasz się na przetwarzanie Twoich danych osobowych skorzystaj z ustawień w polityce prywatności. Zgoda jest dobrowolna i możesz ją w dowolnym momencie wycofać zmieniając ustawienia w polityce prywatności (w której znajdziesz odpowiedzi na wszystkie pytania związane z przetwarzaniem Twoich danych osobowych).

Od 25 maja 2018 roku obowiązuje Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 (określane jako "RODO"). W związku z tym chcielibyśmy poinformować o przetwarzaniu Twoich danych oraz zasadach, na jakich odbywa się to po dniu 25 maja 2018 roku.

Kto będzie administratorem Twoich danych?

Administratorami Twoich danych będzie Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, oraz pozostałe spółki z grupy Wirtualna Polska, jak również nasi Zaufani Partnerzy, z którymi stale współpracujemy. Szczegółowe informacje dotyczące administratorów znajdują się w polityce prywatności.

O jakich danych mówimy?

Chodzi o dane osobowe, które są zbierane w ramach korzystania przez Ciebie z naszych usług, portali i serwisów internetowych udostępnianych przez Wirtualną Polskę, w tym zapisywanych w plikach cookies, które są instalowane na naszych stronach przez Wirtualną Polskę oraz naszych Zaufanych Partnerów.

Dlaczego chcemy przetwarzać Twoje dane?

Przetwarzamy je dostarczać coraz lepsze materiały redakcyjne, dopasować ich tematykę do Twoich zainteresowań, tworzyć portale i serwisy internetowe, z których będziesz korzystać z przyjemnością, zapewniać większe bezpieczeństwo usług, udoskonalać nasze usługi i maksymalnie dopasować je do Twoich zainteresowań, pokazywać reklamy dopasowane do Twoich potrzeb. Szczegółowe informacje dotyczące celów przetwarzania Twoich danych znajdują się w polityce prywatności.

Komu możemy przekazać dane?

Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa – oczywiście tylko, gdy wystąpią z żądaniem w oparciu o stosowną podstawę prawną.

Jakie masz prawa w stosunku do Twoich danych?

Masz prawo żądania dostępu, sprostowania, usunięcia lub ograniczenia przetwarzania danych. Możesz wycofać zgodę na przetwarzanie, zgłosić sprzeciw oraz skorzystać z innych praw wymienionych szczegółowo w polityce prywatności.

Jakie są podstawy prawne przetwarzania Twoich danych?

Podstawą prawną przetwarzania Twoich danych w celu świadczenia usług jest niezbędność do wykonania umów o ich świadczenie (tymi umowami są zazwyczaj regulaminy). Podstawą prawną przetwarzania danych w celu pomiarów statystycznych i marketingu własnego administratorów jest tzw. uzasadniony interes administratora. Przetwarzanie Twoich danych w celach marketingowych realizowanych przez Wirtualną Polskę na zlecenie Zaufanych Partnerów i bezpośrednio przez Zaufanych Partnerów będzie odbywać się na podstawie Twojej dobrowolnej zgody.