Czego brakuje w GPT-4 i co jeszcze planuje OpenAI?
Czy jest coś, czego ChatGPT nie potrafi, a potrafić powinien? GPT-4 umie wiele. Umie chociażby wygenerować artykuł branżowy, wpis na media społecznościowe czy odpowiedź na e-mail. Umie napisać kod, przeprowadzić debugging i refaktoring. Umie nawet napisać scenariusz do najnowszej produkcji Marvela.
Ergo – zastosowania ChatGPT są szerokie. Ale nie nieograniczone.
A czego dokładnie ChatGPT nie umie? Porozmawialiśmy o tym z ekspertkami i ekspertami AI z wrocławskiej firmy Monterail, którzy używają tego narzędzia na co dzień.
Spis treści
A co to w ogóle jest to generative AI?
Jeśli zadajesz sobie właśnie takie pytanie i nie wiesz nic o generatywnym AI oraz narzędziach w rodzaju ChatGPT, MidJourney czy Jasper, przeczytaj najpierw poniższy wpis. Dowiedziesz się wszystkiego, co wymienione powyżej (i więcej).
➡ What is Generative AI? (Like ChatGPT, MidJourney, or Jasper)
GPT to skrót od Generative Pre-Trained Transformer (Generatywny Pre-Trenowany Transformer), co ściśle wiąże się ze zdolnością tego modelu do generowania tekstu, faktu, że został wytrenowany przy użyciu istniejących już danych oraz tego, że architektura jest oparta na Transformerze – modelu sieci systemu nerwowego używanego do zadań z procesowaniem naturalnego języka.
Brakujące funkcjonalności: czego nie potrafi ChatGPT oraz GPT-4
Zanim oddamy głos ekspertkom i ekspertom z Monterail, przyjrzyjmy się ograniczeniom narzędzia, na które najczęściej zwracają uwagę osoby korzystające z Generative AI.
Jeśli chodzi o ograniczenia modeli językowych GPT oraz ChatGPT, to można je podzielić na dwie kategorie.
Po pierwsze, istnieją ograniczenia związane z Artificial General Intelligence oraz ze sztuczną inteligencją jako domeną technologiczną, które mają wymiar etyczny (więcej informacji znajdziesz w tym przewodniku po etycznym AI). Uwzględnia to szczególnie wbudowane uprzedzenia (biases), jakie mają narzędzia AI, fenomen tzw. halucynacji AI, oraz prawne zagadnienia, które mogą ograniczyć rozwój tej technologii.
➡ Te limity omawiamy szerzej w pierwszym tekście z serii o AI na blogu Monterail.
Druga kategoria to wyzwania związane z samymi funkcjonalnościami ChatGPT oraz podobnych narzędzi i to na nich właśnie im poświęcimy miejsce w sekcji poniżej.
Ograniczona wiedza domenowa oraz generyczność odpowiedzi
GPT-4 trenowany był na danych sprzed września 2021, więc nie ma wiedzy o stronach internetowych lub bazach informacji powstałych później – co oznacza, że nie będą one uwzględnione w odpowiedziach na prompty. Warto tutaj jednak wspomnieć, że od marca 2023 dostęp do internetu dla ChatGPT jest możliwy przez pluginy dostępne w płatnym planie ChatGPT Plus.
Powoduje to szereg ograniczeń. Na przykład ChatGPT nie jest w stanie odpowiedzieć jednoznacznie na pytanie, kto jest urzędującym Prezydentem Stanów Zjednoczonych.
Dodatkowo GPT-4 nie ma oczywiście również dostępu do informacji z wewnętrznych bazy danych firm, nie może też porozmawiać na żywo ekspert_kami w danej dziedzinie.
Stąd przygotowanie bardziej pogłębionych raportów, analiz oraz tekstów naukowych, które bazują na osobistym doświadczeniu oraz wiedzy domenowej może wymagać bardziej precyzyjnych promptów rozbudowanych o dodatkowe informacje i kontekst oraz edycji wygenerowanych tekstów.
Ograniczona długość prompta/odpowiedzi
Nie ma na to potwierdzenia w oficjalnej dokumentacji, ale osobom korzystającym z narzędzia udało się zauważyć, że ChatGPT może przestać odpowiadać lub długo zwlekać z odpowiedzią, a następnie zacząć ‘halucynować’, jeśli prompt jest bardzo skomplikowany. W praktyce oznacza to, że ma ponad 500 słów lub 4 tysiące znaków. Podobnie jest z długością odpowiedzi, jaką może podać ChatGPT – jej maksymalna długość to właśnie około 500 słów lub 4 tysięcy znaków.
Informacje tylko na bazie tekstu
Przynajmniej na razie, ChatGPT może generować tylko tekstowe odpowiedzi. W bazowej – bezpłatnej – wersji produktu, prompty też muszą być tekstowe.
Wraz ze wprowadzeniem trybu developerskiego, w GPT-4 pojawiła się możliwość używania w promptach zarówno tekstów jak i obrazów. Narzędzie prawidłowo analizuje i opisuje to, co jest na obrazie, a następnie generuje na tej podstawie odpowiedzi.
Brak informacji w czasie rzeczywistym lub na bazie lokalizacji
Jak wspomnieliśmy wyżej, ChatGPT został wytrenowany na istniejących danych, stąd nie ma dostępu do wydarzeń ‘live’. Dodatkowo nie może też bazować swoich odpowiedzi na lokalizacji osoby, która go używa.
Aktualnie jest to dosyć duże ograniczenie.
To wszystko może jednak niedługo się zmienić za pomocą kolejnych aktualizacji produktu od OpenAI. Na ten moment trzeba zapisać się na listę oczekujących, żeby mieć dostęp do ich ostatniej funkcjonalności, ale najnowsze pluginy do ChatGPT pozwalają na dostęp tego narzędzia do internetu oraz na połączenie go z różnymi aplikacjami. Lista tych ostatnich jest jeszcze ograniczona, ale znalazły się na niej jak na razie: Zapier, Klarna, Expedia, Shopify, KAYAK, Slack, Speak, Wolfram, FiscalNote oraz Instacart.
Pod koniec maja 2023 zespół Microsoft ogłosił też współpracę i połączenie ChatGPT z Bing Chat, ich własnym produktem generative AI. To ostatnie rozwiązanie już teraz może korzystać z internetu i nie musi bazować na danych z momentu trenowania modelu. Funkcjonalność ta została udostępniona użytkownikom w planie ChatGPT Plus 28 czerwca 2023.
Jakie nowe funkcjonalności w GPT-4 chętnie zobaczyliby ekspertki i eksperci Monterail?
Zabezpieczenie praw autorskich
Wiele osób wspomina o skądinąd uzasadnionych obawach o bezpieczeństwo narzędzi AI, ale jest też temat prawa autorskiego.
O ile teksty i obrazy generowane obecnie przez sztuczną inteligencję nie są zabezpieczone prawem autorskim, o tyle potrzebujemy dyskusji o tym, jak chronić prawa autorskie ludzi, którzy tworzą sztukę, piszą książki oraz teksty naukowe. Firmy takie jak OpenAI powinny być zobowiązane do tego, żeby ujawnić, skąd pochodzą ich bazy danych oraz płacić osobom autorskim materiałów, które znalazły się w tych bazach – dokładnie tak, jak zostało to zaproponowane w najnowszym drafcie EU AI Act.
Krzysztof Kaiser, Head of Product Design w Monterail
Źródła danych i filtrowanie
Pluginy GPT, przeglądanie internetu i wyszukiwarka są obecnie zawarte w planie ChatGPT Plus i są dostępne dla małej grupy deweloperek i deweloperów, ale prędzej czy później, zostaną udostępnione dla wszystkich. To doprowadzi do sytuacji, w której ChatGPT sam będzie mógł określić, jakich informacji brakuje mu do wygenerowania odpowiedzi, a następnie poszukać ich w internecie i dodać do tekstu. Jeśli mógłby też podawać źródła danych, o wiele łatwiej byłoby komuś wytłumaczyć, dlaczego powinien_na lub nie powinien_na ufać danej odpowiedzi. Myślę, że zobaczymy też o wiele więcej specjalistycznych narzędzi AI, gdzie korzystające z nich osoby będą dostawać odpowiedzi tylko ze źródeł naukowych za pomocą gotowych promptów do używania w danym narzędziu.
Maciej Korolik, JavaScript Developer w Monterail
Wykrywanie fake newsów
Doceniłabym, gdyby było więcej transparentności, jeśli chodzi o źródła, na podstawie których są generowane odpowiedzi oraz dlaczego właśnie te materiały zostały wybrane. Chciałabym też móc dodawać elementy wiedzy domenowej oraz personalizację — jeszcze zanim tekst zostanie wygenerowany, np. za pomocą filtrowania, z jakich źródeł ma być wytworzony.
ChatGPT może odmówić odpowiedzi w przypadku zapytań na wrażliwe tematy, ale byłoby super, gdyby to narzędzie miało już od razu wbudowane wykrywanie uprzedzeń oraz fake newsów tak, żeby było bardziej bezpieczne i żeby upewnić się, że nie zostanie użyte w złych celach.
Darya Demidenko, Analityczka Biznesowa w Monterail
Wewnętrzna baza danych
Narzędzie AI już są używane do zadań w różnych zawodach, więc naturalnym kolejnym krokiem jest zbudowanie asystenta_ki, który_a wiedział_aby wszystko o danej firmie lub produkcie i mógł_aby pomóc zespołom pracować bardziej efektywnie.
To, co jeszcze chciałbym zobaczyć, to też coś, co cała społeczność AI próbuje wprowadzić – możliwość hostowania narzędzi takich jak ChatGPT lokalnie, bez potrzeby używania internetu. To pozwoliłoby na zastosowanie modelu do danych wrażliwych i pomogłoby w zaadresowaniu obaw związanych z bezpieczeństwem tych danych, które ludzie – co zrozumiałe – mają w związku z używaniem AI oraz umieszczaniem swoich danych na zewnętrznych serwerach.
Artur Rosa, Frontend Architect w Monterail
Jaka jest przyszłość ChatGPT?
Próbując przewidzieć przyszłość ChatGPT oraz podobnych narzędzi, przeanalizujmy najpierw oś czasu kolejnych wydań od OpenAI. To pomoże nam zrozumieć, kiedy będziemy mogli zobaczyć kolejne wersje ich flagowego modelu językowego oraz jakie jeszcze produkty może pokazać ich zespół w kolejnych miesiącach i latach.
O ile GPT-4 na pewno zwrócił uwagę całego świata na sztuczną inteligencję jako taką, warto podkreślić, że sam model nie jest nowy i poprzedzała go długa linia podobnych produktów od OpenAI.
Co więcej, CEO tej organizacji, Sam Altman jest znany właściwie każdemu, kto interesuje się światem technologii. Zanim zajął się upowszechnianiem użycia sztucznej inteligencji, był zatrudniony jako partner w Y Combinator, największym inkubatorze startupów w Stanach, w którym powstały firmy takie, jak Airbnb, Stripe, Dropbox i wiele innych. Jeśli chodzi o rozwój produktów cyfrowych, Altman nie jest więc nowicjuszem.
Dla przypomnienia i kontekstu, poniżej znajdziesz listę kamieni milowych z ostatnich kilku lat, jeśli chodzi o nowe produkty od OpenAI:
Grudzień 2015 – OpenAI powstaje w San Francisco z głównym celem skupionym wokół budowania General AI. Według słów samego Altmana z tej rozmowy ten cel był publicznie ośmieszany, a sama firma była wyśmiewana przez społeczność naukową.
Czerwiec 2018 – Zespół OpenAI wydaje GPT-1 – wtedy jeszcze znany po prostu jako GPT – duży model językowy (Large Language Model), który został wytrenowany na 8 milionach stron internetowych oraz miał 117 parametrów.
Listopad 2019 – Potężniejsza wersja modelu – GPT-2- zostaje upubliczniona. Tym razem, model został wyćwiczony na bazie danych zawierającej 40 GB tekstu z 1,5 miliarda parametrów.
Maj 2020 – GPT-3 zostaje wydany i jest jeszcze mocniejszy niż poprzednie wersje. Baza danych, na które został wytrenowany, to 175 miliardów parametrów oraz 570 GB tekstu.
Listopad 2022 – To tutaj oczy wszystkich zwracają się na OpenAI: ChatGPT ukazuje się światu jako niezależny produkt z możliwościami oraz podobieństwami do naturalnego języka, które niektórzy widzą jako rewolucyjne.
Marzec 2023 – W obliczu ciągle rosnącego zainteresowania ChatGPT oraz General AI, zespół OpenAI wydaje kolejną wersję dużego modelu językowego, GPT-4.
Maj 2023 – Na rynku pojawia się aplikacja ChatGPT na system iOS, która może być zintegrowana z innym produktem od OpenAI, narzędziem do rozpoznawania mowy, Whisper.
Kiedy zostanie wydany model GPT-5?
Krótka odpowiedź na pytanie ‘Kiedy zostanie wydany model GPT-5?’ brzmi: ‘niezbyt prędko’.
Jak widać z osi czasu, nowe wersje modelu językowego od OpenAI pojawiają się co 2-3 lata, więc jeśli nowa odsłona ma być równie imponująca co GPT-4, musi być wytrenowana równie dobrze, a to zajmuje sporo czasu.
Na jednym z niedawnych spotkań na Massachusetts Institute of Technology, Sam Altman odniósł się do otwartego listu, podpisanego przez wiele znanych postaci ze świata technologii, m.in. Elona Muska czy Steve’a Wozniaka, który apelował do organizacji obecnie ‘trenujących modele potężniejsze niż GPT-4’ do zatrzymania tego procesu oraz badań na co najmniej 6 miesięcy. Altman wspomniał, że list podaje nieprawdziwą informację o tym, że OpenAI obecnie trenuje GPT-5. ‘Nie robimy tego i nie będziemy tego robić jeszcze przez jakiś czas’ – stwierdził.
Podkreślił jednak, że obecny model GPT-4 będzie na pewno rozwijany i będą do niego dodawane nowe funkcjonalności, z uwzględnieniem tych, które będą adresować zarzuty związane z bezpieczeństwem danych pojawiające się we wspomnianym wcześniej liście otwartym.
Istnieją źródła, które podawały datę wydania GPT-4.5 na sierpień lub wrzesień 2023, ale na razie informacja ta nie została oficjalnie potwierdzona przez OpenAI.
Następne kroki dla ChatGPT
Podsumowując, nawet z ograniczeniami i brakującymi elementami, ChatGPT oraz GPT-4 jako duży model językowy są jak na razie najbardziej imponującymi zastosowaniami sztucznej inteligencji.
Modele, które konkurują z GPT-4, w tym Bard czy Claude, też podążają w tym kierunku, ale nie mają jeszcze takich możliwości. To może niedługo się jednak zmienić, szczególnie biorąc pod uwagę ostatnie informacje co do zmian w Google Search oraz modelu PaLM od Google, które zostały przedstawione na prezentacji Google I/O 11 maja 2023.
Jest też wiele przewidywań i spekulacji co do tego, co stanie się z samymi ChatGPT oraz dużymi modelami językowymi OpenAI w ogóle, ale konsensus wydaje się skupiać wokół założenia, że momentem przełomowym może być udostępnienie pluginów dla wszystkich — obecnie są one dostępne tylko w planie ChatGPT Plus. OpenAI API pozwala na połączenie GPT-4 z innymi narzędziami lub zbudowanie własnych rozwiązań.
Jeśli chcesz przeczytać więcej o AI, polecamy śledzenie publikacji na blogu Monterail.
Zdjęcie główne pochodzi z unsplash.com.