News

Nie uciekniesz przed AI. Algorytm rozpozna cię po stylu pisania

Programy antyplagiatowe są dostępne od pewnego czasu, ale jak do tej pory były one bardzo niedoskonałe. Ma się to zmienić dzięki wysiłkom programistów z Państwowego Instytutu Badawczego, którzy stworzyli Jednolisty System Antyplagiatowy. To narzędzie, które używa sztucznej inteligencji do rozpoznawania stylu autora tekstu.

Postrach plagiatorów

Styczeń tego roku to nie był najlepszy miesiąc dla studentów, którzy nie są zbyt dobrze zaznajomieni z regulacjami dotyczącymi własności intelektualnej i mają tendencję do wspierania się na efektach czyjejś pracy. Dzięki trudom kilkunastu programistów z Laboratorium Inżynierii Lingwistycznej Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego zadebiutował bowiem wówczas Jednolity System Antyplagiatowy. Finansowany ze środków Ministerstwa Nauki i Szkolnictwa Wyższego program pozwala określić, w jakim stopniu dana praca jest wynikiem wysiłków osoby, która deklaruje jej autorstwo.

Miliardy “kęsów”

Ale jak to właściwie działa? Programy antyplagiatowe znane są od pewnego czasu, a ich skuteczność bywa dość ograniczona. Czym nowe rozwiązanie różni się więc od swoich poprzedników? – Z grubsza tak: dzielimy tekst na krótsze fragmenty: pięcio-, dziesięcio- albo dwudziestozdaniowe, tak zwane kęsy, a potem szukamy podobieństw między nimi a fragmentami o analogicznej długości, które mamy już w bazie danych – tłumaczy dr Marek Kozłowski, szef Laboratorium. – Jest z czym porównywać, bo takich mikrodokumentów zebraliśmy już ponad 10 miliardów. Te miliardy kęsów pochodzą z dziesięciu wielkich baz danych, m.in. z Ogólnopolskiego Repozytorium Prac Dyplomowych (ponad 3 miliony), bazy NEKST (900 milionów dokumentów z polskiego internetu), sześciu wersji językowych Wikipedii (w tym polskiej), baz aktów prawnych czy aktualnie zbieranych artykułów OpenAccess.

Inteligentny system

Na dodatek systemu nie da się oszukać przy użyciu starych sztuczek: zmiana szyku słów czy zastępowanie pojedynczych słów innymi w celu jego zmylenia zakończy się fiaskiem. JSA korzysta bowiem z nowatorskiego rozwiązania polegającego na rozbiciu tekstu na poszczególne słowa, a następnie stworzeniu z nich nieuporządkowanych kolekcji elementów. Dopiero tak spreparowane zbiory są na końcu porównywane z tekstami źródłowymi.

Ale to nie wszystko. Swoisty “szósty zmysł”, który sprawia, że system jest jeszcze bardziej precyzyjny, jest badanie stylometryczne, a dokładniej: stylometryczne profilowanie behawioralne. W uproszczeniu jest to badanie stylu, jakim został napisany tekst, połączone z wyciąganiem wniosków na temat cech autora. Najbardziej interesujące dla systemu będą te fragmenty tekstu, które nie będą pasowały do reszty. – Nie mamy więcej danych na temat stylu autora niż ta jego praca, którą właśnie analizujemy. Możemy jednak wyszukać fragmenty, które odbiegają od uśrednionego stylu całej pracy. Oczywiście zakładając, że praca ma dominujący styl – wyjaśnia dr Kozłowski.

Stylometryczne profilowanie

Świadomie lub nie, przez całe życie wykształcamy styl pisania charakterystyczny tylko dla nas. Jako czytelnicy czasem również jesteśmy zdolni do rozpoznania konkretnej osoby po danym tekście: jeśli wcześniej mieliśmy do czynienia z odpowiednią ilością tekstu, który wyszedł spod ręki tej osoby, to rozpoznamy często używane zwroty, szyk zdania czy sposób używania interpunkcji. – My robimy to intuicyjnie, gdy czytamy tekst – mówi Kozłowski. – Natomiast maszyna musi mieć pewne dane wejściowe, na podstawie których porównuje te elementy w czasie. Musi mieć przestrzeń cech, w której tworzy sobie pewne wektory (czyli uporządkowane zbiory cech). Opisują one profil danej osoby, a kolejne teksty są z tym profilem porównywane. I właśnie to nazywamy stylometrycznym profilowaniem behawioralnym – tłumaczy Kozłowski. Chodzi o to, że jedni wolą używać krótkie zdania (wówczas siłą rzeczy w tekście pojawia się więcej kropek i wielkich liter, co łatwo wykryć), inni nieco dłuższe. Piszących można też podzielić na tych, którzy wolą rzeczowniki i na tych, którzy częściej używają czasowników. I tak dalej, i tak dalej.

Zgodnie ze znowelizowaną ustawą “Prawo o szkolnictwie wyższym” każda pisemna praca dyplomowa napisana od początku roku przed dopuszczeniem do obrony musi zostać sprawdzona JSA. Jak dotychczas z systemu skorzystało prawie 350 polskich uczelni.


Źródło: sztucznainteligencja.org.pl. Zdjęcie główne artykułu pochodzi z unsplash.com.

Wraz z Tomaszem Gańskim jestem współtwórcą justjoin.it - największego job boardu dla polskiej branży IT. Portal daje tym samym największy wybór spośród branżowych stron na polskim rynku. Rozwijamy go organicznie, serdecznie zapraszam tam również i Ciebie :)

Podobne artykuły

[wpdevart_facebook_comment curent_url="https://justjoin.it/blog/nie-uciekniesz-przed-ai-algorytm-rozpozna-cie-po-stylu-pisania" order_type="social" width="100%" count_of_comments="8" ]