Lyrebird odtworzy dowolne zdanie, którego nigdy nie wypowiedziałeś
Wystarczy próbka Twojego głosu, która trwa co najmniej 60 sekund, by za pomocą sztucznej inteligencji odtworzyć dowolne zdanie. Tak działa Lyrebird, który swoją technologię prezentuje za pomocą głosu Donalda Trumpa. Zespół poddał analizie minutowy fragment przemówienia prezydenta i postanowił odtworzyć nigdy niewypowiedziane zdanie, które brzmiało: Jestem Donald Trump i uważam, że mój cyfrowy głos jest całkiem imponujący.
Lyrebird pracuje nad swoim pierwszym produktem, którego zastosowanie po prostu zdumiewa. I choć już wcześniej były znane podobne technologie, jak np. Project VoCo od Adobe, które pozwalało edytować nagranie głosu w dowolny sposób, potrzebowało ono znacznie większej próbki — co najmniej dwudziestominutowej. Lyrebird wyprzedził konkurencję i zmniejszył potrzebny wzorzec do minuty, co znacznie skraca drogę do stworzenia bardzo podobnego głosu znanej nam osoby.
Startup nie udostępnił jeszcze MVP, czyli najprostszej możliwej wersji produktu, ponieważ nadal trwają prace nad rozbudowanym narzędziem do modulacji głosu. Dzięki niemu możemy, głosem dowolnej osoby, powiedzieć to samo zdanie w sposób łagodny, ale i z podniesionym tonem. Lyrebird chwali się także tym, że głosowi można nadać emocje, takie jak stres, czy radość. Zastosowań tego produktu jest wiele, a na pewno Lyrebird da korzyści producentom audiobooków, filmów i gier.
Ci nie będą już musieli nagrywać i edytować głosu prawdziwych lektorów, ale za pomocą próbki, odtworzyć dowolne zdanie. Co prawda technologia nie daje 100 proc. wartości głosu, odtwarzając np. nagrania stworzonej na potrzeby promocji produktu dyskusji Donalda Trumpa, Baracka Obamy i Hilary Clinton, da się wyczuć różnicę, między oryginalnym głosem, a tym stworzonym przez sztuczną inteligencję.
Przewagą Lyrebird nad konkurencją jest prostota i sposób działania. Wspomnieliśmy wcześniej o tym, że do stworzenia dowolnego zdania wypowiedzianego głosem dowolnej osoby, potrzebujemy tylko minutowej próbki. Lyrebird zadbał także o wydajność swojej technologii i chwali się tym, że potrafi stworzyć tysiąc zdań w mniej niż pół sekundy. Taka prędkość działania sprawia, że moglibyśmy nawet komentować na żywo mecze piłki nożnej głosem Donalda Trumpa.
Komentatorzy zauważają, że powstanie takich technologii jak Lyrebird może być niebezpieczne. Możemy przecież stworzyć dowolną wypowiedź znanego polityka, któremu możemy nadać dowolny ton. Jeśli przeciwnicy Trumpa chcieliby go zdyskredytować (choć często robi to sam, na koncie na Twitterze), mogliby w jego cyfrowe usta włożyć dowolne zdanie.
Twórcy Lyrebird, trzej studenci Uniwersytetu Montrealskiego, odpowiadają na te zarzuty przywołując przykład Photoshopa. Mówią, że większość zdjęć, które widzimy w prasie zostało przerobionych i ludzie mają tego świadomość, dlatego nie do końca wierzą w zdjęcia, które widzą w gazetach. Ich zdaniem, dopracowanie Lyrebird i innych produktów, sprawi, że ludzie będą mniej wierzyć w nagrania, które zostały uwiecznione np. w nielegalny sposób. Będziemy po prostu częściej brali poprawkę na to, że każde nagranie mogło zostać zmanipulowane.
Startup dopracowuje swoją technologię, na potrzeby której zebrał próbki głosu testerów. Ogłosił także, że do dziś 6 tysięcy użytkowników zapisało się na beta testy produktu. Zespół Lyrebird duży nacisk kładzie też na to, by technologia mogła obsługiwać także inne języki, a nie tylko j. angielski. Już rozpoczął pracę nad analizą języka francuskiego, ale nie chce się zatrzymać tylko na nim. To dobra wiadomość i dla nas, bo być może będziemy mogli odtworzyć głosy polskich polityków, którzy szczerze przepraszają za swoje błędy.