Sztuczna inteligencja przywróciła głos Valowi Kilmerowi
Brytyjski startup Sonantic wykorzystał stare filmy aktora do odtworzenia jego naturalnego głosu. Kilmer, który sześć lat temu przeszedł operację gardła, „przemówił” za pomocą sztucznej inteligencji.
Inżynierowie dźwięku firmy zazwyczaj potrzebują aż trzech godzin nagrań, aby odtworzyć czyjś głos. Ale ze względu na ograniczenia dotyczące licencji na filmy, Sonantic musiał odtworzyć głos Kilmera, mając mniej niż 30 minut dźwięku. Udało się. Pobrane zostały próbki ze starego materiału, które następnie zostały „oczyszczone” z szumów tła. Na podstawie tego materiału firma stworzyła skrypt, połączyła dźwięk i tekst w „krótkich fragmentach” i przepuszczała dane przez algorytmy „silnika głosowego”, które uczą się mówić, słuchając nagrań.
„Silnik głosowy” czerpie znaczenie z zapisanych słów i może wykorzystywać je jako wskazówki do „ilustrowania intensywnego gniewu i emocjonalnego bólu”, jak tłumaczy Sonantic. W kwietniu br. firma zaprezentowała demo, w którym dwa głosy prowadzą zwykłą rozmowę, a ta szybko przeradza się w kłótnię. Korzystanie z tej technologii pozwoli w przyszłości oszczędzać struny głosowe aktorów, podaje Sonantic.
Firma stworzyła aż 40 wersji głosu Kilmera i wybrała tę jedną, która najlepiej oddaje ekspresję aktora. W rezultacie powstał program do zamiany tekstu na mowę, który według Sonatic może naśladować różne emocje Kilmera. Oprogramowanie głosowe potrafi czytać na głos linijki tekstu, rzekomo przechwytując charakterystyczne cechy aktora w mowie, jej ekspresji i tonie.
ZOBACZ TEŻ: TOP 5 najsłynniejszych deepfake’ów. Na czym polega ta technika?
Technologia deepfake to przyszłość filmów?
Nawet te najpopularniejsze sztuczne głosy, takie jak Siri czy Alexa, brzmią nienaturalnie i z łatwością da się je odróżnić od prawdziwej ludzkiej mowy. Technologia idzie jednak do przodu. Coraz więcej startupów wdraża inteligentne usługi klonowania głosu dla asystentów cyfrowych, gier wideo i na potrzeby studiów filmowych.
Wygenerowane głosy robią się coraz bardziej realistyczne w dobie deepfake – technologii, która wykorzystuje sztuczną inteligencję do manipulowania treścią tak, aby ta wyglądała i brzmiała identycznie jak oryginał. Nagrania wykonane w technice deepfake są tak dobre, że czasem trudno odróżnić prawdziwe ludzkie głosy od ich syntetycznych odpowiedników.
Zdjęcie główne: Sonantic.io. Źródło: Washington Post.