Technologię biometrii głosowej możesz napisać w pół roku. Pytanie tylko czy będzie skuteczna
VoicePIN to technologia weryfikacji głosowej. Dzięki niej nie musimy znać kodów dostępów i haseł do konta bankowego, tylko możemy za pomocą rozmowy telefonicznej zweryfikować swoją tożsamość i wykonywać operacje bankowe.
Działa to tak: jeśli np. jesteś w podróży i skradziono Ci kartę, dzwonisz na infolinię i blokujesz ją w kilka minut. Wystarczy, że zadzwonisz, powiesz hasło (może brzmieć “Używam głosu jako klucza”), a system VoicePIN zweryfikuje, czy to jesteśmy Ty.
Hasła nie da się podrobić, nawet gdy ktoś je powtórzy po Tobie, to nie uzyska dostępu (nagrałem hasło wypowiadane przez Łukasza i je odtworzyłem, VoicePIN nie dał dostępu do konta. Zdziwiło mnie to, w końcu to był jego głos, przez niego wypowiedziane prawidłowe hasło. Łukasz wytłumaczył mi, że nie ma możliwości, abyśmy jedno zdanie powiedzieli identycznie drugi raz. Każde zdanie jest unikalne. Dwa razy identycznie brzmiące zdanie to playback, który można wykryć metodami analizy sygnałów).
Z technologii stworzonej przez Polaków korzystają duże firmy, ale nie wszystkie udostępniły jeszcze usługę klientom końcowym. W większości przypadków jest w fazie testów. Na współpracę z VoicePIN zdecydowali się m.in. Alior Bank, ING, Ministerstwo Finansów czy Orange. O tym, czym jest biometria głosowa oraz o historii samego produktu, rozmawiamy z Łukaszem Dylągiem, CEO VoicePIN.
Spis treści
Jak wyglądały Wasze początki pracy nad technologią rozpoznawania głosu?
Nasze produkty bazują na dwóch technologiach: pierwsza to rozpoznawanie mowy, a druga to biometria głosowa. Rozpoznawanie mowy służy do odczytywania treści, czyli tego co mówi nadawca. Biometrię głosową wykorzystujemy do rozpoznawania tożsamości osoby. Na początku tworzyliśmy takiego voicebota, czyli wirtualnego agenta głosowego, którego nazwaliśmy DRONN.
Do czego służy DRONN?
Zastępuje konsultanta call center, rozpoznaje co mówi klient i odpowiada na jego pytania. VoiceBot jest efektywny tak samo jak człowiek, a najważniejsze dla naszych klientów: przynosi oszczędności, nawet do 90%.
Jak kilka, kilkanaście lat temu wykorzystywano biometrię czy technologię rozpoznawania mowy?
Działało kilkanaście firm, które takie technologie rozwijały i wdrażały. Tak naprawdę temat ten nie był popularny. Technologia rozpoznawania mowy była dopiero na początku drogi i powstające rozwiązania nie były skuteczne. Była to bardziej technologia niż rozwiązanie, które można było w miarę szybko wdrożyć.
Jak od środka wygląda dostosowanie do własnych potrzeb takiej technologii?
Biometria głosowa rozpoznaje wiele różnych parametrów głosowych, my je po prostu przetwarzamy i analizujemy. To bardzo trudne zagadnienie, bo oprócz Twojego głosu, który słyszymy, na przesyłany do analizy dźwięk nakłada się bardzo wiele innych rzeczy, które przeszkadzają. Głównie przeszkadza wpływ kanału.
Wpływ kanału – co to znaczy?
Kanał GSM inaczej zniekształca głos niż voice over IP. Tak samo, mikrofon w smartfonie trochę inaczej zbiera dźwięk, inaczej głos jest przesyłany przez mikrofon w komputerze, a jeszcze inaczej, gdy mamy uruchomioną aplikację mobilną. Przeszkadzają także szumy, czyli miejsce, z którego dzwonisz. Zazwyczaj w tle słychać rozmowy, muzykę i gwar. To wszystko utrudnia rozpoznanie głosu. Z tej serii dźwięków musimy wyróżnić unikalne, biometryczne parametry, które pozwolą zweryfikować nadawcę.
Na zdjęciu: Proces weryfikacji głosu. Próbka jest przetwarzana, by dowieść czy należy do właściciela konta. Grafika należy do VoicePIN
Jak rozwiązujecie te problemy związane z zakłóceniami?
Tak naprawdę staramy się wyłuskać sam głos. To nie takie proste, bo chcąc odciąć od głosu zakłócenia, odcinamy trochę tych przydatnych w analizie elementów. Problem ten rozwiązujemy na różne sposoby, od standardowych typu HMM czy GMM. Korzystamy też z i-vectorów czy głębokich sieci neuronowych. Problemy z rozpoznawaniem głosu nadal istnieją, dlatego dużo pieniędzy i czasu poświęcamy na jak najlepsze ich rozwiązanie.
Jeżeli użytkownik korzysta z aplikacji mobilnej, to łatwiej Wam pracować nad rozpoznawaniem i weryfikacją głosu?
Mówienie przez aplikację mobilną daje lepszą jakość głosu. W tradycyjnej telefonii zakres częstotliwości dźwięku jest często ograniczony do 4 kHz. W aplikacji mobilnej nie mamy tego problemu a dźwięk nie jest tak zdegradowany kompresją.
Jak działa VoicePIN?
VoicePIN to nasza autorska technologia weryfikacji głosowej. Serwer, API, wszystkie mechanizmy zarządzające nią były stosowane głównie pod konkretne przykłady: VoicePIN służyło do logowania do bankowości mobilnej, czy do infolinii do IVRa. Technologia działa w trybie ze stałych hasłem (text-dependent), gdzie Ty powtarzasz zdefiniowaną wcześniej frazę, która jest taka sama dla wszystkich użytkowników. Drugi tryb, to tryb niezależny od hasła, treści tzw. text-independent.
Mój głos jest przypisany do mojego numeru telefonu, czy mogę zadzwonić z dowolnego urządzenia i zweryfikować swoją tożsamość?
W aplikacji mobilnej przedstawiasz się przez ID aplikacji, w tradycyjnej telefonii na kilka sposobów: przez rozpoznanie po numerze telefonu, wpisanie swojego identyfikatora, możesz też podać głosem ten numer czy przedstawić się. Wszystko zależy od klienta, z którym współpracujemy.
W call center weryfikacja głosowa polega na tym, że podczas rozmowy z konsultantem system weryfikuje głos i analizuje parametry porównując je do voice printu. A w przypadku aplikacji mobilnej prosi Cię o powtórzenie ustalonego hasła, które może brzmieć np. Verify me with my voice PIN.
Mówiłeś, że to Wasza autorska technologia. Co dokładnie stworzyliście sami?
Technologia biometryczna była znana już kilkadziesiąt lat temu. Natomiast to w jaki sposób ją zaimplementowaliśmy, to nasza autorska koncepcja.
Ile lat zajęło dostosowanie do Waszych potrzeb biometryki i rozpoznania głosu?
Potrzebowaliśmy dwóch-trzech lat, żeby pokazać prototyp pierwszym klientom. Nie wymyślaliśmy ani modeli Gaussa, czy Markowa, my je po prostu zaimplementowaliśmy na podstawie własnych algorytmów. Sama technologia analizy biometrycznych parametrów głosu była znana, natomiast my zrobiliśmy to po swojemu, napisaliśmy swoje algorytmy, bazując na znanych mechanizmach oraz tworzyliśmy nowe własne.
Co się kryje za technologią VoicePIN? Od strony użytkownika wiemy, że po prostu rozpoznaje głos, ale jak ten proces wygląda od środka?
Nad rozwojem VoicePIN pracuje kilkanaście osób, podzielony na dwie części: jest zespół R&D i zespół software development. Zespół badawczy zajmuje się tworzeniem algorytmu, jego badaniem i prototypowaniem, a drugi zespół zajmuje się budową kompleksowego rozwiązania wdrożeniem go dla klientów. Mamy swój silnik przetwarzania mowy, serwer zarządzający wszystkimi połączeniami, realizujący cały proces rozpoznawania głosu, API, interfejsy telekomunikacyjne.
Na zdjęciu: Proces rejestracji voiceprintu dla stałego hasła. System weryfikuje trzy próbki słowa „hello”, są tagowane i trafiają do bazy VoicePIN
Dzisiaj ta technologia mogłaby powstać szybciej?
Technologię biometrii głosowej możesz napisać w pół roku. Pytanie tylko czy będzie skuteczna i bezpieczna. Wątpię w to. Na pewno VoicePIN, jeśli mielibyśmy napisać system od początku, to trwałoby to krócej niż 2-3 lata, ponieważ mamy know-how, ogromną bazę wiedzy, wiemy które algorytmy są lepsze, a które gorsze. Jeżeli startowalibyśmy z takim poziomem wiedzy jak wtedy, to nie wiem czy poszłoby to wszystko szybciej.
Co doradziłbyś osobie, która chciałaby poznać bliżej technologię rozpoznawania głosu i biometrii głosowej? Od czego powinna zacząć?
Pierwsza rzecz to praktyka w VoicePIN, rozpoczęcie pracy w takiej firmie jak nasza. Moim zdaniem to najlepszy sposób na naukę i poznanie tej technologii. Oczywiście możesz dowiedzieć się o niej więcej z książek, wykładów z rozpoznawania mowy, które odbywają się m.in. na AGH. Nadal będzie to jednak teoria, a jak się okazuje w praktyce, taka teoria jest ważna, ale na jej podstawie nie zbudujesz systemu, który jest bezpieczny i skuteczny. A tego wymagają klienci.
–
Zdjęcie główne artykułu dzięki uprzejmości organizatorów wydarzenia Impact’16.