23 października 2018, 10:00:I Love Crypto 2018 - Złote Tarasy, Złota 59,00-120 Warszawa,Polska

Google wie, co kto mówi

Google ma narzędzie, które rozpoznaje ludzką mowę

Sztuczna inteligencja coraz lepiej radzi sobie z rozpoznawaniem ludzkiej mowy. Google twierdzi, że poradzi sobie również z wsłuchiwaniem się w głos jednej osoby wśród tłumu innych ludzi. Badacze Google w artykule „Looking to Listen at the Coctail Party” wyjaśniają, w jaki sposób system może zidentyfikować głosy, jedynie patrząc na twarze ludzi, gdy ci mówią.

Korzystanie z asystentów głosowych w codziennym życiu dziwi coraz mniej osób. Sztuczna inteligencja całkiem nieźle radzi sobie z rozpoznawaniem ludzkiej mowy, jednak do pełnego zrozumienia jeszcze daleka droga. Google postanawia to zmienić. O sprawie informuje serwis Digital Trends.

Jak nauczyć maszynę rozróżniać mowę?

Dla ludzi nie jest problemem rozmawianie z jedną osobą wśród tłumu przekrzykujących się wzajemnie ludzi. Potrafimy bez problemu skupić swoją uwagę na konkretnej osobie, wyciszając się na inne dźwięki. Oddzielanie poszczególnych dźwięków jest jednak obce komputerom. Jak „nauczyć” komputery, by rozpoznawały mowę jednej osoby? Badacze Google stworzyli uczący się model audiowizualny, który jest zdolny do izolowania sygnałów mowy z wielu innych dźwięków, takich jak dodatkowe głosy i szum w tle.

Jak wygląda rozwiązanie? Pierwszym krokiem w „uczeniu” maszyny było szkolenie jej, tak aby identyfikowała głosy w nieprzerwanie rozmawiającym środowisku. Naukowcy zaprezentowali maszynie 2000 godzin wideo, a na każdym znajdowała się jedna osoba w kadrze, bez ingerencji tła. Następnie do video dodany był szum oraz inne głosy, tak by system nauczył się rozróżniać ścieżki audio.

– Wierzymy, że ta zdolność może mieć szeroki zakres zastosowań, od usprawniania mowy i rozpoznawania w filmach, przez wideokonferencje, po udoskonalone aparaty słuchowe, szczególnie w sytuacjach, gdy mówi wiele osób – powiedzieli Mosseri i Lang, badacze Google.