Korzystanie z asystentów głosowych w codziennym życiu dziwi coraz mniej osób. Sztuczna inteligencja całkiem nieźle radzi sobie z rozpoznawaniem ludzkiej mowy, jednak do pełnego zrozumienia jeszcze daleka droga. Google postanawia to zmienić. O sprawie informuje serwis Digital Trends.

Jak nauczyć maszynę rozróżniać mowę?

Dla ludzi nie jest problemem rozmawianie z jedną osobą wśród tłumu przekrzykujących się wzajemnie ludzi. Potrafimy bez problemu skupić swoją uwagę na konkretnej osobie, wyciszając się na inne dźwięki. Oddzielanie poszczególnych dźwięków jest jednak obce komputerom. Jak „nauczyć” komputery, by rozpoznawały mowę jednej osoby? Badacze Google stworzyli uczący się model audiowizualny, który jest zdolny do izolowania sygnałów mowy z wielu innych dźwięków, takich jak dodatkowe głosy i szum w tle.

Jak wygląda rozwiązanie? Pierwszym krokiem w „uczeniu” maszyny było szkolenie jej, tak aby identyfikowała głosy w nieprzerwanie rozmawiającym środowisku. Naukowcy zaprezentowali maszynie 2000 godzin wideo, a na każdym znajdowała się jedna osoba w kadrze, bez ingerencji tła. Następnie do video dodany był szum oraz inne głosy, tak by system nauczył się rozróżniać ścieżki audio.

– Wierzymy, że ta zdolność może mieć szeroki zakres zastosowań, od usprawniania mowy i rozpoznawania w filmach, przez wideokonferencje, po udoskonalone aparaty słuchowe, szczególnie w sytuacjach, gdy mówi wiele osób – powiedzieli Mosseri i Lang, badacze Google.