Równolegle spółka udostępnia API, które pozwoli firmom i deweloperom budować własne rozwiązania oparte na technologii DeepL. Jednym z głównych zastosowań mają być systemy obsługi klienta, w tym call center. Założycielem DeepL jest Polak, Jarosław Kutyłowski.

DeepL wprowadza tłumaczenie głosu na żywo

– Po latach pracy nad tłumaczeniem tekstu naturalnym krokiem było wejście w tłumaczenia głosowe. Mimo dużego postępu w tłumaczeniu tekstów i dokumentów, rynek nadal nie oferował satysfakcjonujących rozwiązań do tłumaczeń głosowych w czasie rzeczywistym – powiedział serwisowi TechCrunch CEO DeepL, Jarosław Kutyłowski.

Kluczowym wyzwaniem technologicznym pozostaje znalezienie równowagi między opóźnieniem a dokładnością. Chodzi o to, by skrócić czas między wypowiedzią a odtworzeniem tłumaczenia, bez pogorszenia jakości przekładu.

Nowe rozwiązania DeepL mają działać jako rozszerzenia do popularnych platform komunikacyjnych, takich jak Zoom czy Microsoft Teams. Uczestnicy spotkań będą mogli słuchać tłumaczenia w czasie rzeczywistym lub śledzić napisy na ekranie. Program jest obecnie w fazie early access, a firmy mogą zapisywać się na listę oczekujących.

Poza tym DeepL rozwija też narzędzia do tłumaczenia z poziomu aplikacji mobilnych i przeglądarki. Mają one działać zarówno przy spotkaniach online, jak i w bezpośrednich rozmowach twarzą w twarz. Dodatkowo firma dorzuca funkcjonalności dla konwersacji grupowych – np. podczas szkoleń czy warsztatów, uczestnicy mogą dołączyć do systemu poprzez zeskanowanie kodu QR.

Tłumaczenia głosowe od DeepL

Technologia DeepL ma uczyć się i dostosowywać do specyficznego słownictwa, w tym terminologii branżowej, nazw firm czy nazw własnych. To element, który ma zwiększyć użyteczność rozwiązania w środowisku biznesowym.

Zdaniem Kutyłowskiego sztuczna inteligencja będzie w najbliższych latach redefiniować obsługę klienta. Warstwa tłumaczeniowa może umożliwić firmom świadczenie usług w językach, dla których trudno znaleźć wykwalifikowanych pracowników lub gdzie koszty zatrudnienia są zbyt wysokie.

Obecnie system DeepL działa w modelu pośrednim: przekształca mowę w tekst, tłumaczy ją, a następnie generuje wypowiedź w docelowym języku. Firma zapowiada jednak prace nad rozwiązaniem typu end-to-end, które pozwoli pominąć etap tekstowy i tłumaczyć głos bezpośrednio.

Jakiś czas temu pisaliśmy, że Google rozszerzyło funkcję „Live Translate” w swoim translatorze. Narzędzie umożliwia odsłuchiwanie tłumaczeń w czasie rzeczywistym przez słuchawki i jest teraz dostępne także na systemie iOS oraz w większej liczbie krajów. „Live Translate” od Google pozwala przekształcić dowolne słuchawki w narzędzie do jednokierunkowego tłumaczenia mowy. System przekłada wypowiedzi rozmówcy w czasie rzeczywistym, zachowując elementy takie jak ton, akcent i tempo mówienia. Funkcja opiera się na modelu AI Gemini.