Google разработала алгоритм Translatotron, который напрямую переводит устную речь на разные языки, минуя конвертацию в текст. Система также умеет сохранять голос и интонацию пользователя. Об этом компания сообщила в своем блоге.
В существующих переводчиках, включая Google Translate, при устном переводе звук сначала конвертируется в текст, а потом обратно в аудио. Основное отличие Translatotron в том, что он пропускает этот этап и работает напрямую со звуком — система создаёт «слепок» исходной речи и преобразует её.
Подобный алгоритм позволяет увеличить скорость перевода, сократить число ошибок в распознавании речи и при переводе слов, которые не нужно переводить, например, имён. Специалисты Google отмечают, что Translatotron — первая система прямого перевода без конвертации в текст.
Кроме того, алгоритм научили сохранить интонации и паузы говорящего, чтобы сделать звучание перевода более естественным. Нейросеть также может сохранять исходный голос, но эта система обучена на меньшем количестве данных, поэтому варианты перевода получаются немного разными.