Чешская система мгновенного перевода. В арсенале — 43 языка

Элитр

С каждым годом онлайн переводчики берут новую высоту и «умнеют». Свой вклад в развитие этого сервиса вносят и чешские специалисты из Карлова университета, представившие систему Elitr.

Выступление одного спикера в рамках конференции переводят 5 устных переводчиков, однако благодаря системе Elitr, европейскому онлайн-переводчику в то же самое время осуществляется синхронный перевод более чем на 40 языков. Новшество разработали эксперты Математико-физического факультета Карлова университета. Оно предназначено для использования на международных конференциях: каждое слово, произнесенное докладчиком, должно облететь почти всю Европу за несколько миллисекунд, чтобы люди успели прочитать его на своем мобильном телефоне.

Ондржей Бояр | Фото: Univerzita Karlova

— В данный момент мы смотрим на выходные данные, иллюстрирующие алгоритм нашей системы. Любое слово, которое я произнесу, вы увидите в первой колонке на чешском языке, и очень быстро. С чешского языка это будет переведено на английский. Наряду с этим, здесь представлена таблица, в которой пользователь может выбрать любой из других 42 языков и начать просмотр переводов на разные языки,

— начинает ознакомление с Elitr Ондржей Бояр, сотрудник Института формальной и прикладной лингвистики Математико-физического факультета Карлова университета.

Латиница, кириллица, иврит и арабская вязь

Eго коллега Доминик Махачек предлагает нам нажать на любую из клавиш. В меню представлены латиница, кириллица, иврит, арабская вязь. Выбираем почти наугад квадратик с обозначением «КК» – попали в казахский. Это та же кириллица, однако, помимо привычных 33 букв русского алфавита, в казахском есть 9 специфических звуков. Сколько языков одновременно способна охватить система синхронного перевода?

— Включая английский, 43 языка. Тот факт, что мы просматриваем здесь только шесть страниц, причем очевидно, что они прокручиваются слишком быстро, объясняется тем, что столбцы — слишком узкие, так что просто сказывается несоответствие  нашего небольшого экрана необходимым параметрам. Если бы экран был шириной в полтора метра, мы бы поместились там вместе со всеми языками,

— поясняет «Чешскому Радио» Ондржей Бояр.

Импульсом для создания европейского онлайн-переводчика Elitr стал заказ Высшего контрольно-ревизионного управления Чехии, которое готовилось к проведению крупного международного конгресса.

— Мы наметили план того, как в течение трехлетнего проекта подготовим систему таким образом, чтобы она могла отслеживать слова основного докладчика в прямом эфире, а в качестве резервной копии — также присутствующих там синхронных переводчиков, с тем, что из этих многочисленных источников мы будем транслировать перевод выступления в прямом эфире,

— описывает Бояр начало процесса разработки продукта.

Чешские специалисты во главе с Ондржеем Бояром объединились с зарубежными коллегами в одну группу и разработали систему. Она использует огромный словарный запас отдельных языков для машинного обучения. Цель — одновременное создание десятков переводов.

— Внутри это работает так, что одна обученная модель готова к выдаче выходных данных сразу на всех языках. Мы даем ему одно и то же предложение 42 раза с командой перевести это английское предложение на чешский, на азербайджанский, на болгарский языки и т. д. А поскольку графическая карта, то есть адаптер, способен работать параллельно, ответ приходит сразу на все эти языки,

— дает нам общее понимание принципов обработки данных в этой переводческой стратегии Ондржей Бояр.

В течение нескольких миллисекунд слово, произнесенное в Чешской Республике,
таким образом проходит в общей сложности через девять систем, в том числе в Шотландии, Италии и Германии, что и было продемонстрировано в ходе упомянутой международной конференции.

— Это происходило в режиме реального времени, то есть как только слово было произнесено, оно в тот же момент появилось на экране, и все эти словосочетания успели пробежать по Европе.

«Элитр» будет еще усовершенствован

Доминик Махачек | Фото: Elitr.eu

В будущем система должна делать соответствующие заметки из доклада на всех языках. Доминик Махачек в настоящее время работает над улучшением итоговой презентации.

«Например, чешское слово «замок» может означать как здание, так и устройство для запирания, и если мы также получим к нему поясняющее английское предложение, то будем точно знать, о чем идет речь. Это позволит нам точнее перевести слово на другой язык», — говорит Давид Махачек.

Из-за сложности аппаратного обеспечения система перевода Elitr пока не станет мобильным приложением.