«Яндекс» запустил переводчик-гибрид

ГлавнаяTech Мэри Мальцевич

Кампания «Яндекс» усовершенствовала переводчик собственной разработки. К модели статистического перевода разработчики добавили передовую технологию на основе нейронной сети. Теперь «Яндекс.Переводчик» стал своего рода гибридом, который работает по уникальному алгоритму.

Изначально онлайн-переводчик Яндекса был основан на применении статистической модели. Целые предложения дробились на слова и мелкие словосочетания (реже переводчик работал с цельными фразами). Для каждого элемента система подбирала все доступные варианты перевода, вычисляла вероятность их «правильности», отдавая предпочтение наиболее вероятным. Из переведенных кусочков составлялись цельные предложения. В качестве окончательного варианта пользователю система выдавала предложения, содержащие слова с наибольшими вероятностями перевода и с подходящими друг к другу фрагментами.

Бесспорное достоинство такой модели – запоминание системой редко встречающихся слов и выражений. Но «механичтность» перевода – существенный недостаток. На выходе пользователь мог получить вместо связного текста компиляцию несочетающихся по смыслу фрагментов.

Чтобы нейтрализовать этот недочет разработчики добавили к уже существующей модели, ведущую сегодня технологию, основанную на нейронной сети. Нейронная сеть призвана находить закономерности в огромном массиве текстов, хранящихся в сети, но логика их анализа совершенно отлична от той, которой руководствуется статистическая переводческая модель. Сеть не разбивает предложения на фрагменты, а работает с ними как с единым целым. Нейросеть пытается выявить смысловые связи, «понимая» контекст. За счет этого пользователь на выходе получает перевод максимально близкий к естественной речи. В большинстве случаев перевод схож с тем, что выдал бы человек-переводчик.

Однако с нейросетью не так все и гладко, как может показаться на первый взгляд. Если смысл предложения переводчику, работающему на основе этой технологии, неясен, а разбить его на части он не способен, то начинается игра в «угадайку».  К тому же, именно нейронная сеть, а не статистическая модель, как принято считать, чаще допускает грамматические неточности. Чтобы избежать типичных ошибок вроде «какой красивый девушка», перевод, осуществленный нейросетью, дополнительно проверяется через «модель языка». Это набор базовых знаний о грамматике конкретного языка, постепенно накопленный системой. Если модель находит нечто, что не соответствует правилам языка перевода, она исправляет ошибку.

«Яндекс» совместил две технологии с помощью специального алгоритма CatBoost.  Текст параллельно друг другу переводят две модели одновременно. CatBoost на основе машинного обучения сопоставляет результаты и выдает в конце концов наиболее подходящий.

Сейчас «гибрид» доступен исключительно в web-версии. Для нейронной сети пока доступны только два языка. Перевод осуществляется только в одну сторону – с английского на русский. По этому направлению проходят более восьмидесяти процентов всех запросов «Яндекс.Переводчика». Разработчики обещают, что к концу этого года, гибридная система заработает по всем направлениям. Пока создатели ожидают feedback: юзеры имеют возможность сравнить результаты, которые выдает старая и новая системы, и оповестить разработчиков, какой именно перевод пришелся им по душе.

Внедрение нейронной сети – еще один шаг в развитии сервиса. Напомним, что переводчик Яндекса начал свой путь с трех языков. За шесть лет переводчик «выучил» девяносто один язык, в том числе и редкие диалекты, такие как язык папьяменто. Сейчас сервис может осуществить перевод между любыми комбинациями. А в прошлом году сервис порадовал фанатов известного фантаста Дж. Р. Р. Толкина, пополнив свой перечень выдуманным языком книжных эльфов – синдарином.

Это интересно


Новости партнеров