Как переводчики в Яндексе помогают улучшать машинный перевод?

Руководитель группы лингвистической экспертизы Эми Кришневски о том, как связаны машинный перевод и работа её команды

Как переводчики в Яндексе помогают улучшать машинный перевод?

Анализ данных

Группа лингвистической экспертизы — это команда переводчиков и редакторов внутри отдела документирования и локализации Яндекса. Они работают с технической документацией, интерфейсами, креативными текстами, промо-страницами, сайтами и презентациями на английском, турецком, русском и других языках. Помимо этого они помогают улучшать работу Яндекс Переводчика: на их текстах тренируют модели машинного обучения сервиса. 

Руководитель команды лингвистической экспертизы Эми Кришневски рассказала о том, как связаны машинный перевод и работа её команды, в чём особенности работы с техническими материалами, и какие навыки важны редакторам и переводчикам в Яндексе.

Как работает машинный перевод и чем ему помогает группа лингвистической экспертизы

В Переводчике используют гибридную модель машинного перевода, которая включает в себя нейросетевой и статистический подходы.

Статистический подход основан на двух моделях — языка и перевода. Для создания модели перевода система сравнивает тысячи текстов со схожим содержанием, написанных на разных языках. В ходе сравнения модель учится находить соответствия между словами и их переводами: например, «hoodie» и «толстовка». Результат записывает в матрицу выравнивания слов, по которой затем можно найти возможные пары переводов.

alt

Для создания модели языка система изучает тексты на одном языке и составляет списки всех употребляемых слов и фраз. Каждому из них соответствует свой идентификатор, определяющий частоту использования в языке.

Во время перевода предложения разбиваются на части, которые модель переводит независимо друг от друга. Сперва для каждой из них подбирается потенциальный перевод из матрицы, а затем система «собирает» из частей несколько вариантов предложения — и выбирает лучший вариант с точки зрения оптимальной сочетаемости слов.

Нейронная сеть анализирует массив параллельных текстов и учится находить в них закономерности. Для этого используются эмбеддинги — векторные представления слов, благодаря которым можно понять, в каком контексте их употребляют. Например, если слово «кофейник» трижды встречалось рядом со словом «завтрак», один раз — со словом «ночь» и ни разу — со словом «здоровье», то его векторное представление может выглядеть так: [3;1;0]. Эмбеддинги помогают подбирать из нескольких возможных переводов наиболее подходящий — за счёт того, что они учитывают смысл текста или предложения.

Яндекс.Переводчик передает текст одновременно двум системам: и статистическому переводчику, и нейронной сети. Полученные результаты оцениваются алгоритмом, основанном на методе обучения CatBoost — а он выбирает лучший из двух вариантов.

Команда лингвистической экспертизы помогает работе Яндекс.Переводчика тем, что автоматически передаёт тексты, с которыми работала команда (около 40 000 предложений раз в квартал), в выборку для обучения машинного перевода. Ценность этих материалов в их специфике — они включают в себя точные переводы технических терминов и выражений, которые используются разработчиками или другими специалистами в IT.

Так, для каждого продукта Яндекса у команды переводчиков есть отдельный глоссарий с терминами и устойчивыми фразами. Перевод одного и того же предложения может сильно разниться в зависимости от сервиса (контекста). Например, пара слова «счётчик» в Яндекс.Метрике — это «tag», а в программировании — «counter».

Яндекс.Переводчик обучается на текстах группы лингвистической экспертизы и начинает использовать правильные термины в зависимости от контекста. Пользователи чаще всего переводят тексты с русского языка на английский и наоборот. Однако в запасе у команды есть документы и на других языках — например, на турецком (так как часть сервисов Яндекса — например, Музыка — локализована в Турции).

Для обучения машинного перевода используется не только техническая документация или тексты интерфейсов, но и маркетинговые материалы или тексты из службы поддержки Яндекса. В них используется более разговорная речь, благодаря которой модели «понимают», как технические термины используются в повседневной жизни.

Для того, чтобы обучение машинного перевода было эффективным, важна повторяемость слов, предложений и речевых конструкций. И чем выше разнообразие текстов (как в случае рекламных материалов), тем медленнее тренируется модель.

Как устроена работа переводчиков в Яндексе

В группу лингвистической экспертизы входят редакторы-эксперты и переводчики. Они работают с технической документацией, презентациями, маркетинговыми материалами, текстами в интерфейсах приложений и так далее. Бывают неожиданные задачи: например, перевести диалог из сериала для Кинопоиска. Сложно придумывать переводы для креативных названий плейлистов в Музыке, — рассказывает руководитель группы лингвистической экспертизы Эми Кришневски.

У каждого переводчика своя специализация: кто-то ёмко переводит интерфейсы приложений, а кто-то красочно передаёт смысл рекламных текстов.

Эми говорит, что главный навык для переводчика в Яндексе — это готовность учиться и исследовать незнакомые темы. Продукты Яндекса развиваются очень быстро, и поэтому работа переводчика тоже довольно динамичная: нужно изучать новые технологии или искать неизвестные обороты на сайтах и в книгах. Команда Эми регулярно читают блоги Google и Amazon, сравнивают стиль и терминологию их материалов со своими переводами. Также Эми советует ориентироваться на гайды Google, Microsoft и Apple по написанию текстов.

Переводчикам в Яндексе важна дотошность и привычка проверять все факты. Кроме того, нужно думать о том, как облегчить жизнь пользователям: оптимизировать переводы так, чтобы они были максимально однозначными, и читатель быстро понимал, о чём речь. Этот навык развивается с опытом — особенно если внимательно читать правки от редакторов.

Среди основных рабочих инструментов переводчиков в Яндексе — сервис MateСat — CAT-система, профессиональный инструмент для перевода. В нём сотрудникам доступны глоссарий, машинный перевод текста и подсказки из накопленной памяти переводов

Эми рассказывает, что сервисы для автоматического перевода и переводчики-люди — не конкуренты. Работа со специализированными инструментами помогает её команде экономить время и ресурсы. Редактор считает, что в ближайшее время автоматические переводчики не заменят людей: потому что они медленнее обучаются незнакомым темам. А пока что отношения машинных методов и специалистов её команды — это взаимовыгодное сотрудничество.

Больше по теме

Анализ данных, Разработка, Дизайн

10 самых популярных видеокурсов от Computer Science Center

Посмотрите лекции по дискретной математике, программированию, анализу данных и на многие другие темы

Анализ данных, Дизайн, Разработка, Яндекс в вузах

Какие онлайн-курсы можно пройти за две недели

Если вы решили оставаться дома и заняться самообразованием

Анализ данных

Открыт набор в Computer Science Center

Вечерние курсы по математике и программированию от ШАДа и компании JetBrains в Санкт-Петербурге и в Новосибирске.

Анализ данных, Яндекс в вузах

Как устроена совместная программа ШАДа и РЭШ

Подружить экономику и data science

Анализ данных, Яндекс в вузах

Сотрудник лаборатории Яндекса и МФТИ рассказывает о своих исследованиях

«Чтобы чувствовать себя хорошо, я постоянно должен что-то изучать»

Менеджмент, Анализ данных

Санитары леса: как устроен антифрод в Яндекс.Дзене

Борьба с накрутчиками, любителями эротической живописи и комментаторами-ненавистниками

Анализ данных

Трансферное обучение: почему deep learning стал доступнее

Что помогает стартапам использовать методы глубинного обучения в своих проектах?