Uralistica

Машинный перевод для языков России

Сегодня в Чебоксарах завершил работу Курс машинного перевода для языков России по совместной разработке научно-прикладных проектов в области машинного перевода для языков народов России.

На данной платформе создано около 40 автоматических переводчиков и еще многие находятся в процессе создания. Речь, прежде всего, идет об автоматических переводчиках между родственными языками.


Создание новой системы перевода с системой Apertium не обязательно должно стоить несколько миллионов евро и занимать несколько лет. Значительное количество систем Apertium была разработана несколькими людьми всего за несколько месяцев за счет использования существующих ресурсов, и подвижного движка системы.

Хотя наличие денег и времени часто является предпосылкой для создания лучшей системы машинного перевода, многое можно сделать имея реалистичные ожидания, детальное планирование и эффективно используя вклад добровольцев-разработчиков.


Примеры из практики

Следующие примеры показывают 4 успешных, но отличных путей создания систем машинного перевода


Испанский и каталонский

Долгосрочное государственное финансирование, несколько разработчиков. На каталонском говорят около девяти миллионов человек.

Машинный переводчик с испанского на каталонский является старейшим переводчиком в Apertium. Он был переписан и расширен на основе переводчикаinterNOSTRUM, разработанного в Университете д'Алакант. В общей сложности, он создавался в течение 12 лет. Начальная версия interNOSTRUM была выпущена в начале 2000 года и заняла около 72 человеко-месяцев (четыре человека, 18 месяцев), которые создали движок и лингвистические данные. Он широко использовался, насчитывая около тысячи запросов в день.

В 2004 году Apertium, при финансовой поддержке Министерства науки, промышленности и торговли Испании, запустил проект по переписки кода для общего доступа, а также по преобразованию лингвистических данных. После одного человеко-года, была выпущена первая версия испано-каталонского переводчика.

Переводчик очень высокого качества, выдерживает сравнение с коммерческими проектами - более 95% охвата словаря (около 5 неизвестных слов из 100), и процент ошибочных слов между 3-7% (из 100 слов около 3 - 7 нужно заменить для получения адекватного перевода). Это второй по популярности переводчик на сайте Apertium, и основной машинный переводчик для ряда университетов в Испании при работе с этой языковой парой.


Новонорвежский язык (нюнорск, Nynorsk) и норвежский бокмал (Bokmål)

Краткосрочное финансирование на конкурсной основе, один разработчик. Нюнорск - считается предпочитаемым литературным языком для 580,000 норвежцев.

Переводчик с языка Нюнорск на Бокмал - самый популярный на нашем сайте. Его начали разрабатывать в 2008 году Фрэнсис Таерз и Трун Тростерюд, используя имеющиеся данные, такие как Norsk Ordbank (большой список полных слов на языках нюнорск и бокмал) и маркировщик слов Осло-Берген (грамматика ограничений, основанная на инструменте разрешения неоднозначности для обоих видов норвежского языка).

Начальная версия не была завершена, но проект был подхвачен в 2009 году Кевином Унхаммером, студентом компьютерной лингвистики Университета Бергена во время летней программы компании Google по отбору проектов с открытым кодом. В течение трех месяцев Кевин полностью переделал преобразование обоих списков Ordbank, грамматику ограничений и написал серию правила переноса.

Он потратил 2 недели на преобразование списков Ordbank в формат Apertium, затем еще неделю на преобразование маркировщика Осло-Берген. Три недели на правила переноса, а потом еще три недели на расширение словарей. Затем две недели были потрачены на тестирование работы задач, например, на тестирование чтобы только слова из всех трех словарей были включены. И последняя неделя была посвящена оценке.

Итоговый охват системы составляет около 90%, т.е. на основе корпуса около 10 неизвестных слов из 100 слов в среднем. Ошибочные слова - около 17%, что означает, что из 100 слов 17 должны быть изменены для получения адекватного перевода. Эта система выдерживает конкуренцию с другими имеющимися системами для перевода пары нюнорск-бокмал (Nynorsk-Bokmål). Сегодня на систему приходится более трети всех переводов на сайте Apertium.


Бретонский и французский

Среднесрочный волонтерский проект при очень коротком государственном и частном финансировании, несколько разработчиков. На бретонском говорят около 200,000 людей.

Работа над бретон-французским переводчиком была начата в 2008 году Фрэнсисом Таерзом в его свободное время. После трех месяцев, систем подтверждения концепции, используя правила переноса из пары французский - испанский была представлена в Офис бретонского языка в декабре. Было решено найти финансирование, чтобы в течение месяца доработать прототип системы, которая была бы полезна для определенных целей.

В конце концов, финансирование поездки носителя бретонского языка в Алакант была организована Офисом бретонского языка, а университет Далакант оплатил месячную зарплату бретонского носителя и компания инженерной лингвистики Промпзит оплатила работу Фрэнсиса Таерза. Еще на два месяца. В общей сложности стоимость проекта составила около € 3000. Первая версия переводчика был выпущена в мае 2009 года.

Первая версия имела охват около 85%, высокий процент ошибочных слов, что все же позволяло переводчику быть полезным для определенных целейи. Сегодня система Доступна на главной странице Офис ар Brezhoneg, и обновляется сотрудниками Офис, в том числе его директором, Фулупом Якезом.


Испанский и арагонский

Среднесрочный волонтерский проект без государственного финансирования, два разработчика. На арагонском говорит около 10,000 человек.

Работа над испанско-арагонским переводчиком была начата разработчиком Apertium Джимом O'Реганом, по просьбе носителя арагонского языка Хуан Пабло Мартинеса. Три недели усилий, растянутых в течение года, и последняя интенсивная неделя работы привели к выпуску первой версии прототипа, переводчика только с арагонского на испанский язык.

Первая двунаправленная версия переводчика была завершена Хуаном Пабло после еще 6 недель работы, растянутых на год. Единственными доступными ресурсами в начале этой работы на арагонском языке были арагонская версия Википедии и несколько шаблонов глаголов в английском издании Викисловаря. Арагонско-испанский словарь был создан с нуля, но морфологический анализатор испанского языка и маркировщик частей речи были взяты из испанско-каталонской пары. Создание системы никак не финансировалось.


Вспомогательные факторы

Существующие ресурсы

Когда языковые ресурсы, такие как корпуса, словари, грамматики, морфологические анализаторы, списки лемм и т.д. находятся в свободном доступе / с лицензией на возможность свободного использования, они могут быть использованы повторно и сократить время разработки. Тем не менее, количество времени, необходимого для переформатирования не следует недооценивать.

Морфологический преобразователь, предназначенный для проверки орфографии, может быть очень хорошим для проверки орфографии, но его может быть не так-то легко адаптировать для анализа / генерации в системе машинного перевода. Для разных целей разные требования и это должно быть учтено при принятии решения повторного использования существующих ресурсов: стоит ли адаптировать имеющийся ресурс или создать его с нуля.

Источник: http://wiki.apertium.org/wiki/Машинный_перевод_для_языков_России/Ра...

Просмотров: 308

Комментарий

Вы должны быть участником Uralistica, чтобы добавлять комментарии!

Вступить в Uralistica

Комментарий от: Карташов Сергей, Январь 27, 2012 в 9:11pm

полезная работа делалась в чебах.

Пусъёс

© 2020   Created by Ortem.   При поддержке

Эмблемы  |  Сообщить о проблеме  |  Условия использования