Как сделать машинный перевод

Обновлено: 08.07.2024

Прогрессивное развитие информационных и компьютерных технологий и непрерывное расширение границ информационного мира открывают перед нами безбрежный океан возможностей, о которых человечество не задумывалось семьдесят или всего двадцать лет назад.

В продолжение темы онлайн-переводчиков:

  • Обзор онлайн-переводчиков. Часть 2. ТОП-10 онлайн-переводчиков
  • Обзор онлайн-переводчиков.Часть 3. Сравнительный анализ и тестирование
  • Обзор онлайн-переводчиков.Часть 4. Выводы и рекомендации

Интернет стал неотъемлемой частью нашей жизни, открыв перспективы многоязычного информационного обмена, который сегодня осуществим также в интерактивном режиме. Глобальная Сеть изобилует разнообразной информацией, доступной на самых различных языках, но часто на пути пользователей Интернета возникают непреодолимые языковые барьеры, обусловленные незнанием иностранных языков. В процессе обработки иноязычной информации часто возникает необходимость выполнения срочного перевода того или иного текста или веб-сайта, и для решения подобных задач многие пользователи прибегают к помощи сервисов онлайн-перевода, которые пользуются сегодня довольно большой популярностью. Однако, несмотря на свою распространенность, данные онлайн-сервисы перевода вызывают к себе неоднозначное отношение у различных групп пользователей. В данной статье мы проведем обзор современных онлайн-переводчиков, пользующихся наибольшей популярностью среди пользователей Глобальной Сети, рассмотрим исторические предпосылки развития индустрии машинного перевода и попробуем сравнить и проанализировать качество переводов, предоставляемых данными сервисами онлайн-переводов.

1. Онлайн-переводчики: за и против

Онлайн-переводчик

Безусловно, высокая скорость перевода относится к положительным характеристикам онлайн-переводчиков, с их помощью пользователи могут моментально перевести контент новостей и блогов, опубликованных на иностранном языке или информации, размещенной на иноязычных веб-сайтах. Готовый перевод появляется непосредственно в окне браузера, а значит, это избавляет пользователя от необходимости устанавливать специальные программные средства. Но обратной стороной медали такой характеристики, как высокая скорость работы является низкое качество полученного перевода, поэтому вряд ли можно с уверенностью говорить о том, что смысл переведенного текста будет понятен сразу, без последующего редактирования. Такая неоднозначная ситуация уже в течение нескольких десятилетий вызывает горячие дискуссии среди различных групп пользователей данного сервиса по поводу того, можно ли рассматривать онлайн-переводчиков как достойных соперников живым, образованным переводчикам и способны ли они вообще свести на нет функции последних. Программисты и разработчики подобных программ и сервисов говорят о наступлении времен, когда будут главенствовать машинные переводы, тогда как лингвисты и переводчики твердят о постепенном ухудшении качества предоставляемых переводов, объясняя это именно массовым применением программ машинного перевода.

Зачастую программы машинного перевода понимаются как какое-то уникальное средство, которое способно вытеснить живых, мыслящих переводчиков. Некоторые пользователи полагают, что, если с помощью компьютера сегодня можно добыть любые сведения из многочисленных информационных источников, от него можно ожидать соответствующей компетентности также в вопросах качественной трансформации этих сведений в любой возможный языковой формат.

Машинный перевод

Однако ни для кого не секрет, что такое преставление крайне ошибочное. Знающие специалисты, равно как и производители подобных программ, понимают, что в действительности ситуация выглядит иначе. Конечно, рекламируя свои программные продукты, производители честно признаются, что качество машинного перевода не далеко от идеального и что получение адекватного перевода возможно только при вмешательстве человека, однако не всегда раскрывается тот факт, что человек, которому предстоит обработать такой перевод, должен быть квалифицированным переводчиком и ему придется потратить массу времени на придание машинному тексту качества, достойного профессионального перевода.

Итак, мы рассмотрели основы машинного перевода, предоставляемого в режиме онлайн, и отметили основные преимущества и недостатки данного сервиса. Однако прежде чем приступить к обзору конкретных онлайн-переводчиков и провести анализ и оценку качества предоставляемых ими услуг, было бы целесообразно сделать небольшой экскурс в историю появления и развития машинного перевода и узнать, когда в умах людей зародилась идея создания машинных переводчиков и как она воплощалась в жизнь.

2. История становления машинного перевода

Точно не установлено, кто первым задумался о создании машинного перевода. Уже в древние времена представители различных народов начали заниматься решением проблемы кодирования своих языков в целях обеспечения их доступности иноземцам. Этот вопрос был актуальным у древних египтян, вавилонян, индийцев и китайцев. В течение многих столетий люди не оставляли попыток создать единый язык, который был бы понятен всем и использовал бы в своей письменности определенные универсальные пиктограммы. Но еще ни один язык, созданный искусственным путем, не смог прийти на замену естественным языкам, которые очень сложно подвергнуть кодированию. Впервые идея применения специальных машин для перевода слов с одного языка на другой была предложена в XVII в. знаменитыми математиками, естествоиспытателями и философами Готфридом Вильгельмом Лейбницем и Рене Декартом. Однако уровень развития науки того времени не позволил ученым даже по-настоящему сформулировать задачу.

Впервые к решению данной проблемы с действительно научной точки зрения приступил Чарльз Бэббидж, который спроектировал в 1836–1848 гг. первую цифровую вычислительную машину, умевшую выполнять аналитические операции. Идея Бэббиджа заключалась в использовании памяти объемом в тысячу 50-разрядных десятичных чисел для хранения словарных баз. Эта идея была приведена как основание для запроса у правительства Англии финансовых средств, необходимых для реализации задуманного проекта и создания такой аналитической машины [1]. К сожалению, проекту по созданию прототипа системы Бэббиджа так и не было суждено завершиться, да и вряд ли его воплощение принесло бы какие-то значимые результаты.

Рождение машинного перевода как самостоятельного научного направления приходится на март 1947 г., когда криптограф Уоррен Уивер, руководивший отделением естественных наук Рокфеллеровского фонда, обратился с письмом к Норберту Винеру, в котором высказал мысль о рассмотрении задачи перевода с одного языка на другой как новую область использования технологий декодирования. Уивер уверял, что перевести текст с одного иностранного языка на другой – не такая уж сложная задача. Стоит лишь представить, что исходный текст написан на родном языке, но закодирован с помощью специальных знаков, поэтому, чтобы понять смысл информации, заложенной в данный текст, достаточно взломать этот код. Сравнение технологии перевода и дешифрования казалось вполне естественным в условиях послевоенного времени, особенно с учетом блестящих успехов, которые были достигнуты в области криптографии во время второй мировой войны.

Первый успех в сфере автоматизации переводов связан с "Джорджтаунским экспериментом", который был осуществлены 1954 г. на машине IBM-701. Программно-языковое обеспечение данного эксперимента было очень скромным: словарная база состояла лишь из 250 слов, а грамматика была представлена 6 синтаксическими правилами, вся же система могла перевести всего 49 предварительно отобранных предложений. Эксперимент положил начало настоящему исследовательскому буму, в течение следующего десятилетия правительство США потратило на исследования в области машинного перевода примерно 40 млн. долл. Следует отметить, что перевод выполнялся с русского языка на английский, что, возможно, в какой-то мере объясняет последующую резкую активизацию разработок в этой области также в СССР. К концу 1955 г. во многих академических центрах СССР были созданы и протестированы программы машинного перевода, в основу которых легла имевшаяся в то время вычислительная база (БЭСМ и "Стрела").

Первые успехи вызвали настоящую эйфорию среди специалистов. Сразу же после достижения положительных результатов было создано несколько глобальных проектов, направленных на решение проблемы машинного перевода для современных языков, а также большое количество мелких проектов для отдельных направлений. Особое внимание стало уделяться вопросам моделирования языка и языковых аспектов, языковой и мыслительной деятельности, изучению языковой формы. В 50-х гг. прошлого века во многих странах мира были созданы отделения машинного перевода и прикладной лингвистики.

Но, несмотря на то, что машинный перевод был признан бесперспективным, данная проблема всегда вызывала высокий интерес, и лишь на заре 80-х гг. тема машинного перевода снова приобрела актуальность - наряду с изучением систем информационного поиска и искусственного интеллекта началось восстановление незаконченных разработок в области автоматизации переводов. В течение этого времени были выработаны способы морфологического анализа (автоматического) для основных языков Европы, сформулированы основные требования к семантическим элементам таких систем и разработаны методы автоматического анализа синтаксических структур. В условиях международного терминологического обмена были составлены крупные электронные словари, оснащенные богатым словарным запасом и терминологической базой по различным научно-техническим отраслям. За это время были созданы крупные международные проекты с солидными бюджетами, к числу которых относятся EU ROTRA (Европейское экономическое сообщество), METAL (США и Германия), ARIANE (Франция), KANT (США) и пр. Но, как и раньше, ни один из этих проектов не смог предложить уникальное решение, применимое в рамках массового использования.

Зато 90-е годы, в течение которых индустрия информационных и коммуникационных технологий пережила бурный прогресс, стали эпохой возрождения машинного перевода: создание персональных компьютеров, внедрение Интернета и локальных сетей обусловили стремительный рост интереса к машинному переводу. Созданные программы машинного перевода стали перспективной сферой для капиталовложений для частных предпринимателей и государственных структур. В условиях такого расцвета совершенствование систем машинного перевода казалось более реальной задачей, а достигнутые результаты – пользующимися еще большим спросом.

В целом, история становления машинного перевода насчитывает чуть больше 50 лет. За все это время одни системы машинного перевода сменялись другими – начиная с программ, основанных на ресурсах первых прототипов современных компьютеров и заканчивая коммерческими системами, предлагаемыми конечным пользователям и использующими мощные ресурсы онлайн-серверов и персональных компьютеров. В ходе устранения технических недостатков, становилось очевидным, что перевод текстов с одних языков на другие не ограничивается примитивной перекодировкой слов. Основные трудности, возникающие в процессе перевода, должны устраняться путем автоматизированного представления смыслового содержания текста, а также фоновых знаний о понятиях той предметной области, к которой относится исходный текст.

Автопереводчики с английского на русский


Английский язык встречается повсюду: на нем пишут песни и книги, снимают фильмы, делают сайты и игры. Поэтому популярны автоматические переводчики с английского языка на русский. Таких сервисов существует много, и нужно сделать правильный выбор среди них.

Как автоматически перевести текст на русский язык

Технология машинного перевода существует давно, и сегодня перевести слова и фразы с английского языка на русский можно с использованием разных сервисов. Автопереводчики доступны онлайн: для работы с ними не нужно скачивать дополнительных программ на компьютер, достаточно браузера.

Способ 1: Переводчик Google

Гугл Транслейт — безусловный лидер рынка онлайн-переводчиков. С его помощью можно переводить фрагменты между 103 языками, в том числе — с английского языка на русский. Он встроен во многие сервисы компании Google; доступен на сайте и в качестве приложений для мобильных платформ iOS и Android.

Чтобы перевести с английского языка на русский:

Перевод текста в Переводчике Google

Максимальная длина переводимого отрывка — 5000 символов. Если вы хотите перевести более длинный фрагмент, разбейте его на части и переведите их поочередно.

Текст можно не только вводить с клавиатуры или копировать. Гугл Translate способен распознать устную речь. Более того, в мобильных приложениях есть возможность перевести надписи с фотографии и символы, нарисованные от руки.

При вводе отдельных слов Google Translate предоставляет словарную статью — его определения, а также предлагает несколько вариантов с указанием вероятности каждого из них.

Переводчик Гугл быстро развивается. Он переводит с помощью нейронных сетей и использует переводы, выполненные людьми. В нем можно перевести документ (для этого нажмите на соответствующую ссылку под левым текстовым полем) либо страницу сайта (просто вставьте ссылку в левое поле для исходного текста). Текстовый фрагмент можно озвучить — для этого нажмите на иконку динамика внизу поля.

Способ 2: Яндекс.Переводчик

Яндекс.Переводчик может работать в трех режимах.

Интерфейс Яндекс.Переводчика

Чтобы перевести фрагмент, надо проделать те же операции, что и при переводе в Переводчике Google: перейти по ссылке, приведенной перед этим абзацем, выбрать язык оригинала (английский) и перевода (русский). По мере ввода текста, или сразу после его копирования, он будет переведен. Фрагмент и его перевод также можно озвучивать.

Яндекс.Переводчик использует статистический подход к машинному переводу. Переводчик обучается на миллионах текстов, найденных в интернете. Благодаря этой системе он неплохо справляется как с переводом отдельных слов (выводя несколько вариантов перевода), так и с длинными предложениями. Удобное оформление делает работу быстрой и комфортной.

Способ 3: Переводчик от компании ПРОМТ

ПРОМТ использует Гибридную технологию, основанную и на статистическом сравнении большого количества текстов, и на словарях и правилах языка. При работе с отдельными словами он предлагает несколько вариантов, примеры использования и словосочетаний, озвучивание слова. Веб-страницы тоже можно переводить.

Гибридная технология делает переводчик лидером по качеству работы. Он демонстрирует высокие результаты давно — правда, они практически перестали улучшаться. В плане удобства он сильно отстает от конкурентов: загружается медленнее и наполнен рекламой. Приложения для мобильных телефонов и компьютеров — платные.

Способ 4: Переводчик Bing (Microsoft Translator)

Сервис от компании Microsoft предоставляется на сайте и в виде приложений для Windows, Apple Watch, Android Wear и мобильных платформ, а также компонента к офисным программам. Способен работать с 61 языком. Технологии этого Microsoft Translator используются в приложении Skype.

Действия, которые надо сделать для перевода, аналогичны описанным ранее.

Bing Translator — переводчик от Microsoft

Из дополнительных функций переводчик поддерживает моментальный перевод, автоопределение языка текста, перевод веб-страниц (для этого надо вставить в поле для текста URL-адрес страницы), озвучивание текстов.

Microsoft Tranlsator слабо оптимизирован под русский язык, а качество англо-русского перевода фраз, идиом и предложений держится на невысоком уровне.

Заключение

Автопереводчики не просто удобны — часто они незаменимы. По популярности и международному признанию лидирует автопереводчик от компании Google. Этому поспособствовала и популярность других сервисов Google, и его удобство, и отсутствие рекламы, и наличие мобильной версии и приложений. Второй по количеству пользователей — сервис Яндекса, практически не отстающий от Гугл Транслейта по этим параметрам. Эти переводчики развиваются стремительно и хорошо переводят отдельные слова. А вот с переводом предложений и текстов, а также устойчивых словосочетаний отлично справляется продукт компании ПРОМТ. Каждый может выбрать сервис по вкусу.


Впервые идея использовать компьютер для автоматизации перевода текстов с одного естественного языка на другой была предложена Уорреном Уивером в 1949 году. В 1954 году возможности машинного перевода продемонстрировал Джорджтаунский эксперимент, в ходе которого с помощью компьютера быстро перевели с русского на английский язык более 60 предложений. Вот несколько примеров из того эксперимента:

Русский

Мы передаем мысли посредством речи

Величина угла определяется отношением длины дуги к радиусу

Международное понимание является важным фактором в решении политических вопросов

English translation

We transmit thoughts by means of speech.

Magnitude of angle is determined by the relation of length of arc to radius.

International understanding constitutes an important factor in decision of political questions.

Удачным этот опыт можно считать лишь с некоторыми оговорками. Система была построена на простом наборе правил, могла переводить только очень небольшой набор фраз и работала очень долго. Однако Джорджтаунский эксперимент привлек внимание к вопросу машинного перевода. Многие поверили, что еще пара лет — и наступит эра искусственного интеллекта. Правительство, военные и частные корпорации начали щедро вливать деньги в разработки.


Фрагмент газетной статьи 1954 года о Джорджтаунском эксперименте. Заголовок: новейший электронный мозг переводит с русского.

В течение последующих тридцати лет исследователи развивали машинный перевод на основе правил: предъявленный текст на исходном языке компьютер переводил с помощью правил и предварительно загруженных словарей. Системы дословного перевода, трансферные системы и системы перевода на примерах считаются разновидностями этого подхода.

Отдельного упоминания заслуживают интерлингвистические системы, идея которых заключалась в преобразовании исходного текста в совокупность концептов, общих для всех языков, с последующей конвертацией их в текст на языке перевода. Этот подход к машинному переводу выделялся среди существовавших на тот момент, но развития так и не получил в силу своей сложности.

Системы НМП обучаются на крупных корпусах текстов, что придает им сходство с СМП, однако подход к обработке текста у них совершенно иной. В 2013 году Н. Калкбреннер и Ф. Блансом разработали модель, способную с применением сверточной нейросети-кодера преобразовать исходный текст в непрерывный вектор, а затем с помощью рекуррентной нейросети-декодера перевести этот вектор в текст на языке перевода. Год спустя К. Чо с коллегами предложили в качестве кодера использовать рекуррентные нейросети — по их мнению, РНС лучше подходят для обработки текста. Давайте посмотрим, как это работает.

Только после этого система создает текст на целевом языке. Простейший декодер работает следующим образом:

До тех пор, пока на выходе не получится ‘My flight was delayed’. Следующим наиболее правдоподобным этапом декодер сочтет завершение перевода.

На каждом этапе перевода нейросеть обращается к результатам предыдущего и частично опирается на них, используя релевантные и отбрасывая нерелевантные.

Чтобы сравнить СМП и НМП, в 2016 году провели эксперимент на параллельном корпусе ООН — это 15 языковых пар и 30 направлений перевода. Результаты оценивали с помощью шкалы BLEU (оценивает близость машинного перевода к эталонному человеческому, выполненному профессиональным переводчиком), и по качеству перевода нейросеть не уступала или превосходила СМП во всех 30 направлениях. Исследователи пришли к выводу, что нейросеть делает меньше морфологических и синтаксических ошибок.

Несмотря на все преимущества НМП, ошибки все еще неизбежны, да и процесс обучения нейросетей занимает много времени. К тому же у статистических моделей тоже есть свои сильные стороны. Поэтому в последнее время исследователи комбинируют различные подходы к автоматизации перевода: в попытке добиться более естественного текста рождаются гибридные системы машинного перевода. За примером такой машины далеко ходить не нужно: это всем знакомый Яндекс.Переводчик.

В Яндекс.Переводчике свои варианты перевода генерируют обе модели, а потом специальный алгоритм оценивает/отбирает/комбинирует их и выдает результат. Эксперименты показывают, что переключение модели часто зависит от длины текста и того, есть ли в нем полные предложения — на совсем коротких примерах нейросети иногда еще проигрывают классической статистике. Легкий способ переключиться с обычной статистической модели на нейросеть — добавить точку:

Текст с точкой Яндекс.Переводчик считается достаточно длинным для применения нейросети. А у нейросети с английской грамматикой получается лучше, чем у статистической модели.


В данной статье рассмотрены основные виды систем машинного перевода. Рассмотрены основные системы машинного перевода, произведено их сравнение и анализ. Сделаны предположения о возможных путях развития подобных систем.

Ключевые слова: машинный перевод, обработка естественного языка, компьютерная лингвистика.

Машинный перевод представляет собой процесс связанного перевода текстов компьютерной программой с одного естественного языка на другой. [1]

Различают следующие основные цели использования машинного перевода [2, 3]:

- Быстрое ознакомление с интересующей информацией — машинный перевод позволяет получить в общих чертах информацию о содержании статьи, книги, научной работы и т. д.;

- Возможность коммуникаций — машинный перевод дает возможность написать любому человеку из любой точки Земли;

- Автоматическая локализация — позволяет быстрорастущим компаниям увеличивать рынок сбыта;

- Упрощение работы переводчика — используя машинный перевод, переводчик может значительно ускорить перевод текста;

В данной статье будут рассмотрены виды машинного перевода, самые популярные системы, работающие с русским языком, разобран принцип их работы, описаны основные достоинства и недостатки. Так же будут сделаны предположения о путях развития машинного перевода.

Виды машинного перевода

В настоящее время различают три вида систем машинного перевода [4, 5, 6]:

- Системы на основе грамматических правил (Rule-Based Machine Translation, RBMT);

- Статистические системы (Statistical Machine Translation, SMT);

Системы на основе грамматических правил производят анализ текста, который используется в процессе перевода. Перевод производится на основе встроенных словарей для данной языковой пары, а так же грамматик, охватывающих семантические, морфологические, синтаксические закономерности обоих языков. На основе всех этих данных исходный текст последовательно, предложение за предложением, преобразуется в текст на требуемом языке. Основной принцип работы таких систем — связь структур исходного и конечного текстов.

Системы на основе грамматических правил часто разделяют еще на три подгруппы — системы пословного перевода, трансфертные системы и интерлингвистические системы.

Преимуществами систем на основе грамматических правил являются грамматическая и синтаксическая точность, стабильность результата, возможность настройки на специфическую предметную область. К недостаткам систем на основе грамматических правил относят необходимость создания, поддержки и обновления лингвистических баз данных, трудоемкость создания такой системы, а так же ее высокая стоимость.

Статистические системы отличаются быстротой настройки и легкостью добавления новых направлений перевода. Среди недостатков наиболее значительными являются наличие многочисленных грамматических ошибок и нестабильность перевода.

Гибридные системы сочетают в себе подходы, описанные ранее. Ожидается, что гибридные системы машинного перевода позволят объединить все преимущества, которыми обладают статистические системы и системы, основанные на правилах.

Крупнейшие системы машинного перевода, работающие с русским языком

В этой части будут рассмотрены три крупнейшие системы машинного перевода, работающие с русским языком — Abbyy Compreno [7], Google Translate [8] и Яндекс.Перевод [9, 10, 11]. Каждая из этих систем продолжает активно развиваться, совершенствуясь и увеличивая качество перевода.

AbbyyCompreno

Для перевода система строит полное синтаксическое дерево исходного текста. Для его построения она использует отдельно заданные правила для каждого языка. Причем Compreno способна правильно обрабатывать анафоры, эллипсис и другие трудно поддающиеся обработке языковые конструкции. При переводе учитываются связи между словами в этом дереве, возможное положение этих слов в USH (Universal Sematic Hierarchy — иерархии универсальных семантических значений и отношений между ними) а также статистика взаимоотношений между словами.

Основным недостатком данной системы является её закрытость, отсутствие данных о полномасштабных тестированиях данной системы, что делает невозможным оценку качества производимого ей машинного перевода.

Google Translate

Google Translate — система, в настоящий момент разрабатываемая компанией Google. Первоначально разрабатывалась Franz Josef Och. Построена на статистическом методе перевода. Для обучения системы первоначально использовались параллельные корпуса текстов ООН, представленные на шести официальных языках ООН.

Данная система не осуществляет прямой перевод для языковых пар, в которые не входит английский язык. То есть, при переводе, например, с русского языка на французский, сначала будет осуществлен перевод с русского на английский язык, а после этого — с английского на французский.

Более того, для некоторых языков таких шагов больше. Например, тексты на белорусском языке вначале переводятся на русский, после этого на английский и только потом превращаются в текст на конечном языке. Это значительно снижает точность перевода и делает систему абсолютно непригодной для перевода ряда текстов.

Яндекс.Перевод

Яндекс.Перевод представляет собой сервис автоматического перевода слов, фраз, целых текстов, а так же веб-страниц. Как и Google Translate, Яндекс.Перевод использует статистический перевод. Яндекс.Перевод состоит из двух частей — модели перевода и модели языка. Модель перевода занимается построением графа, содержащего все возможные варианты перевода предложения. Модель языка выбирает лучший вариант перевода с точки зрения оптимальной сочетаемости слов в естественном языке. []

Хотя список доступных для перевода языков у Яндекс.Перевода значительно меньше, чем у Google Translate, перевод осуществляется напрямую, без использования промежуточных звеньев.

В настоящий момент, наиболее распространены системы машинного перевода, основанные на статистическом анализе. Эти системы проще создать и поддерживать. Кроме того, для обучения этих систем доступно огромное количество данных: в их распоряжении параллельные корпуса текстов, книги, переведенные на разные языки, веб-сайты, имеющие возможность выбора языка и многие другие источники данных.

В противоположность им, системы, основанные на правилах трудоемки в разработке и поддержке. Например, у компании Abbyy на создание своей Abby Compreno ушло около 15 лет! [7]

Однако, системы, основанные на правилах, уже сейчас имеют куда более высокое качество перевода, чем системы, основанные на статистике. Кроме, того, они куда более перспективны. Следует понимать, что с увеличением числа данных для статистики, качество перевода систем, основанных на статистике, увеличивается нелинейно, и в определенный момент настанет ситуация, после которой увеличение числа данных уже не будет давать хоть сколько-нибудь заметного улучшения качества перевода. Именно поэтому, разработки систем на основе правил будут представлять больший интерес.

Но построение систем на основе правил — задача хоть и необходимая и перспективная, но невероятно трудоемкая. Над созданием правил трудятся десятки лингвистов в течение многих лет. Поэтому прекрасным вариантом будет построение гибридной системы машинного перевода, которая будет обладать следующими качествами:

- Открытость — благодаря ей становится возможно пополнение базы правил не только ограниченной группой лиц, но силами всего сообщества

- Гибридный принцип построения — сочетание статистических и естественно-языковых технологий позволит при меньшей базе правил добиться существенного повышения качества перевода

Возможность работы над системами, используя силы русского NLP-сообщества (научное сообщество, занимающееся проблемами компьютерной обработки естественного языка), успешно доказана проектами OpenCorpora [12] и NLPub [13].

В статье рассмотрены виды систем машинного перевода, приведены примеры таких систем, произведено их сравнение и анализ. Наибольший интерес представляют системы, основанные на правилах и гибридные системы.

Будущим исследователям и разработчикам систем машинного перевода следует обратить внимание на создание открытых гибридных систем машинного перевода, которые бы развивались и дополнялись силами научного сообщества.

Основные термины (генерируются автоматически): машинный перевод, система, естественный язык, перевод, правило, русский язык, английский язык, исходный текст, научное сообщество, статистический анализ.

Читайте также: