Машинный перевод
Впервые мысль использовать электронно-вычислительные машины для перевода текстов была высказана в 1947 году в США, после появления первых ЭВМ.
Первая публичная демонстрация машинного перевода состоялась в 1954 году. Та система была очень примитивной. Она имела словарь всего из 250 слов, 6 грамматических правил и могла перевести лишь несколько фраз, но эксперимент получил широкий резонанс. Начались исследования в странах по всему миру и, в том числе, в СССР.
В основе современных систем лежит алгоритм перевода, использующий формальную грамматику языков и статистические данные. Чтобы выучить язык, система сравнивает тысячи параллельных текстов, содержащую одну и ту же информацию, но на разных языках. Для каждого изученного текста система строит список уникальных признаков. Например, редко используемые слова и специальные символы, которые встречаются в текcтах с определённой частотой.
В системе машинного перевода, как правило, три основные части:
- модель языка;
- модель перевода;
- декодер.
Модель перевода — это таблица, в которой для всех слов и фраз на одном языке перечислены переводы на другой язык, сказанием вероятности этих переводов.
Система сравнивает не только отдельные слова, но и словосочетания из нескольких слов, идущих подряд. Модели перевода для каждой пары языков содержат миллионы пар слов и словосочетаний.
Что касается модели языка, она создаётся системой на этапе изучения текстов. Переводом занимается декодер. Он проводит морфологический и синтаксический анализ текста и для каждого предложения подбирает все варианты перевода. Затем все полученные варианты декодер отсеивает с помощью модели языка на частоту употребления и выбирает предложение с наилучшим сочетанием вероятностей и частоты.
Машинный перевод можно использовать не только для работы с текстами, но и для перевода отдельных слов. Они содержат полноценные словари с подробными карточками слов и устойчивых выражений. Эти карточки система составляет на основе статистических данных, опираясь на правила языка.
Близкие по значению переводы группируются системой с помощью словарей и синонимов. В них попадают слова, которые переводятся на другой язык одинаково или образуют словосочетания с одинаковыми словами. В результате машинный словарь получает всё, что ему необходимо знать о каждом слове или выражении.
Чтобы улучшать качество перевода, системы регулярно обновляют и проводят проверки. Высококачественный машинный перевод текстов по-прежнему недостижим, однако он значительно облегчает и ускоряет работу переводчикам.