2.1 Машинный перевод
Идея перевода с одного языка на другой при помощи универсального механизма возникла несколькими веками раньше, чем начались первые разработки в этой области – ещё в 1649 году Рене Декарт предложил идею языка, в котором эквивалентные идеи разных языков выражались бы одним символом. Первые попытки осуществить эту идею в 1930-40е, начало теоретических разработок в середине века, усовершенствование систем перевода при помощи техники в 1970-80е, бурное развитие переводческой техники в последнее десятилетие – таковы этапы развития машинного перевода как отрасли. Именно из работ по машинному переводу выросла компьютерная лингвистика как наука.
С развитием вычислительной техники в конце 70х – начале 80х исследователи задались более реалистичными и экономически выгодными целями – машина становилась не конкурентом ( как предполагалось раньше), а помощником человека-переводчика. Машинный перевод перестаёт служить исключительно военным задачам (все советские и американские изобретения и исследования, ориентированные, в первую очередь, на русский и английский языки, в той или иной мере способствовали «холодной войне»). В 1978 году слова естественного языка были переданы в объединённой сети Arpa, шестью годами позже в США появились первые программы перевода для микрокомпьютеров.
В 70е Комиссия Европейских Общин покупает англо-французскую версию компьютерного переводчика Systran, заказывая также франко-аглийскую и итало-английскую версии, и систему перевода с русского на английский, использовавшуюся американскими Вооружёнными Силами. Так были заложены основы проекта EUROTRA.
О возрождении машинного перевода в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и НАСА); кроме того, CEC заказывает разработку франко-английской и итало-английской версий. Одновременно происходит быстрое расширение деятельности по созданию систем машинного перевода в Японии; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления (система SPANAM); ВВС США финансируют разработку системы машинного перевода в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг. впоследствии развились в полноценные коммерческие системы.
За период 1978-93 в США на исследования в области машинного перевода истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.
Одной из новых разработок стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой, поэтому не нужно дважды переводить одно и то же предложение. В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).
В настоящее несколько десятков компаний занимаются разработкой коммерческих систем машинного перевода, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Transparent Language, Cross Language, Trident Software, Atril, Trados, Caterpillar Co., LingoWare; Ata Software; Lingvistica b.v. и др. Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети: alphaWorks; PROMT's Online Translator; LogoMedia.net; AltaVista's Babel Fish Translation Service; InfiniT.com; Translating the Internet.
Коммерчески эффективные переводческие системы появились во второй половине 80х и в нашей стране. Расширилось само понятие машинного перевода (к нему стали относить «создание целого ряда автоматических и автоматизированных систем и устройств, выполняющих автоматически или полуавтоматически весь цикл перевода либо отдельные задачи в диалоге с человеком» [29, c.13]), увеличились государственные ассигнования на развитие этой отрасли.
Основными языками отечественных переводческих систем стали русский, английский, немецкий, французский и японский. Во Всесоюзном центре переводов (ВЦП) была разработана система перевода с английского и немецкого языков на русский на машине ЭВМ ЕС-1035 –АНРАП. Она состояла из трёх словарей – входных английского и немецкого и выходного русского – под единым программным обеспечением. Существовало несколько сменных специализированных словарей – по вычислительной технике, программированию, радиоэлектронике, машиностроению, сельскому хозяйству, металлургии. Система могла работать в двух режимах – автоматическом и интерактивном, когда на экране отображался пофразно исходный текст и перевод, который человек мог отредактировать. Скорость перевода текста на АНРАП (от начала набора до окончания печати) составляла примерно 100 страниц в час.
В 1989 году было создано семейство коммерческих переводчиков типа СПРИНТ, работавших с русским, английским, немецким и японским языками. Их главным преимуществом стала их совместимость с IBM PC – таким образом отечественные системы машинного перевода достигали международного уровня качества. В это же время разрабатывается система машинного перевода с французского языка на русский ФРАП, включающая в себя 4 этапа анализа текста: графематический, морфологический, синтаксический и семантический. В ЛГПИ им. Герцена шла работа над четырёхязычной (английский, французский. Испанский, русский) системой СИЛОД-МП (в промышленном режиме эксплуатировались англо-русский и франко-русский словари.
Для специализированного перевода текстов по электротехнике существовала система ЭТАП-2. Анализ входного текста в ней осуществлялся на двух уровнях – морфологическом и синтаксическом. Словарь ЭТАП-2 содержал около 4 тысяч статей; этап преобразования текста – около 1000 правил (96 общих, 342 частных, остальные – словарные). Всё это обеспечивало удовлетворительное качество перевода (скажем, заголовок патента «Optical phase grid arrangement and coupling device having such an arrangement» переводился как «Устройство оптической фазовой сетки и соединяющее устройство с таким устройством» [29, c.20] – несмотря на тавтологию, смысл сохранён).
В Минском педагогическом институте иностранных языков на базе англо-русского словаря словоформ и оборотов была изобретена система машинного перевода заголовков), в Институте востоковедения АН – система перевода с японского на русский. Созданная в Московском НИИ систем автоматизации первая автоматическая словарно-терминологическая служба (СЛОТЕРМ) по вычислительной технике и программированию содержала примерно 20000 терминов в толковом словаре и специальных словарях для лингвистических исследований.
Системы машинного перевода постепенно стали использоваться не только по прямому назначению, но и как важный компонент автоматических обучающих систем (для обучения переводу, контроля орфографических и грамматических знаний).
90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало востребованным дальнейшее развитие автоматизированных переводческих систем. С начала 1990-х гг. на рынок систем ПК выходят и отечественные разработчики.
В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer's Machine Translation). В 1991 г. было создано ЗАО "ПРОект МТ", и уже в 1992 г. компания "ПРОМТ" выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе). В 1992 г. "ПРОМТ" выпускает целое семейство систем под новым названием STYLUS для перевода с английского, немецкого, французского, итальянского и испанского языков на русский и с русского на английский, а в 1993 г. на базе STYLUS создается первая в мире система машинного перевода для Windows. В 1994 г. вышла версия STYLUS 2.0 для Windows 3.Х/95/NT, а в 1995-1996 гг. представлено третье поколение систем машинного перевода, полностью 32-разрядных STYLUS 3.0 для Windows 95/NT, одновременно с этим успешно завершена разработка совершенно новых, первых в мире русско-немецкой и русско-французской систем машинного перевода.
В 1997 г. подписано соглашение с французской фирмой Softissimo о создании систем перевода с французского языка на немецкий и английский и обратно, а в декабре этого года была выпущена первая в мире система немецко-французского перевода. В этом же году компания "ПРОМТ" компания выпустила систему, реализованную по технологии Гигант , поддерживающей несколько языковых направлений в одной оболочке, а также специальный переводчик для работы в Интернете WebTranSite.
В 1998 г. выпускается целое созвездие программ под новым названием PROMT 98. Через год компания ПРОМТ выпустила два новых продукта: уникальный пакет программ для работы в Интернете - PROMT Internet, и переводчик для корпоративных почтовых систем - PROMT Mail Translator. В ноябре 1999 года PROMT была признана лучшей системой машинного перевода среди тестируемых французским журналом PC Expert, обойдя конкурентов по сумме показателей на 30 процентов. Для корпоративных клиентов разработаны также специальные серверные решения - корпоративный сервер переводов PROMT Translation Server (PTS) и Интернет-решение PROMT Internet Translation Server (PITS). В 2000 г. "ПРОМТ" обновила всю линию своих программных продуктов, выпустив МП системы нового поколения: PROMT Translation Office 2000, PROMT Internet 2000 и Magic Gooddy 2000.
Перевод в режиме он-лайн при поддержке системы "ПРОМТ" используется на ряде отечественных и зарубежных сайтов: PROMT's Online Translator, InfiniT.com, Translate.Ru, Lycos и др., а также в учреждениях различного профиля для перевода деловой документации, статей и писем (существуют системы перевода, встраиваемые непосредственно в Outlook Express и другие почтовые клиенты).
В наше время появляются новые технологии машинного перевода, основанные на использовании систем искусственного интеллекта, статистических методах. О последних – в следующем разделе.
... . Криптоанализ – наука (и практика ее применения) о методах и способах вскрытия шифров. Криптография и криптоанализ составляют единую область знаний – криптологию, которая в настоящее время является областью современной математики, имеющий важные приложения в современных информационных технологиях. Термин «криптография» ввел Д.Валлис. Потребность шифровать сообщения возникла очень давно. В V – ...
... является ближайшее, а не дальнейшее значение слова. Таким образом, психологическое направление и особенно младо-грамматизм ответили на многие вопросы, стоявшие перед языкознанием в середине XIX в. Была уточнена методика сравнительно-исторического языкознания, поставлены основные проблемы семасиологии и функционально-семантической грамматики, проанализировано взаимоотношение языка и речи, ...
... контакты", "Многоязычие в социологическом аспекте". Их исследованием занимаются социолингвистика (социальная лингвистика), возникшая на стыке языкознания и социологии, а также этнолингвистика, этнография речи, стилистика, риторика, прагматика, теория языкового общения, теория массовой коммуникации и т.д. Язык выполняет в обществе следующие социальные функции: коммуникативная / иформативная ( ...
... на разделы и состав Языкознания. Эмпирически сложившиеся разделы Языкознания, частично пересекающиеся и уже потому не образующие логически единой системы, можно представить как соотносящиеся друг с другом по некоторым различным параметрам. Общее Языкознание и частичные науки о языке. Различаются наиболее общие и частные разделы Языкознания. Один из крупных разделов Языкознания – теория ...
0 комментариев