Машинный перевод

Понятие компьютерного анализа текста. История развития Проблемы компьютерного анализа текста Извлечение информации Машинный перевод

46708

знаков

таблиц

изображение

Извлечение информации

3.1 Машинный перевод

Машинный перевод - процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы.

Хотелось бы отметить, что вместо "машинного перевода" иногда употребляется слово автоматический, что не влияет на смысл. Однако термин автоматизированный перевод имеет совсем другое значение - при нём программа просто помогает человеку переводить тексты. Автоматизированный перевод предполагает такие формы взаимодействия как:

1) Частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных словарей.

2) Системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё, не уложившееся в схему, отдаёт человеку.

В англоязычной терминологии также различаются термины англ. machine translation, MT (полностью автоматический перевод) и англ. machine-aided или англ. machine-assisted translation (MAT) (автоматизированный); если же надо обозначить и то, и другое, пишут M(A)T.

Если же говорить о качестве перевода, то оно зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее, для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бродящих по Интернету шуток. Из пространных примеров наиболее известен текст "Гуртовщики Мыши" (перевод компьютерной документации программой Poliglossum на основе медицинского, коммерческого и юридического словарей); из кратких - фраза "My cat has given birth to four kittens, two yellow, one white and one black", которую переводчик компании ПРОМТ превращает в "Моя кошка родила четырёх котят, два желтых цвета, одного белого и одного афроамериканца". Главной причиной того, почему программа перевела именно так, было то, что после слова black нужно было добавить kitten, тогда программа переведёт правильно: "Моя кошка родила четырёх котят: двух жёлтых, одного белого и одного чёрного котёнка".

Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращает "bra-ket notation" в "примечание Кети лифчика", "Lie algebra" - в "алгебру Лжи", "eccentricity vector" - в "вектор оригинальности", "Shawnee Smith" в "индеец племени шони Смит".

Рассказав о качестве перевода, необходимо затронуть и статистический перевод.

Статистический машинный перевод - это разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар. Языковые пары - тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком - носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом, статистический машинный перевод обладает свойством "самообучения". Чем больше в распоряжении имеется языковых пар, и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием "статистического машинного перевода" подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединенных наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

3.2 Лингвистическое программное обеспечение

Лингвистическое программное обеспечение (англ. lingware = linguistic + software) - компьютерные программы и данные, обеспечивающие анализ, обработку, хранение и поиск аудиоданных, рисунков (OCR) и текстов на естественном языке.

Можно выделить следующие виды лингвистического программного обеспечения:

1) Обработка текста на естественном языке:

- Электронные словари: Викисловарь, Multitrans, GoldenDict, Stardict, dict, ForceMem, ABBYY Lingvo.

- Орфокорректоры (или спеллчекеры): MS Word, ispell, aspell, myspell.

- Поисковые системы

- Системы машинного перевода: PROMT, Socrat.

- Системы автоматизированного перевода, в т.ч. программы управления памятью переводов - OmegaT, Trados.

2) Системы распознавания символов OCR: Finereader, CuneiForm, Tesseract, OCRopus.

3) Речевые системы:

- Системы анализа речи: Dragon, IBM via voice.

- Системы синтеза речи: Агафон.

- Системы голосового перевода (распознавание и синтез): Speereo.

3.3 Программы для компьютерного анализа текста

1) Обработка текста на естественном языке:

1. 1. Электронные словари:

А) Викисловарь – свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке.

В словаре содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь - попытка объединить в одном продукте грамматический, толковый, этимологический и многоязычный словари, а также тезаурус.

Б) GoldenDict - свободная оболочка для электронных словарей с открытым исходным кодом, поддерживающая многие форматы словарей ABBYY Lingvo, StarDict, Babylon, Dictd, а также произвольных словарных веб-сайтов (Википедия, Викисловарь).

Особенности:

1. Вывод отформатированных статей с ссылками и картинками с помощью движка WebKit.

2. При поиске слов с ошибками используется система морфологии на основе свободной программы для проверки орфографии Hunspell.

3. Индексирование директорий со звуковыми файлами для формирования словарей с произношением слов.

4. При поиске перевода пробелы, знаки пунктуации, диакритические знаки и регистр символов в поисковой фразе не играют роли.

5. При выделении текста появляется всплывающее окно перевода.

На сайте программы можно сразу же получить удобный русско-английский и англо-русский словарь, а также словарь произношений английских слов.

Аналоги: Мультитран, ПРОМТ, ABBYY Lingvo, Atlantida, Apertium, Babylon, Context, Dicto, Google Translate, Lingoes, LiteDict, MultiLex, Pragma, ProLing Office, StarDict, SYSTRAN, TransLite, WiseDict.

В) Stardict - свободная оболочка для электронных словарей с открытым исходным кодом, способная, кроме собственно вывода статей, осуществлять перевод, озвучивать слова, использовать нечёткие запросы и шаблоны, поиск в онлайновых словарях. Разрабатывается на языке C++, с использованием графической библиотеки GTK 2 и кодировки UTF-8.

Возможности. Функция программы сканирование выделенного и отображение результата в всплывающих окнах:

1. Поиск по шаблону. Можно вводить слова, содержащие "*" и "?" как шаблоны.

2. Нечеткий запрос. Можно воспользоваться "нечётким запросом". Он использует алгоритм Левенштейна для подсчёта похожести двух слов, и выдаёт слова, которые наиболее подходят введённому запросу. Для использования этой возможности запрос должен начинаться с "/".

3. Полнотекстовой поиск предназначен для поиска слова в словаре без помощи индекса. Более медленный поиск, но позволяет искать совпадения в текстах статей.

4. Cканирование выделенного. При выделении слова и, в зависимости от настроек, при нажатии клавиш его перевод отображается в всплывающем окне.

5. Управление словарями. Выключение ненужных словарей, а также установка порядок их использования при запросе.

6. Поиск в интернете для различных он-лайн словарей.

7. Произношение слов. При наличии звуковых записей словарь может выполнять произношение слов.

8. Перевод полных текстов, используя интернет-сервисы.

1. 2. Орфокорректоры (или спеллчекеры):

А) MS Word - Microsoft Word (часто - MS Word, WinWord или просто Word) - это текстовый процессор, предназначенный для создания, просмотра и редактирования текстовых документов, с локальным применением простейших форм таблично-матричных алгоритмов. Текстовый процессор, выпускается корпорацией Microsoft в составе пакета Microsoft Office. Первая версия была написана Ричардом Броди (Richard Brodie) для IBM PC, использующих DOS, в 1983 году. Позднее выпускались версии для Apple Macintosh (1984), SCO UNIX и Microsoft Windows (1989).

Б) aspell - GNU Aspell (или просто Aspell) - свободная программа для проверки орфографии, разработанная для замены Ispell. Это стандартная программа проверки орфографии для системы GNU. Она также компилируется под другие Unix-подобные операционные системы и Microsoft Windows. Основная программа лицензируется на условиях GNU LGPL, а документация - на условиях GNU FDL. Словари для неё доступны примерно на 70 языках. Основной разработчик - Кевин Аткинсон (Kevin Atkinson).

1. 3. Системы автоматизированного перевода, в т.ч. программы управления памятью переводов:

А) OmegaT - система автоматизированного перевода, поддерживающая память переводов, написана на языке Java. Возможности продукта включают сегментацию исходного текста на основе регулярных выражений, использование точных (англ. exact) и неточных (англ. fuzzy) соответствий с уже переведенными фрагментами, использование словарей, поиск контекстов в базах данных переводов и работу с ключевыми словами.

Начиная с версии 2.04 OmegaT также может переводить текущий абзац текста через Google Translate.

Для работы OmegaT требуется версия Java 1.4, которая доступна для ОС GNU/Linux, Mac OS X и Microsoft Windows, Windows NT. Может работать с OpenJDK.

OmegaT поддерживает разнообразные форматы исходных документов: текстовые файлы (включая Unicode), файлы HTML/XHTML, StarOffice, OpenOffice.org и OpenDocument (ODF), а также файлы DocBook, MediaWiki, Microsoft OOXML, файлы .po (portable object) для библиотеки интернационализации gettext, XLIFF и текстовые файлы со структурой "Ключ=Значение". С файлами старых проприетарных форматов Microsoft Office (Word, Excel и PowerPoint) OmegaT не может работать непосредственно, их необходимо перевести в формат OpenDocument (например, с помощью OpenOffice.org) или OOXML с помощью Microsoft Office 2007.

Б) Trados - система автоматизированного перевода, первоначально (с 1992 года) разработанная немецкой компанией Trados GmbH. Является одним из мировых лидеров в классе систем Translation Memory (TM, Память переводов).

Система Trados состоит из модулей, предназначенных для перевода текстов различного формата: документов Microsoft Word, презентаций PowerPoint, текстов в формате HTML и других метаданных, документов FrameMaker, InterLeaf и др., а также для ведения терминологических баз данных (модуль MultiTerm). Последняя версия системы, выпущенная независимой компанией Trados - 7.0. Последняя версия Trados на сегодняшний день - SDL Trados Studio 2009.

Принцип работы. Концепция Translation Memory предполагает выявление в переводимом тексте фрагментов, переводы которых уже имеются в базе данных переводов, и за счет этого сокращение объема работы переводчика. Фрагменты, оставшиеся непереведёнными, передаются дальше для ручной обработки переводчику или системе машинного перевода (Machine Translation, MT). Переводчик на этом этапе может выделить вновь переведённые фрагменты и занести новые пары параллельных текстов на двух языках в базу данных. Такая схема наилучшим образом работает в случае однотипных текстов, где повторяемость словосочетаний достаточно высока, т. е. в случае разного рода инструкций для пользователей, технических описаний.

2) Системы распознавания символов OCR:

А) Finereader - система оптического распознавания символов разработанная российской компанией ABBYY.

Возможности. Поддерживает распознавание текста на 186 языках и имеет встроенную проверку орфографии для 38 из них. По некоторым данным, после некоторого обучения системы она может начать распознавать рукописный текст, но его нужно будет учить под почерк пользователя.

Б) CuneiForm - свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

Первоначально система CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт. CuneiForm поставлялся с некоторыми моделями сканеров. Однако после нескольких лет перерыва разработки, 12 декабря 2007 года анонсировано открытие исходных текстов программы, которое состоялось 2 апреля 2008 года.

Особенности. CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов. CuneiForm - Шрифтонезависимая система.

В) Tesseract - свободная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет "пролежавшая на полке". Не так давно (в августе 2006 г) Google купил её и открыл исходные тексты под лицензией Apache 2.0 для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая, русский с версии 3.0) осуществляется с помощью дополнительных модулей.

Г) OCRopus - OCR-система на базе не так давно открытого распознающего ядра — tesseract Программный пакет для распознавания текста, развивающийся по принципам Open Source и распространяющееся под Apache License 2.0. По задумке разработчиков, с помощью OCRopus станет возможным определять текстовое содержимое на цифровых изображениях и переводить его в обычный текстовый формат для дальнейшего редактирования. Помимо печатного текста, программа сможет распознавать и рукописные материалы. По состоянию на альфа-релиз, OCRopus использует язык моделирования код из другого проекта поддерживаемого Google OpenFST. OCRopus в настоящее время доступна только для GNU/Linux, но существуют сборки и для Debian GNU/Hurd и Debian GNU/kFreeBSD.

Использование. В настоящее время OCRopus использует только интерфейс командной строки, принимая указания на входные изображения с текстом, и выводя данные в формате hOCR (открытый формат на основе HTML). Если необходим более точный контроль, можно указать в командной строке команды для выполнения конкретных операций (например, распознание одной строки).

Заключение

Подводя итоги можно сказать, что компьютерный анализ текста является значимым приемом изучения специфики текстового воплощения концептуальной картины мира, позволяющим постичь особенности стиля.

В ходе работы были получены следующие результаты:

1. Выявлено, что тема компьютерного анализа текста не весьма изучена, так как нет конкретного определения.

2. Из главы 2, подглавы 2.2 "Проблемы компьютерного анализа текста" видно, что проблем в разработке компьютерного анализа весьма много. Они, конечно, решаются, но не все и в замедленном темпе.

3. Из главы 3 "Программы для компьютерного анализа текста" также видно, каково разнообразие компьютерных программ, которые считывают информацию и позволяют осуществить анализ текста на компьютере.

Полученные данные являются относительно новыми в сфере исследования анализа текстов на компьютерном языке, т.к. представляют собой попытку структурировать имеющиеся знания в данной сфере и синтезировать их с новыми. Преимущества компьютерного анализа перед аналогичным исследованием тестов в ручную, на мой взгляд, очевидны. Он позволяет сэкономить время на структурировании результатов, оформлении их в таблицах, графиках, определениях.

Таким образом, тема "Компьютерный анализ текста" весьма интересна при изучении, и не до конца рассмотрена авторами многих работ. Нет определенного понятия компьютерному анализу текста, нет единого документа, где был бы собран, структурирован материал по заданной теме. Трудности были в том, чтобы отобрать необходимые данные, выделить в них главные особенности, а также сделать отобранный материал доступным, понятным для пользователя.

компьютерный текст орфография перевод

Библиографический список и сайтография

1. Анализ документов [Электронный ресурс]. – Режим доступа: http://inforaz.narod.ru/analiz–2.html (дата обращения: 12.09.2010).

2. Анализ текста [Электронный ресурс]. – Режим доступа: http://ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 (дата обращения: 16.09.2010).

3. Анисимов Анатолий. Компьютерная лингвистика для всех: мифы. Алгоритмы. Язык [Электронный ресурс] / Анатолий Анисимов. – Режим доступа: http://lib.ru/CULTURE/ANISIMOW/lingw.txt (дата обращения: 20.09.2010).

4. Валгина, Н. С. Теория текста [Текст] : учеб. пособие / Н. С. Валгина. – М. : Логос, 2003. – 280 с.

5. Веб–аналитика [Электронный ресурс]. – Режим доступа: http://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%B1_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0 (дата обращения: 12.09.2010).

6. Воронько Владимир, Костинский Александр. Компьютерный анализ текстов [Электронный ресурс] / В. Воронько, А. Костинский. – Режим доступа: http://archive.svoboda.org/programs/sc/2001/sc.062601.asp (дата обращения: 19.09.2010).

7. Ермаков, А. Е. Компьютерная лингвистика и анализ текста [Текст] / А. Е. Ермаков // Мир ПК. – 2002. – N9. – С.86-88.

8. Ермаков, А. Е. Компьютерная лингвистика и анализ текста [Электронный ресурс] / А. Е. Ермаков. – Режим доступа: http://www.osp.ru/pcworld/2002/09/163968/ (дата обращения: 11.09.2010).

9. Ермаков, А. Е., Плешко, В. В. Компьютерный анализ текста при сборе информации к досье из открытых источников [Электронный ресурс] / А. Е. Ермаков, В. В. Плешко. – Режим доступа: http://www.rco.ru/article.asp?ob_no=1562 (дата обращения: 29.09.2010).

10. Каневский, Е. А., Саганенко, Г. И. Концептуальное обоснование компьютерного анализа массивов с текстами [Электронный ресурс] / Е. А. Каневский, Г. И. Саганенко. – Режим доступа: http://www.isras.ru/files/File/4M/9/Saganenko,%20Kanaevskij.pdf (дата обращения: 20.09.2010).

11. Компьютерная лингвистика [Электронный ресурс]. – Режим доступа: http://elanina.narod.ru/lanina/index.files/intell/lingvistik.htm (дата обращения: 16.09.2010).

12. Компьютерная лингвистика [Электронный ресурс]. – Режим доступа:http://www.krugosvet.ru/enc/gumanitarnye_nauki/lingvistika/KOMPYUTERNAYA_LINGVISTIKA.html (дата обращения: 06.10.2010).

13. Компьютерный анализ генетических текстов [Электронный ресурс]. – Режим доступа: http://gen–inj.narod.ru/44.htm (дата обращения: 14.09.2010).

14. Николина, Наталия Анатольевна. Филологический анализ текста [Текст] : учеб. пособие для студентов вузов, обучающихся по специальности "Рус. яз. и лит." / Н. А. Николина. – 2–е изд., испр. и доп. – Москва : Академия, 2007. – 272 с.

15. Орлова, О. В. Компьютерный анализ поэтического текста и моделирование ассоциативно–смыслового поля ключевого концепта творчества автора [Электронный ресурс] / О. В. Орлова. – Режим доступа: http://huminf.tsu.ru/e–jurnal/magazine/1/orlova.htm (дата обращения: 11.09.2010).

16. Петров, А. Н. Компьютерный анализ текста [Электронный ресурс] : историография метода / А. Н. Петров. – Режим доступа: http://kleio.asu.ru/aik/krug/3/20.shtml (дата обращения: 19.09.2010).

17. Пятницкая, Анастасия Сергеевна. Программа для поиска фактов в тексте RCO Fact Extractor 1.0 [Электронный ресурс] / А. С. Пятницкая. – Режим доступа: http://www.ko.ru/ru/samizdats/?id=4073 (дата обращения: 29.09.2010).

18. Романова, Т. В. О содержании понятия концептуальный анализ текста [Текст] / Т. В. Романова // Вестник Оренбургского государственного университета. – 2004. – N 1. – С. 20-24.

Извлечение информации

Раздел: Информатика, программирование
Количество знаков с пробелами: 46708
Количество таблиц: 0
Количество изображений: 1

Скачать

... помощи или способом манипулирования “значимыми другими”. 3. Исследовательская деятельность проводилась с целью выявления индивидуально-психологических особенностей личности суицидентов, а так же особенности ситуаций, которые могли оказать влияние на состояние индивидов в предсуицидный период. В ходе анализа были выявлены следующие особенности личности суицидента: Сужение когнитивной сферы. - ...

Скачать

... . Таким образом предлагается рассматривать компьютерную технологию обучения как основную составляющую информационной технологий обучения. 1.2 Дидактические принципы, свойства и особенности использования компьютерных технологий в педагогическом процессе Применение средств КТ в современном образовании основано на дидактических принципах, свойствах и особенностях их использования. Под ...

Скачать

... распространением на территории России глобальной сети Интернет. Так же необходимо осуществить следующие организационные и правовые меры: - по подбору в подразделения, занимающиеся расследованием преступлений в сфере компьютерной информации только специалистов имеющих исчерпывающие знания в данной области и дальнейшее постоянное и динамичное повышение их квалификации; - закрепить, в рамках ...

Скачать

... знаний и Интернет-технологии. Каждая из этих технологий лежит в основе конкретных психодиагностических задач, которые и определяют ключевые направления работ в области компьютерной психодиагностики [15]: 1. Конструирование психодиагностических методик в рамках традиционной психометрической парадигмы на основе технологии анализа данных, в рамках психосемантического подхода на основе субъектной ...

Главная Новости Рефераты Статьи Вузы

О проекте Соглашение

Наверх

Войти на сайт

Навигация

Похожие работы

0 комментариев

Разделы

Инфо

Следите за новостями