2.1 Понятие компьютерного анализа текста. История развития

Создание ЭВМ в середине 20-го века и быстрое развитие кибернетических идей стимулировали появление новых наук, которые ранее просто невозможно было представить. Как правило, они возникали на стыке наук, часто не связанных друг с другом. Так, на стыке биологии и инженерных наук возникла бионика, на стыке психологии и лингвистики - психолингвистика, а на стыке вычислительной техники и лингвистики родилась наука, о которой и пойдет речь дальше.

Новая наука несколько раз меняла название: сначала она называлась математической лингвистикой, потом структурной лингвистикой и вычислительной лингвистикой. Наконец за ней прочно укрепилось ее современное название - компьютерная лингвистика.

Две причины обусловили появление новой науки. Во-первых, исследователи-лингвисты надеялись, что современные точные науки (и, прежде всего, математика) помогут лингвистике обрести недостающую ей точность. Появление ЭВМ укрепило эти надежды, так как многим языковедам с самого начала было ясно, что компьютеры - это не только "быстро работающие арифмометры", но и мощное средство для автоматизации работы с текстами. Появилась возможность автоматизировать многие трудоемкие процессы, например, статистическую обработку текстов, ведение разнообразных словарных и лексических картотек.

Во-вторых, с появлением компьютеров почти сразу же возникла проблема общения с ними неподготовленных пользователей. Бесспорно, наилучшей формой для таких пользователей мог быть привычный естественный язык.

К началу 70-х гг. компьютерная лингвистика получила "права гражданства": стали выходить специальные сборники и журналы по компьютерной лингвистике, создавались соответствующие лекции на лингвистических конференциях и конференциях по искусственному интеллекту и, наконец, стали созываться всемирные форумы, посвященные исключительно проблемам этой науки. В большинстве развитых стран начался процесс подготовки специалистов в области компьютерной лингвистики.

В настоящее время в компьютерной лингвистике выделяются несколько основных направлений. Например, анализ текстов на естественном языке.

Лингвисты давно изучают, как устроен текст, и, прежде всего предложение, играющее роль кирпичика, из совокупности которых складывается текст. Но лишь с появлением компьютеров эти исследования приобрели новое направление. Группа американских лингвистов выдвинула дерзкую идею, получившую название Джорджтаунский проект, - автоматизировать процесс перевода текстов с одного языка на другой, используя для этого ЭВМ. Идея заинтересовала лингвистов многих стран и активизировала работы в области анализа текстов. В ходе этих работ надо было ответить на вопрос: "Существуют ли строгие формальные правила, по которым строится структура предложения и структура текста?". Если о структуре предложения лингвисты накопили много материала, то структура текста ими не изучалась.

В результате проведенных исследований стало ясно, что за каждым текстом (в том числе и за отдельным предложением, являющимся своего рода мини-текстом) скрывается не одна, а несколько формальных структур, которые можно разделить на три уровня.

Первый уровень - это поверхностная синтаксическая структура. В этой структуре каждое предложение текста рассматривается изолированно от других и для каждого проводится что-то вроде разбора предложения по его членам, как все мы делали в школе. Но этой структуры для анализа оказывается мало.

Следующий шаг - построение глубинной синтаксической структуры (второй уровень). Идея существования глубинной синтаксической структуры связана с пониманием того, что различные естественные языки, отличаясь друг от друга многими внешними синтаксическими особенностями, передают весь спектр взаимосвязей между объектами, явлениями, их свойствами и протекающими с их участием процессами, характерными для окружающего мира. Рассмотрим как пример две фразы: "Мальчик сорвал цветок" и "Цветок, сорванный мальчиком". Остановимся на уровне синтаксиса. В первом предложении субъект действия "сорвал" - это "мальчик". И это слово играет здесь роль подлежащего, о чем свидетельствует именительный падеж. Во втором же предложении роль подлежащего играет слово "цветок", а слово "мальчик" стоит в творительном падеже. Но субъектом действия "сорвал" и здесь остается все тот же "мальчик". А цветок в любом из двух приведенных предложений играет роль объекта действия. Понимание ситуации, описываемой любым из этих предложений, заключается, в частности, в том, что мы выделяем в тексте некоторое действие, а также его субъект и объект.

Синтаксическая структура, построенная на основе глубинных падежей, позволяет перейти от синтаксического уровня предложения к его семантическому уровню. На этом уровне для анализа привлекаются дополнительные данные, связанные с наличием у лексических единиц языка определенных значений. В семантических структурах (третий уровень формальных структур) также можно выделить поверхностный и глубинный уровни, в чем-то похожие на соответствующие уровни в синтаксических структурах. Например, анализируя фразу: "Женщина пришла домой из магазина очень расстроенная", на поверхностном семантическом уровне мы фиксируем лишь сам факт состояния женщины. На глубинном же семантическом уровне мы сможем высказать предположение о причинах ее состояния - пустые полки магазинов, очереди, отнимающие массу времени и сил. Структуры наиболее "глубокого" уровня, возникающие при анализе предложений, могут быть названы прагматическими. Из них следует понимание того, к чему обязывает или призывает данное предложение. Прагматические структуры устанавливают связь между предложениями в текстах, связывают текст в единое целое, а также побуждают нас делать те или иные действия в реальном мире (как, например, надпись: "Стой! Проход запрещен!"). Чтобы выделить необходимые структуры при автоматическом анализе, надо пройти несколько последовательных этапов:

1) Исходный текст

2) Преданализ

3) морфологический анализ

4) поверхностный синтаксический анализ

5) глубинный синтаксический анализ

6) поверхностный семантический анализ

7) глубинный семантический анализ

8) прагматический анализ

9) выявление текстовых структур.

Указанные этапы охватывают всю задачу анализа текстов на естественном языке. Необходимость в исполнении тех или иных этапов при анализе конкретного текста зависит от тех целей, для которых тот анализ осуществляется.

В компьютерной лингвистике проблемы синтеза текстов сейчас находятся в центре внимания исследователей, и нет сомнений, что в ближайшее время будут найдены эффективные средства для создания текстов на заданную тему.

Это одно из самых молодых направлений в компьютерной лингвистике - это оживление текста. Своим появлением оно обязано персональным компьютерам, которые впервые дали возможность организовать общение с пользователем не только путем обмена текстами, но и посредством зрительных образов на экране дисплея. Одной из особенностей мышления человека (едва ли не основной для возможности самого мышления) является его разномодальность. Психологи пользуются этим термином, чтобы подчеркнуть, что наши представления об окружающем мире и о нас самих могут иметь различную природу (различную модальность). Можно "мыслить словами", но можно представлять себе какие-то зрительные картинки, как часто бывает во снах. Есть люди, для которых многие воспоминания состоят из запахов или вкусовых впечатлений. Словом, все наши органы чувств дают свою модальность в мышлении. Но две модальности: символьная (текстовая) и зрительная - являются для человека основными. Легко проверить, что между этими модальностями имеется весьма тесная связь. Обычно называние чего-то или текстовое описание некоторой ситуации тут же вызывает зрительные представления об этих объектах и ситуациях. И наоборот, стоит нам увидеть нечто, как мы тут же готовы описать увиденное с помощью нашего родного языка. Так текст и сопутствующая ему зрительная картина оказываются объединенными в нашем сознании и интегрированными в некоторое единство. Текст как бы "живет" в виде некоторого образного представления. И изучение того, как происходит эта интеграция и как по одной составляющей представления появляется вторая, - одна из увлекательных задач, стоящих перед специалистами в области компьютерной лингвистики и их коллегами - создателями интеллектуальных систем. Уже найдены некоторые важные законы интеграции текстов и зрительных образов. Созданы первые экспериментальные модели этого процесса и первые интеллектуальные системы, способные описывать в виде текста предъявляемую им картинку (например, пейзаж), а также воссоздавать одну из возможных картин, соответствующих введенному в систему тексту.


Информация о работе «Компьютерный анализ текста»
Раздел: Информатика, программирование
Количество знаков с пробелами: 46708
Количество таблиц: 0
Количество изображений: 1

Похожие работы

Скачать
112801
6
1

... помощи или способом манипулирования “значимыми другими”. 3. Исследовательская деятельность проводилась с целью выявления индивидуально-психологических особенностей личности суицидентов, а так же особенности ситуаций, которые могли оказать влияние на состояние индивидов в предсуицидный период. В ходе анализа были выявлены следующие особенности личности суицидента: Сужение когнитивной сферы. - ...

Скачать
139168
3
0

... . Таким образом предлагается рассматривать компьютерную технологию обучения как основную составляющую информационной технологий обучения. 1.2 Дидактические принципы, свойства и особенности использования компьютерных технологий в педагогическом процессе Применение средств КТ в современном образовании основано на дидактических принципах, свойствах и особенностях их использования. Под ...

Скачать
133886
5
11

... распространением на территории России глобальной сети Интернет. Так же необходимо осуществить следующие организационные и правовые меры: - по подбору в подразделения, занимающиеся расследованием преступлений в сфере компьютерной информации только специалистов имеющих исчерпывающие знания в данной области и дальнейшее постоянное и динамичное повышение их квалификации; - закрепить, в рамках ...

Скачать
43415
0
0

... знаний и Интернет-технологии. Каждая из этих технологий лежит в основе конкретных психодиагностических задач, которые и определяют ключевые направления работ в области компьютерной психодиагностики [15]: 1.  Конструирование психодиагностических методик в рамках традиционной психометрической парадигмы на основе технологии анализа данных, в рамках психосемантического подхода на основе субъектной ...

0 комментариев


Наверх