2. Разработано техническое задание на новую версию программы-нейроимитатора, реализующую предложенные технологии.
3. Усовершенствован метод семантического дифференциала Осгуда при помощи технологии разреживания обучаемых нейронных сетей. Проведена серия экспериментов, заключающихся в исследовании индивидуальных смысловых пространств, проинтерпретированы их результаты. Предложена гипотеза о структуре индивидуального пространства смыслов: оно состоит из многообразия малой размерности, задаваемого культурой («ман-многообразия» от немецкого безличного местоимения «man») и сравнительно небольшого множества индивидуальных отклонений, которые могут быть важны для диагностики. Каждая культура имеет небольшое количество специфических для нее ман -многообразий (субкультур).
Апробация работыОсновные положения работы докладывались на VI, VII Всероссийских семинарах "Нейроинформатика и ее приложения", (Красноярск, 1998, 2000 гг), I, Всероссийской научно-технической конференции "Нейроинформатика" (Москва, МИФИ, 1999 г.), VI Международной конференции "Математика. Компьютер. Образование" (1999г, Пущино), International Joint Conference on Neural Networks (1999г, Washington, DC, USA), XXXVII Международной научной студенческой конференции "Cтудент и научно-технический прогресс": Информационные технологии. Новосибирск, НГУ, 1999 (награждена Дипломом 3 степени).
ПубликацииПо теме диплома автором опубликована 1 статья в научном журнале и 4 тезиса докладов.
Введение
Первый параграф определяет понятия "знание" и "приобретение знания".
Второй параграф посвящен обзору существующих методов извлечения и приобретения знаний. Рассматриваются существующие в теории классических экспертных систем методы приобретения знаний, рассматриваются использующиеся для извлечения знаний из таблиц данных методы статистического анализа, математического моделирования и идентификации.
Третий параграф описывает набор требований к направленной на конечного пользователя технологии извлечения знаний.
1.1 Знание и приобретение знаний 1.1.1 "Знание"Под знанием понимается достаточно широкий спектр информации. В [1,с.430-432] представлена следующая классификация типов знаний:
1. Базовые элементы знания (информация о свойствах объектов реального мира). Связаны с непосредственным восприятием, не требуют обсуждения и используются в том виде, в котором получены.
2. Утверждения и определения. Основаны на базовых элементах и заранее рассматриваются как достоверные.
3. Концепции – перегруппировки или обобщения базовых элементов. Для построения каждой концепции используются свои приемы (примеры, контрпримеры, частные случаи, более общие случаи, аналогии).
4. Отношения. Выражают как элементарные свойства базовых элементов, так и отношения между концепциями. К свойствам отношений относят их большие или меньшие правдоподобие и связь с данной ситуацией.
5. Теоремы и правила перезаписи – частный случай продукционных правил (правил вида "если…, то…, иначе…") с вполне определенными свойствами. Теоремы не представляют пользы без экспертных правил их применения.
6. Алгоритмы решения. Необходимы для выполнения определенных задач. Во всех случаях они связаны со знанием особого типа, поскольку определяемая ими последовательность действий оказывается оформленной в строго определенном порядке, в отличие от других типов знаний, где элементы знания могут появляться и располагаться без связи друг с другом.
7. Стратегии и эвристика. Врожденные или приобретенные правила поведения, которые позволяют в конкретной ситуации принять решение о необходимых действиях. Человек постоянно пользуется этим типом знаний при формировании концепций, решении задач и формальных рассуждениях.
8. Метазнание. Присутствует на многих уровнях и представляет знание того, что известно, определяет значение коэффициента доверия к этому знанию, важность элементарной операции по отношению ко всему множеству знаний. Сюда же относятся вопросы организации разного типа знаний и указания, где, когда и как они могут быть использованы.
В настоящей работе первому типу знаний будет соответствовать информация об измеримых (или наблюдаемых) свойствах объектов реального мира. Именно эта информация сведена в таблицу данных типа "объект-признак". Остальным типам знаний соответствуют ограничения на диапазоны значений, которые могут принимать признаки объекта (второй тип), информация о взаимозависимости признаков и о возможности описания одних признаков через другие, информация о статистических свойствах значений признаков,… Фактически, нас интересует знание второго и последующих типов – знание, которое человек добывает в процессе анализа информации, рассуждений, обобщений, проведения аналогий.
Естественным является требование представления знаний в виде, допускающем "тиражирование" – возможность передачи знаний другим людям. Для первого типа знаний возможно получение как объективных (точно измеренных) значений свойств объектов реального мира, так и субъективных, персонализированных, чувственных оценок значений этих свойств. Для знаний последующих типов для возможности передачи вводятся требования объективизации, достоверности, непротиворечивости [1].
Информационные единицы (знания) обладают гибкой структурой [2]. Для них выполняется "принцип матрешки" – рекурсивная вложенность одних информационных единиц в другие (это наблюдается и на примере вышеприведенной классификации из [1]).
Каждая информационная единица может быть включена в состав любой другой, и из каждой информационной единицы можно выделить некоторые составляющие ее единицы. Т.е. между отдельными информационными единицами возможно установление отношений типа "часть – целое", "род – вид" или "элемент – класс".
Для информационных единиц одного уровня иерархии семантика отношений может носить декларативный или процедурный характер [2]: две или более информационных единицы могут быть связаны декларативными отношениями "одновременно", "причина – следствие" или "быть рядом", либо процедурными отношениями типа "аргумент – функция".
Можно различать отношения структуризации, процедурные отношения, каузальные отношения и семантические отношения. С помощью первых задаются иерархии информационных единиц, вторые несут процедурную информацию, позволяющую находить (вычислять) одни информационные единицы через другие, третьи задают причинно-следственные связи, четвертые соответствуют всем остальным отношениям [2].
1.1.2. Приобретение знанийПриобретением знаний называется выявление знаний из источников и преобразование их в нужную форму (например, перенос в базу знаний экспертной системы) [2]. Источниками знаний могут быть книги, архивные документы, содержимое других баз знаний и т.п., т.е. некоторые объективизированные знания, переведенные в форму, которая делает их доступными для потребителя. Другим типом знаний являются экспертные знания, которые имеются у специалистов, но не зафиксированы во внешних по отношению к ним хранилищах. Экспертные знания являются субъективными. Еще одним видом субъективных знаний являются эмпирические знания, полученные путем наблюдения за окружающей средой. Ввод в базу знаний объективизированных знаний не представляет проблемы, выявление и ввод субъективных экспертных знаний достаточно трудны. Для извлечения и формализации экспертных знаний разработано множество стратегий интервьюирования эксперта и множество моделей представления знаний [2].
В когнитивной психологии изучаются формы репрезентации знаний, характерные для человека: представление класса понятий через его элементы; представление понятий класса с помощью базового прототипа, отражающего наиболее типичные свойства объектов класса; представление с помощью признаков [3]. Форма репрезентации знаний определяет используемую методологию выявления знаний и модель представления знаний.
1.2. Методы извлечения и приобретения знанийК настоящему времени сформировалось три основных направления извлечения знаний. Эти направления могут использовать одни и те же математические методы; подходы, первоначально разработанные в рамках некоторого направления, могут применяться для решения задач из другого направления. Вот эти направления:
1. Методы самообучения и приобретения знаний в теории классических экспертных систем (Параграф 1.2.1).
2. Извлечение знаний из таблиц данных. Включает теорию статистических выводов и другие методы анализа данных (Параграф 1.2.2).
3. Теория идентификации систем (Параграф 1.2.3).
1.2.1. Приобретение знаний, обучение и обобщение по примерам в теории классических экспертных системИсследуется автоматизированный процесс получения знаний, объясняющих имеющиеся факты и способных объяснять, классифицировать или предсказывать новые. В общем виде задача формулируется так [2]: по совокупности наблюдений (фактов) F, совокупности требований и допущений к виду результирующей гипотезы H и совокупности базовых знаний и предположений, включающих знания об особенностях предметной области, выбранном способе представления знаний, наборе допустимых операторов, эвристик и др., сформировать гипотезу Н: HÞF (Н "объясняет" F).
Общий вид гипотезы Н зависит от цели обобщения и выбранного способа представления знаний. Методы обобщения, включающие модели классификации, формирования понятий, распознавания образов, обнаружения закономерностей, определяются целями обобщения, способами представления знаний, общими характеристиками фактов, критериями оценки гипотез.
Для обобщения по выборкам совокупность фактов F имеет вид обучающей выборки – множества объектов, каждый из которых сопоставляется с именем некоторого класса. Целью обобщения в этом случае может являться:
- формирование понятий: построение по данным обучающей выборки для каждого класса максимальной совокупности его общих характеристик [4];
- классификация: построение по данным обучающей выборки для каждого класса минимальной совокупности характеристик, которая отличала бы элементы класса от элементов других классов;
- определение закономерности последовательного появления событий.
К методам обобщения по выборкам относятся лингвистические модели, методы автоматического синтеза алгоритмов и программ по примерам и другие [2].
В методах обобщения по данным априорное разделение фактов по классам отсутствует. Здесь могут ставиться следующие цели:
- формулирование гипотезы, обобщающей данные факты;
- выделение образов на множестве наблюдаемых данных, группировка данных по признакам (задача формирования понятий, определенная в модели обобщения по выборкам, также часто ставится без априорного разбиения обучающей выборки по классам) [4];
- установление закономерностей, характеризующих совокупность наблюдаемых данных [5].
Рассмотрим кратко связь между задачами обобщения и классификации и задачами, решаемыми в рамках теории вероятностей и математической статистики. В математической статистике ставятся и решаются задачи вывода новых знаний на основании анализа совокупности наблюдений, при этом устанавливаются частотные закономерности появления событий: определяются общий вид и параметры функций распределения вероятностей событий по данным наблюдений, делаются выводы о степени статистической зависимости наблюдаемых случайных величин, проверяются гипотезы о характеристиках случайного события. Действительно, в задаче формализации и вывода знаний о реальном мире нельзя не учитывать наличия статистических закономерностей в его проявлениях. Общая же задача формирования гипотез по данным наблюдений не ограничивается установлением статистических закономерностей. Так, разработаны формально-логические модели выдвижения гипотез [6], которые используются в теории искусственного интеллекта.
С точки зрения способа представления знаний и допущений на общий вид объектов наблюдений, методы обобщения делятся на методы обобщения по признакам и структурно-логические (или концептуальные) методы [2]. В первом случае объекты представляются в виде совокупности значений косвенных признаков. Методы обобщения и распознавания по признакам различаются для качественных (номинальных или порядковых) и количественных (измеримых) значений признаков. Структурно-логические методы, в отличие от признаковых, предназначены для решения задачи обобщения на множестве объектов, имеющих внутреннюю логическую структуру (последовательности событий, иерархически организованные сети, характеризуемые как признаками и свойствами объектов – элементов сети, так и отношениями между ними). В формально-логических системах, использующих структурно-логические методы обобщения, вывод общих следствий из данных фактов называют индуктивным выводом. Сформулированы основные вопросы, на которые должны давать ответы индуктивные логики и методы выдвижения гипотез:
1. Является ли гипотеза Н обоснованной данным знанием?
2. Существуют ли методы обоснования Н при данном знании?
3. Каковы условия для Н при данном знании, такие, что Н дает наиболее разумное и интересное объяснение?
4. Существуют методы для выдвижения гипотез на основании данного знания, дающих наиболее разумное и интересное объяснение изучаемого явления?
В экспертных системах (ЭС) для представления знаний об объектах используются обычно модификации языка исчисления предикатов без ограничения арности предикатных символов или адекватные им по выразительной мощности семантические сети [2]. Моделям обобщения на семантических сетях свойственны черты как алгоритмов обобщения по признакам, так и индуктивной логики. Здесь также определяется набор операторов, используемых при формировании обобщенного представления (гипотезы) Н, и выдвигаются критерии оценки "интересности" и обоснованности гипотез. Кроме того, в этих моделях широко используется характерный для обобщения по качественным признакам [7] аппарат теории покрытий и устанавливаются отношения на множестве значений признаков объектов-элементов сети. Методами структурного обобщения решаются обычно задачи классификации, формирования понятий, анализа сцен [2].
Для задачи обобщения по признакам известен следующий результат: каков бы ни был реальный вид разделяющей функция y (в общем случае – индуктивной гипотезы Н) и алгоритм ее формирования по обучающей выборке, всегда найдется такая (непустая) обучающая выборка, что сформированная функция y ' (гипотеза Н') явится некорректной (ложной).
В связи с этим гипотезы принято оценивать с точки зрения их "разумности", "рациональности", "интересности". В [6] рациональность ответа на вопрос 1 (см. выше) индуктивного вывода понимается следующим образом. Пусть F – имеющиеся истинные утверждения, а j – эмпирические данные. Тогда для порождаемой ложной гипотезы F,jÞy вероятностная мера наблюдения y на j должна быть мала (например, меньше 0,05).
Можно оценивать гипотезы с точки зрения мощностей подмножеств покрываемых ими элементов обучающей выборки. В ряде исследований для подтверждения или отрицания выдвигаемой гипотезы используются методы автоматического порождения новых элементов обучающей выборки, которые выдаются для классификации эксперту. Решающее правило переопределяется, пока не будет достигнута равновесная ситуация [2].
1.2.1.1. Трудности при разработке экспертных системК настоящему времени в теории классических экспертных систем разработана формализованная технология извлечения и представления экспертных знаний. Однако, существует целый ряд трудностей [8]:
- Построение ЭС не под силу конечному пользователю, не обладающему экспертными знаниями о проблемной области.
- Необходимость привлечения человека-эксперта в проблемной области, который является носителем знаний. Кроме трудности нахождения эксперта (его может и не быть), необходимо добавить еще и возможные трудности взаимодействия эксперта со специалистом-когнитологом (именно последний, путем диалога с экспертом, оформляет полученные от эксперта знания в выбранном формализме представления знаний).
- Имеющаяся оболочка ЭС и/или используемая ей модель представления знаний могут плохо подходить для выбранной проблемной области, задачи. Это часто вынуждает разрабатывать программный инструментарий "с нуля".
- Процесс извлечения знаний из эксперта, их формализация, проверка на непротиворечивость и устранение противоречий очень длителен, несмотря на наличие программных средств автоматизации. До получения первого прототипа системы проходит длительное время (месяцы), и до этих пор нельзя определить, возможно ли построение ЭС, решающей поставленную задачу с заданной степенью точности и увеличивающей точность решения при дальнейшем пополнении базы знаний, либо достижение заданных характеристик системы невозможно. Это может вести к большим материальным затратам в последнем случае. Другими словами, один из самых первых этапов при разработке любой информационной системы – анализ реализуемости – при разработке ЭС откладывается до момента построения исследовательского прототипа системы.
Перечисленные трудности препятствуют широкому применению теоретических методов и программных оболочек ЭС на практике.
1.2.2. Методы извлечения знаний из таблиц данных 1.2.2.1. Технология извлечения знаний из таблиц данныхВ настоящей работе исследуется извлечение знаний из таблиц данных при помощи математических или эмпирических методов обработки данных и моделирования. Фактически, в индустрии обработки данных существуют некоторые формальные схемы обработки данных и анализа результатов. Так, общая схема обработки данных методами математической статистики приведена в [9]:
1. Анализ исследуемой системы или объекта. В ходе анализа определяются: основные цели исследования на содержательном уровне; совокупность единиц (объектов, измерений,..), представляющих предмет исследования; перечень показателей (свойств), характеризующих состояние или поведение каждой из исследуемых единиц; степень формализации и детализации этих показателей при сборе данных; моменты, требующие дополнительной проверки перед составлением детального плана исследований; формализованная постановка задачи (например, на статистическом уровне, т.е. включающая вероятностную модель изучаемого явления и природу статистических выводов, к которым должен или может прийти исследователь в ходе обработки массива данных).
2. Составление плана сбора исходной статистической информации: определение типа выборки – случайная, пропорциональная и т.п.; определение требуемого объема выборки и продолжительности наблюдений; планирование активного эксперимента (если допускается задачей и исследуемым объектом).
3. Сбор данных и их ввод в ЭВМ.
4. Первичная статистическая обработка данных: статистическое описание совокупностей данных с определением пределов варьирования переменных; анализ резко выделяющихся наблюдений, принятие решения об исключении выделяющихся наблюдений или дальнейшем уменьшении учета их вклада с помощью некоторой весовой функции, убывающей по мере роста степени аномальности наблюдений; восстановление значений пропущенных наблюдений; проверка однородности нескольких порций исходных данных (требуется при разделении в пространстве и/или времени моментов получения этих порций данных); проверка статистической независимости последовательных наблюдений; унификация типов переменных; экспериментальный анализ закона распределения исследуемой генеральной совокупности и параметризация распределений.
5. Составление плана вычислительного анализа статистического материала.
6. Вычислительная реализация обработки данных.
7. Осмысление, интерпретация и подведение итогов исследования.
Как при использовании традиционных статистических методов анализа данных, так и при использовании нейронных сетей приведенная схема действий остается без изменений. При этом пункты 5-7 детализируются в зависимости от целей и задач исследования и применяемых методов.
1.2.2.2. Таблица эмпирических данныхСтрогие математические методы построения статистически достоверных решающих правил разработаны для случаев, когда о распределениях генеральных совокупностей образов известно абсолютно все: виды законов распределений и все их параметры, априорные вероятности появления образов, матрица потерь от ошибок и т.д.
К сожалению, при решении реальных задач такие условия не встречаются. Обучающая выборка каждого из k образов S1, S2,…,Sk представлена конечным числом mi реализаций, описанных n характеристиками x1,x2,…,xn. Сведений о законах и параметрах распределения генеральных совокупностей Gi образов нет. Неизвестна связь обучающей выборки с генеральными совокупностями (неизвестна степень "представительности" выборки). Владелец обучающей выборки имеет туманные представления об априорной вероятности появления различных образов Pi и о матрице стоимости ошибок распознавания Cij. Выборка может быть очень небольшой, в данных могут быть ошибки и пробелы, признаки могут быть измерены в разных шкалах [7], среди признаков могут быть неинформативные, "шумящие" признаки.
Для приведения ситуации к виду, при котором можно было бы применить тот или иной статистический алгоритм, нужно к имеющейся объективной информации добавить ряд субъективно выбираемых предположений или гипотез. Этот этап привнесения эвристических гипотез имеет место во всех случаях решения реальных задач, и поэтому деление алгоритмов на "строгие статистические" и "нестрогие эвристические" не имеет смысла [10].
Фактически, выдвижение и проверку новых гипотез для рассматриваемой таблицы данных можно рассматривать часть процесса извлечения знаний.
На применимость и качество работы отдельных методов большое влияние оказывает тип признаков (характеристик) объектов – дискретный (качественный), номинальный (порядковый) или количественный.
Во всех случаях вопрос о том, что является полезной информацией, совсем не очевиден и требует специального рассмотрения.
Представления о характере полезной информации, содержащейся в эмпирических данных, а зачастую и сам характер подобных данных не позволяют использовать для их обработки классические статистические методы. В связи с этим возникли совершенно новые задачи обработки эмпирических данных, а значит, и новые методы решения таких задач.
Это прежде всего задачи регрессионного, авторегрессионного и факторного анализов. В последние годы регрессионный и факторный анализ развивались особенно интенсивно и обогатились рядом новых моделей и методов, например, такими, как модель структурных уравнений регрессии [11], или методы группировки параметров.
Другая группа задач обработки данных – получение типологии изучаемых объектов. С ними связаны распознавание образов, методы автоматической классификации и т.п.
Новые эффекты обнаружились при комбинированном применении методов формирования факторов и методов автоматической классификации с тем, чтобы с каждым фактором была связана своя типология. Оказалось, что полученные типологии легко поддаются интерпретации и их можно понимать как системы терминов, позволяющих достаточно коротко описывать отдельные явления. Удалось создать обобщенный подход к обработке эмпирических данных самой различной природы, получивший название лингвистического [11].
1.2.2.3. Статистические методы извлечения знаний из таблицы данныхРассмотрим статистические методы извлечения знаний из таблиц данных. Естественно, объем имеющейся выборки будет определять надежность статистического вывода – т.е. подтверждения или отклонения гипотезы или доверия к полученным параметрам модели. При этом неотрицательный результат статистической проверки гипотезы не означает, что высказанное предположение является наилучшим, единственно подходящим: просто оно не противоречит имеющимся выборочным данным, однако таким же свойством могут наряду с этой гипотезой обладать и другие гипотезы [9].
Кратко перечислим существующие на данный момент методы:
1. Проверка гипотезы об аномальном измерении.
2. Проверка гипотез о выборочных значениях характеристик случайной величины.
3. Проверка гипотезы о распределении случайной величины и нахождение параметров этого распределения.
4. Корреляционный анализ.
5. Линейный регрессионный и авторегрессионный анализ.
6. Факторный анализ и анализ главных компонент.
7. Байесовские классификаторы в задаче бинарной классификации.
8. Построение линейных и кусочно-линейных разделяющих поверхностей в задаче бинарной классификации.
9. Автоматическая группировка объектов – методы автоматической классификации (кластеризации).
1.2.3. Методы идентификации системПод идентификацией понимается построение модели, с заданной точностью описывающей реакцию наблюдаемого объекта на внешнее воздействие (описываемое набором входных, независимых переменных).
Задаче идентификации посвящено огромное количество работ (см., например, библиографию в [13]), отличающихся не только типами объектов, которые необходимо идентифицировать, но и самими методами и алгоритмами идентификации. Среди алгоритмов идентификации чаще всего используются рекуррентные алгоритмы, позволяющие осуществлять идентификацию в режиме нормальной работы объекта. Иными словами, для рекуррентных алгоритмов не формируется обучающая выборка (таблица данных), а адаптация модели ведется с использованием только текущей пары "вход объекта – выход объекта". Однако нет никаких ограничений на использование рекуррентных алгоритмов для обработки таблицы ранее собранных данных об объекте.
Принципы формирования алгоритмов идентификации тесно связаны с выбором уравнения, использующего наблюдаемые данные и аппроксимирующего уравнение объекта, выбором критерия качества аппроксимации (функции потерь), выбором метода оптимизации критерия. Этот выбор до последнего времени был в значительной мере произволен и обусловил господство линейной аппроксимации уравнения объекта и квадратичного критерия (при этом задача идентификации сводилась к решению системы линейных уравнений). Но практика показала, что такой выбор не всегда приводит к положительным результатам.
В настоящее время разработана информационная теория идентификации [13], позволяющая оптимально выбирать уравнение аппроксимации, критерий, и алгоритм идентификации в зависимости от точки приложения к объекту помех, наличия той или иной информации о плотности распределения помех и параметров этого распределения, используемой целевой функции, априорной информации об искомом решении. Показана возможность улучшения алгоритмов за счет управления входными воздействиями.
1.2.4. Другие методы обработки данныхСуществуют и другие методы обработки таблиц данных:
0 комментариев