4 Математическое описание метода

На первом шаге необходимо сформировать потенциальные центры кластеров. Для алгоритма горной кластеризации число потенциальных центров кластеров (Q) должно быть конечным. Ими могут быть объекты кластеризации (строчки матрицы ), тогда . Второй способ выбора потенциальных центров кластеров состоит в дискретизации пространства входных признаков. Для этого диапазоны изменения входных признаков разбивают на несколько интервалов. Проводя через точки разбиения прямые, параллельные координатным осям, получаем "решеточный" гиперкуб. Узлы этой решетки и будут соответствовать центрам потенциальных кластеров. Обозначим через  - количество значений, которые могут принимать центры кластеров по -й координате (). Тогда количество возможных кластеров будет равно: .

На втором шаге алгоритма рассчитывается потенциал центров кластеров по следующей формуле:

, ,

где  - потенциальный центр h-го кластера;

 - положительная константа

 - расстояние между потенциальным центром кластера () и объектом кластеризации (). В евклидовом пространстве это расстояние рассчитывается по формуле:

.

В случае, когда объекты кластеризации заданы двумя признаками (n=2), графическое изображение распределения потенциала будет представлять собой поверхность, напоминающую горный рельеф. Отсюда и название - горный метод кластеризации.

На третьем шаге алгоритма в качестве центров кластеров выбирают координаты "горных" вершин. Для этого, центром первого кластера назначают точку с наибольшим потенциалом. Обычно, наивысшая вершина окружена несколькими достаточно высокими пиками. Поэтому назначение центром следующего кластера точки с максимальным потенциалом среди оставшихся вершин привело бы к выделению большого числа близко расположенных центров кластеров. Чтобы выбрать следующий центр кластера необходимо вначале исключить влияние только что найденного кластера. Для этого значения потенциала для оставшихся возможных центров кластеров пересчитывается следующим образом: от текущих значений потенциала вычитают вклад центра только что найденного кластера (поэтому кластеризацию по этому методу иногда называют субтрактивной). Перерасчет потенциала происходит по формуле:

,

где  - потенциал на 1-й итерации;

 - потенциал на 2-й итерации;

* - центр первого найденного кластера:

;

 - положительная константа.

Центр второго кластера определяется по максимальному значению обновленного потенциала:

.

Затем снова пересчитывается значение потенциалов:

.


Итерационная процедура пересчета потенциалов и выделения центров кластеров продолжается до тех пор, пока максимальное значение потенциала превышает некоторый порог.

5 Пример использования метода на реальных данных

Для реализации метода горной кластеризации на реальных данных по показателям 3(Atomic-radius-emp), 7(Electron-affinity) и 14(Electronegativity-AllredRochow) автором был использован математический пакет Matlab версии 7.10.0(R2010a), в который были импортированы данные из таблицы MS Excel с помощью надстройки Spreadsheet Link EX 3.1.1. Вызов встроенной в Matlab функции кластеризации subclust() и создания фигуры для отображения получившихся результатов записаны в скрипте Cluster.m:

Безымянный.png

Результаты:

В командном окне Matlab выводятся координаты трех кластеров и их радиусы:

centers =

155.0000 41.1000 1.2200

135.0000 118.4000 1.7500

220.0000 48.4000 0.9100

sigmas =

27.5772 37.0170 0.5834

 


Заключение

В итоге анализа методом горной кластеризации по параметрам 3, 7 и 14 исходных данных выделились три кластера, дисперсия элементов довольно высока. Таким образом, можно выявить три группы элементов, имеющих одни и те же свойства.


Используемая литература

 

1.         Гайдышев И. Анализ и обработка данных: специальный справочник – СПб: Питер, 2001.

2.         www.exponenta.ru


Информация о работе «Кластерный анализ и метод горной кластеризации»
Раздел: Математика
Количество знаков с пробелами: 8800
Количество таблиц: 0
Количество изображений: 2

Похожие работы

Скачать
91411
2
7

... зависит будущее нации. На пострадавших территориях Украины, где плотность радиоактивного загрязнения по 137Cs составила от 5 до 40 Ku/км2, возникли условия длительного воздействия малых доз ионизирующего излучения, влияние которого на организм беременной и плода до Чернобыльской катастрофы фактически не изучалось. С первых дней аварии велось тщательное наблюдение за состоянием здоровья ...

Скачать
106175
1
0

... Количественный анализ дополнен изучением публикаций в образовательной и информационно-библиотечной сферах, изменений в издательской сфере, что повышает объективность результатов. Исследование характера изменения документального потока по информационной культуре в интервале 1996–2002 гг. показало, что ему свойственны в основном те же закономерности, что и другим социальным и гуманитарным наукам. ...

Скачать
19912
0
0

... осуществлено методом среднего присоединения [9]. С учетом названных выше методологических подходов характер распределения жуков-листоедов по отдельным эколого-географическим районам (подрайонам) Крыма выглядит следующим образом. Характеристика фауны жуков-листоедов эколого-географических районов Присивашский район. Для него характерны следующие виды листоедов: Chlorepterus versicolor Mor., ...

Скачать
432219
24
0

... рабочим органом, функции который будет выполнять созданный в качестве главного организационного инструмента совершенствования РИС – Аналитический Центр Инновационного Развития (АЦИР). Стратегическая функция АЦИР – организационно-правовое и финансовое сопровождение креативной деятельности в регионе, объединение под единым управлением инновационной и инвестиционной функции. Создатели инноваций ( ...

0 комментариев


Наверх