Интеллектуальный анализ данных, или Data Mining, – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Современные технологии Data Mining (discovery-driven data mining) обрабатывают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (online analytical processing, OLAP) в Data Mining бремя формулировки гипотез и выявления необычных шаблонов переложено с человека на компьютер.
Выделяют пять стандартных типов закономерностей (задач), которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация, прогнозирование.
Закономерность типа ассоциация наблюдается в данных, когда несколько событий связаны друг с другом и происходят при этом одновременно. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и «кока-колу», а при наличии скидки за такой комплект «колу» приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.
|
Закономерность типа «классификация» выявляется в данных на основе анализа признаков уже классифицированных объектов, при этом известна принадлежность объектов к классам. Результатом является формирование правил отнесения объектов к классам.
Закономерность типа «кластеризация» предполагает наличие в данных сходых по каким-либо признакам групп объектов, причем количество групп и принадлежность объектов к ним заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.
Поиск закономерности типа «прогнозирование» проводится на основе информации, хранящейся в базах данных в виде временных рядов. Если удается построить математическую модель и найти шаблоны, адекватно отражающие эту динамику, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.
Системный подход реализуется в методологии системного анализа, который является одним из эффективных инструментов исследования социально-экономических и политических процессов.
1.1 Цель объекта исследованияОбъектом исследования являются показатели деятельности кредитных организаций. Целью объекта исследования является отражение динамики процесса взаимодействия населения и кредитных организаций.
1.2 Структура системы, описание внешней средыТип описываемой структуры – плоская (горизонтальная декомпозиция) (схема1)
Схема 1
|
|
Данная система является открытой, т.к. основные элементы системы – кредитор и заемщик – обеспечивают постоянное циркулирование денежных средств с дачей денег в долг (входом) денежных средств со стороны кредитора и выплат (выхода) полученной суммы плюс проценты со стороны заемщик.
Описываемая система – гетерогенная. Доказательством данного факта является многообразие видов кредита, которые изображены на схеме 1.
Система является управляемой. В роли управленцев этой системы выступают кредитор и заемщик. А так как они являются в тоже время и элементами данной системы, то данную систему можно считать самоуправляемой.
Раздел 2 Интеллектуальный анализ данных о закономерностях функционирования объекта исследованияЦель анализа состоит в применении интеллектуального анализа данных для исследования заданной структуры данных для разработки принятия решений.
В данной работе основной задачей является выявление различий между регионами России на основе показателей деятельности кредитных организаций приведенным на 01.0.1.2007.
Исходные данные
Объектами в данной работе являются: Центральный, Северо-Западный, Южный, Приволжский, Уральский, Сибирский, Дальневосточный федеральный округа.
В качестве признаков в данной работе выступают: объем выданных кредитов физическим лицам, объем кредитов физическим лицам на покупку жилья, средневзвешенный срок кредитования, средневзвешенная процентная ставка, объем ипотечных жилищных кредитов физическим лицам, средневзвешенный срок кредитования (по ипотечным кредитам), средневзвешенная процентная ставка (по ипотечным кредитам).
2.1 Анализ методом главных компонентМетод главных компонент является методом визуализации данных.
Методы визуализации данных нацелены на поиск наиболее выразительных изображений совокупности исследуемых объектов для последующего максимального использования потенциала зрительного анализатора экспериментатора.
Визуализация данных предполагает получение тем или иным способом графического отображения совокупности объектов в новое координатное пространство, в качестве которого могут быть использованы либо числовая ось, либо плоскость, либо трехмерное пространство, максимально отражающие особенности распределения этих объектов в многомерном пространстве.
В соответствии с количеством измерений в новом координатном пространстве могут быть следующие способы визуального представления:
- одномерное измерение, или 1-D,
- двумерное измерение, или 2-D,
- трехмерное (проекционное) измерение, или 3-D.
С геометрических позиций алгоритм построения главных компонент (ГК) состоит в следующем.
Производится центрирование исходных данных (рис.1а), начало координат переносится в центр распределения данных (центроид), являющимся центром эллипсоида рассеивания случайного вектора Х (рис.1б).
Рис. 2. Формирование главных компонент
Затем осуществляется формирование главных компонент F1, F2,…,Fp (рис.1в). Линейные комбинации выбираются таким образом, что среди всех возможных комбинаций первая главная компонента F1(X) обладает наибольшей дисперсией. Дисперсия σ стремится к максимуму: F1(X)=I=max σ ->ωpi. Графически это выглядит как ориентация новой координатной оси F1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов в исходном пространстве P признаков. а разбросом вдоль нескольких последних осей можно пренебречь.
Вторая главная компонента F2(X) перпендикулярна первой и строится исходя из предположений нахождения максимальной дисперсии среди всех оставшихся линейных комбинаций, некоррелированных с первой ГК.
Остальные главные компоненты определяются аналогичным способом.
Количество главных компонент равно количеству элементарных признаков.
Введем исходные данные в электронную таблицу STATGRAPHICS (48*8).
Анализ методом главных компонент состоит из нескольких этапов:
1) Необходимо получить данные о результатах анализа (таблица сводки) (рис.3)
рис.3 Сводка метода ГК
В Данной таблице содержится информация о результатах построения главных компонент: собственные значения главных компонент (eigenvalue), упорядоченных по величине, процент дисперсии (percent of variance), приходящейся на каждую выделенную главную компоненту, накопленный процент дисперсии (cumulative percentage).
На основе полученных результатов можно седлать вывод о том, что первые 2 компоненты дают 80 процентов дисперсии, что достаточно для проведения анализа распределения компонентов в пространстве.
2) Далее проанализируем таблицу весов признаков (рис.4)
рис.4 Веса признаков в главных компонентах
Определим зависимость первой главной компоненты от признаков. Зависимость от того или иного признака определяется величиной признака.
Первая главная компонента в наибольшей степени зависит от 3 признаков:
объем кредитов, выданных физическим лицам, объем кредитов, выданных физическим лицам на покупку жилья, объем выданных ипотечных жилищных кредитов физическим лицам.
Ниже представлена проекция исследуемого множества на пространство трех ГК (рис.5).
рис.5 Проекция исследуемых объектов в пространство трех ГК
Из рис.5 видно, что исследуемая совокупность разделилась на три класса.
3) Определим значащие признаки в составе главных компонент по следующей формуле:
, где [wkj] – подмножество, участвующих в названии весовых коэффициентов j-й компоненты,
[wj] – все весовые коэффициенты j-й компоненты.
Ниже представлена таблица весовых коэффициентов первой ГК.
В соответствии с вышепредставленной формулой коэффициент информативности рассчитывается следующим образом:
= 0,8
Ки1 принадлежит интервалу [0,75,0,95], что говорит об определении ГК1 влиянием следующих признаков: объем выданных кредитов физическим лицам, объем кредитов, выданных физическим лицам на покупку жилья, объем выданных ипотечных жилищных кредитов физическим лицам.
4) Правило классификации на основе анализа методом главных компонент выглядит следующим образом:
ГК1= объем выданных кредитов физическим лицам *0,49+ объем кредитов, выданных физическим лицам на покупку жилья *0,53+ объем выданных ипотечных жилищных кредитов физическим лицам *0,52
Если объем выданных кредитов физическим лицам = малое, объем кредитов, выданных физическим лицам на покупку жилья = малое, объем выданных ипотечных жилищных кредитов физическим лицам =малое, объем выданных кредитов индивидуальным предпринимателям = малое, то класс = 1
Если объем выданных кредитов физическим лицам = среднее, объем кредитов, выданных физическим лицам на покупку жилья = среднее, объем выданных ипотечных жилищных кредитов физическим лицам = среднее, объем выданных кредитов индивидуальным предпринимателям = среднее, то класс = 2
Если объем выданных кредитов физическим лицам = большое, объем кредитов, выданных физическим лицам на покупку жилья = большое, объем выданных ипотечных жилищных кредитов физическим лицам = большое, объем выданных кредитов индивидуальным предпринимателям = большое, то класс = 3
В первый класс вошли объекты под номерами: 1-9, 11-17,19-28, 30-37, 39-42, 48,50,53,56.
Во второй класс вошли объекты под номерами: 42, 47, 51,38,52,55,45
В третий класс вошел один объект под номером: 10,18,29,43,46,49,54
2.2 Кластерный анализКластерный анализ предназначен для разбиения множества объектов на заранее неизвестное или в редких случаях заданное количество групп (кластеров) на основании некоторого математического критерия качества классификации кластеризации.
Введем исходные данные в электронную таблицу Statgraphics. Первый этап анализа – построение дендрограммы. Нажать на кнопку «Graphical options» меню окна «Cluster Analysis», выбрать отображение в виде дендрограммы (Dendrogram) и нажать ОК.
На дендрограмме видны три дерева. По вертикальной оси отложено расстояние для каждого шага работы агломеративного иерархического алгоритма кластеризации. На горизонтальной оси показаны наблюдения, скомбинированные в соответствии с проведенным анализом.
Поскольку на дендрограмме можно увидеть отчетливую картину трех группировок и имен наблюдений, вошедших в выделенные кластеры, то следовательно, для более подробного рассмотрения группировок следует задать их количество равным 3.
Введем исходные данные в электронную таблицу STATGRAPHICS (50*8).
Первый шаг анализа - построение дендрограммы для трех кластеров (рис.6). При построении необходимо учитывать виды расстояний: между объектами – «City-Block», между кластерами «Ward’s Method».
рис.6 Трехкластерная дендрограмма
Второй шаг получение сводки кластерного анализа (рис.7).
рис.7 Сводка кластерного анализа
Данная сводка содержит информацию о числе кластеров, количестве объектов в каждом кластере и соответствующем проценте населенности.
По координатам центроидов можно судить о том, какие переменные играют наиболее важную роль в каждом кластере, а также составить правило классификации. В полученной сводке есть признаки, кластерные значения которых не составляют большую разницу между собой. К таким признакам относятся: средневзвешенный срок кредитования(col_3), средневзвешенная процентная ставка(col_4), средневзвешенный срок кредитования для ипотечных кредитов(col_6) и средневзвешенная процентная ставка для ипотечных кредитов(col_7).
Правило классификации для первого кластера:
Если объем выданных кредитов физическим лицам =большой, объем кредитов, выданных физическим лицам на покупку жилья = малое, объем выданных ипотечных жилищных кредитов физическим лицам = малое, объем выданных кредитов индивидуальным предпринимателям = малое, то класс = 1.
Правило классификации для второго кластера:
Если объем выданных кредитов физическим лицам = малый, объем кредитов, выданных физическим лицам на покупку жилья = среднее, объем выданных ипотечных жилищных кредитов физическим лицам = среднее, объем выданных кредитов индивидуальным предпринимателям = среднее, то класс = 2.
Правило классификации для третьего кластера:
Если объем выданных кредитов физическим лицам = средний, объем кредитов, выданных физическим лицам на покупку жилья = большой, объем выданных ипотечных жилищных кредитов физическим лицам =большой, объем выданных кредитов индивидуальным предпринимателям = большой, то класс = 3.
... необходимо рассматривать по данным месячных балансов, а сравнение за два и более лет- по данным годовых балансов с заключительными оборотами. 1.2.Современные подходы к анализу деятельности коммерческого банка. В связи с возрастающей ролью банковской системы региона в обслуживании экономических субъектов, расширением внешнеэкономических и межрегиональных связей, продолжающимся процессом ...
... у банков просроченных ссуд с их последующей реабилитацией не может превратиться в постоянную практику, пока не удалены причины бедственного положения банков. Отправным моментом антикризисного управления в кредитной организации является получение неудовлетворительных данных анализа деятельности. Чем раньше выявлены недостатки в деятельности и определены основные направления работы, тем больше ...
... нужна для эффективного управления кредитной организацией. С их помощью руководители осуществляют планирование, контроль, улучшают и совершенствуют направление своей деятельности. Основными задачами анализа отчетности кредитной организации являются: - общая оценка финансового состояния и факторов его изменения; - изучение соответствия между средствами и источниками, рациональность их ...
... прибылях и убытках, отчет об уровне достаточности капитала, величина резервов на покрытие сомнительных ссуд и иных активов. Оценка же экономического положения производится ежеквартально. В ходе оценки финансово-хозяйственной деятельности коммерческих кредитных организаций анализируются: -показатели оценки капитала; -показатели оценки активов; -показатели оценки доходности; -показатели оценки ...
0 комментариев