Анализ данных с помощью технологии Data Mining
Лабораторная работа №3
Анализ данных с помощью технологии Data
Mining
Ход работы
1) Дерево
решений:
Открываем
Business Intelligence Development Studio.
Выбираем созданный ранее проект MultidimensionalProject1
и открываем его.
Создание структуры интеллектуального анализа
данных
В Solution Explorer кликаем правой кнопкой мыши
на Mining Models, выбираем New Mining Model. Откроется
Mining Model Wizard.
Нажимаем
Next на
странице
приветствия.
Выбираем
From existing relational database or data warehouse, затем
Next.
В разделе
Which data mining technique do you want to use? Выбираем
Microsoft Decision Trees.
Нажимаем
Next. По
умолчанию в качестве источника данных здесь выбран shop.
Нажимаем Next.
Помечаем флагом Case таблицу accounts, затем
нажимаем Next.
Помечаем флагом Key столбец account_id.
Помечаем флагом Predictable столбец amount. В
результате столбец становится доступным для прогнозирования в новых наборах
данных. Помечаем флагом Input столбцы model_id, seller_id,
date.
Нажимаем Next.
В поле
Structure
Name вводим
имя
Tree
и
нажимаем
Finish. При
этом откроется редактор Data mining, отображающий структуру Tree.
Для того чтобы развернуть проект и обработать
модели Нажимаем F5.
Теперь база данных Analysis Services выложена на
сервер и модели обработаны.
Для обработки data mining модели в меню Mining
Model выбираем
пункт
Process All Models. Откроется
диалоговое
окно
Process Targeted Mailing.
Нажимаем Run.
Откроется диалоговое окно Process Progress,
отображающее информацию об обработке модели.
После того как завершится обработка, закрываем
оба диалоговых окна.
В обозревателе видим дерево решений (рис. 1)
Рисунок 1 - Дерево решений
) Кластеризация - Microsoft
Clustering:
В Mining
Model в
разделе
Which data mining technique do you want to use? Выбираем
Microsoft Clustering.
Помечаем флагом
Case таблицу
accounts,
затем
нажимаем
Next.
Помечаем флагом Key столбец account_id.
Помечаем флагом Predictable столбец amount. В
результате столбец становится доступным для прогнозирования в новых наборах
данных. Помечаем флагом Input столбцы model_id, seller_id,
date.
Нажимаем Next.
В поле
Structure
Name вводим
имя
Cluster и
нажимаем
Finish. При
этом откроется редактор Data mining, отображающий структуру Cluster.
В обозревателе результаты (рис. 2-4).
Рисунок 2 - Диаграмма кластеров.
Рисунок 3 - Гистограмма кластеров.
Рисунок 4 - Характеристики кластера
кластер линейный регрессия алгоритм
Кластеризация позволяет определить различные
группы объектов или событий. Судя по гистограмме, у Кластера 1 самое большое
заполнение переменными, а по диаграмме можно сказать, что самая сильная связь
между кластерами 9 и 10.
По характеристикам Кластера 1, можно увидеть,
что он приходится на 2013 и 2014 года. Продавцы под номерами 2 и 3 совершили
больше всех продаж, и в основном продавалось по 5-9 деталей.
3) Линейная
регрессия
- Microsoft
Linear Regression:
В Mining
Model в
разделе
выбираем
Microsoft Linear Regression.
Помечаем флагом
Case таблицу
accounts, затем нажимаем
Next.
Помечаем флагом Key столбец account_id.
Помечаем флагом Predictable столбец amount. В
результате столбец становится доступным для прогнозирования в новых наборах
данных. Помечаем флагом Input столбцы model_id, seller_id,
date.
Нажимаем Next.
В поле Structure
Name вводим имя Linear
и нажимаем Finish. При этом
откроется редактор Data mining, отображающий структуру Linear.
В обозревателе видим результат в виде формулы
(рис. 5)
Рисунок 5 - Линейная регрессия
) Ассоциативные правила - Microsoft
Association:
В Mining
Model Wizard выбираем
Microsoft Association. Нажимаем
Next.
По умолчанию в качестве источника данных здесь
выбран accounts.
Помечаем флагом Case таблицу accounts, затем
нажимаем Next.
Помечаем флагом Key столбец account_id.
Помечаем флагом Predictable столбец amount. В
результате столбец становится доступным для прогнозирования в новых наборах
данных. Помечаем флагом Input столбцы model_id, seller_id,
date.
Нажимаем Next.
В поле
Structure
Name вводим
имя
Association
и
нажимаем
Finish. При
этом откроется редактор Data mining, отображающий структуру Association.
Откроется диалоговое окно Process Progress,
отображающее информацию об обработке модели.
После того как завершится обработка, закрываем
оба диалоговых окна.
Полученные результаты показаны на рис. 6-7.
Рисунок 6 - Правила ассоциативных решений
Рисунок 7 - Сеть зависимостей
Ассоциативный анализ выявил, что продавец под
номером 1 с большой вероятностью продает менее 4 комплектующих ПК и чаще всего
это модели с номером 100-104. Также, исходя из правил, можно вывести, что
модели с номером 114-116 продаются в большом количестве.
) Наивный алгоритм Байеса - Microsoft Naive
Bayes:
В разделе
Which data mining technique do you want to use? Выбираем
Microsoft Naive
Bayes. Нажимаем
Next.
По умолчанию в качестве источника данных здесь
выбран accounts.
Нажимаем Next.
Помечаем флагом Case таблицу accounts, затем нажимаем
Next.
Помечаем флагом Key столбец account_id.
Помечаем флагом Predictable столбец amount. В
результате столбец становится доступным для прогнозирования в новых наборах
данных. Помечаем флагом Input столбцы model_id, seller_id,
date.
Нажимаем Next.
В поле Structure
Name вводим имя Bayes и
нажимаем Finish. При этом
откроется редактор Data mining, отображающий структуру Bayes.
После того как завершится обработка, закрываем
оба диалоговых окна.
В обозревателе видим результат в виде формулы
(рис. 6)
Рисунок 6 - Алгоритм Байеса
Отобразив в сети зависимостей самые сильные
связи, можно определить, что самым сильным фактором, влияющим на количество
продаж, является продавец.
Вкладка профили атрибутов описывает, как различные
состояния входных атрибутов влияют на значение прогнозируемого атрибута. По
гистограмме можно увидеть, что больше всего продаж выпадает на продавца c
номером - 5 и на модели с номером 110-116.
6) Нейронные
сети
- Microsoft Neural Network:
В Mining
Model Wizard выбираем
From existing relational database or data warehouse, затем
Next.
В разделе
Which data mining technique do you want to use? Выбираем
Microsoft Neural Network.
Нажимаем
Next.
По умолчанию в качестве источника данных здесь
выбран accounts.
Нажимаем
Next.
Помечаем флагом
Case таблицу
accounts, затем нажимаем
Next.
Помечаем флагом
Key столбец
account_id.
Помечаем флагом
Predictable столбец amount. В результате столбец становится доступным для
прогнозирования в новых наборах данных. Помечаем флагом Input столбцы model_id,
seller_id, date. Нажимаем Next.
В поле
Structure
Name вводим
имя
Neural
и
нажимаем
Finish. При
этом откроется редактор Data mining, отображающий структуру Neural.
Для того чтобы развернуть проект и обработать
модели нажимаем F5.
Теперь модель обработана.
Для обработки data mining модели в меню Mining
Model выбираем
пункт
Process All Models.Откроется
диалоговое
окно
Process Targeted Mailing.
Нажимаем Run.
Откроется диалоговое окно Process Progress,
отображающее информацию об обработке модели.
После того как завершится обработка, закрываем
оба диалоговых окна.
В обозревателе видим результат в виде формулы
(рис. 7)
Рисунок 7 - Анализ с помощью нейронной сети.
Исходя из модели видно, что больше всего продаж
у продавца с номером 5, а меньше всего у продавца с номером 1.
7) Логистическая
регрессия
- Microsoft
Logistic Regression:
В Mining
Model в
разделе
выбираем
Microsoft Logistic
Regression.
Помечаем флагом
Case таблицу
accounts, затем нажимаем
Next.
Помечаем флагом
Key столбец
account_id.
Помечаем флагом
Predictable столбец amount. В
результате столбец становится доступным для прогнозирования в новых наборах
данных. Помечаем флагом Input столбцы model_id, seller_id,
date.
Нажимаем Next.
В поле
Structure
Name вводим
имя
Logistic и нажимаем
Finish. При
этом откроется редактор Data mining, отображающий структуру Logistic.
В обозревателе видим результат в виде формулы
(рис. 8).
Рисунок 8 - Логистическая регрессия
Исходя из модели видно, что данные аналогичны
нейронной сети и больше всего продаж у продавца с номером 5, а меньше всего у
продавца с номером 1.
Алгоритмы анализа показали, что самое сильное
влияние на продажи оказывает продавец. Также, большинство алгоритмом одинаково
определили, что больше всего деталей отпускает продавец с номером 5, а меньше
всего продавец с номером 1.