Многомерный статистический анализ в экономических задачах
Содержание
1. Задача №1.
Множественная линейная регрессия 3
1.1 Теоретические сведения
и алгоритм решения задачи 4
1.2 Компьютерная
технология решения задачи 6
1.3 Выводы 7
2. Задача №2. Кластерный
анализ 8
2.1 Теоретические сведения 9
2.2 Алгоритм решения
задачи 10
Список литературы 15
1. Задача
№1. Множественная линейная регрессия
1. Построить модель множественной линейной регрессии по данным,
представленным в таблице 1. Для построения модели применить функцию
"Регрессия" надстройки "Пакет анализа" MS Excel.
2. Оценить качество модели по коэффициентам детерминации и
множественной корреляции.
. Оценить значимость уравнения регрессии на основе F-критерия
Фишера.
. Оценить значимость коэффициентов уравнения регрессии на основе
t-критерия Стьюдента.
Таблица 1.
y
|
x1
|
x2
|
x3
|
x4
|
x5
|
532
|
18
|
17
|
20
|
23
|
22
|
765
|
44
|
29
|
14
|
24
|
30
|
407
|
13
|
11
|
14
|
20
|
32
|
850
|
36
|
31
|
37
|
18
|
16
|
594
|
28
|
13
|
18
|
22
|
47
|
743
|
34
|
39
|
14
|
27
|
24
|
795
|
24
|
21
|
41
|
26
|
36
|
844
|
48
|
20
|
23
|
27
|
36
|
721
|
43
|
26
|
19
|
12
|
825
|
17
|
12
|
49
|
38
|
41
|
908
|
23
|
49
|
49
|
13
|
17
|
1092
|
43
|
42
|
49
|
23
|
27
|
870
|
38
|
40
|
24
|
28
|
29
|
980
|
42
|
28
|
49
|
13
|
41
|
707
|
34
|
16
|
19
|
36
|
17
|
экономическая модель регрессия линейная
1.1
Теоретические сведения и алгоритм решения задачи
Общий вид линейной модели множественной регрессии:
yi=β0+β1x1i+…+βmxmi+εi,
где yi - значение i-ой
результативной переменной, i=;1i…xmi -
значения факторных переменных;
β0…βm - неизвестные коэффициенты модели
множественной регрессии;
εi - случайные ошибки модели
множественной регрессии.
Для оценки качества модели используют коэффициент детерминации. Долю
дисперсии, которая обусловлена регрессией, в общей дисперсии показателя у
характеризует коэффициент детерминации R2.
где - предсказанное значение зависимой переменной; - среднее значение зависимой
переменной.
Коэффициент детерминации, как и коэффициент корреляции, принимает
значения от -1 до +1. [2,стр. 198].
=
Для оценки качества регрессионных моделей целесообразно также
использовать коэффициент множественной корреляции (индекс корреляции) [2, стр.
199]
тогда .
Для проверки значимости модели регрессии используется F-критерий Фишера, вычисляемый как
отношение дисперсии исходного ряда и несмещенной дисперсии остаточной
компоненты [2,стр. 200]:
Расчетное значение (Fрасч) равно 101276,16. Табличное значение
F-критерия при доверительной
вероятности 0,95 и числе степеней свободы
g1 = k = 5 и g2 = n - k - 1
= 15 - 5 - 1 = 9 составляет 3,48.
Значимость коэффициентов регрессии оценим с помощью t-критерия Стьюдента.
Расчетные значения критерия Стьюдента следующие: ta1 = 348,05, ta2 = 214,36, ta3 = 425,62, ta4 = 136,65, ta5 = 38,59. Табличное значение критерия
при уровне значимости α = 0,05 и числе степеней свободы g = n - k - 1
= 9 равно 2,26. Значит, выполняются следующие неравенства:
ta1 > tтабл; ta2 > tтабл; ta3 > tтабл; ta4 > tтабл; ta5 > tтабл.
1.2
Компьютерная технология решения задачи
В качестве программного средства реализации анализа воспользуемся пакетом
Анализ данных табличного процессора EXEL, инструмент Регрессия.
Выберите команду Данные Анализ данных; далее открывается диалоговое окно,
следует выбрать инструмент Регрессия и нажать кнопку ОК
Рис. 1
В диалоговом окне Регрессия в поле Входной интервал Y введите адрес одного диапазона
ячеек, который представляет зависимую переменную. В поле Входной интервал X введите адреса одного или нескольких
диапазонов, которые содержат значения независимых переменных
Рис. 2
В результате перечисленных действий будет получен протокол выполнения
регрессионного анализа
Рис. 3
1.3 Выводы
По всем статистическим показателям модель может быть признана
удовлетворительной. У нее высокие t - статистики, Fрасч > Fтабл, следовательно коэффициент детерминации статистически значим и
уравнение регрессии статистически надежно. Все это дает основание считать
построенную модель весьма удачной. Она может быть использована для целей
анализа и прогнозирования.
Коэффициент множественной корреляции, равный 0,99, показывает высокую
тесноту связи зависимой переменной Y c включенными в
модель объясняющими факторами.Начало формКонец формы
2. Задача
№2. Кластерный анализ
Постановка
задачи
1. По данным таблицы 2 построить диаграмму рассеяния.
2. Провести кластеризацию объектов применяя иерархический дивизимный
алгоритм кластеризации. Для оценки расстояния между объектами применить формулу
евклидова расстояния.
. Построить дендрограмму кластеризации.
. Оценить качество кластеризации на основе суммы попарных
внутриклассовых расстояний между внутренними элементами.
Таблица 2.
|
Признаки
|
Объекты
|
1
|
2
|
1
|
90
|
60
|
2
|
20
|
90
|
3
|
40
|
20
|
4
|
90
|
70
|
5
|
50
|
100
|
6
|
10
|
90
|
7
|
90
|
80
|
8
|
30
|
20
|
9
|
50
|
20
|
10
|
20
|
100
|
2.1
Теоретические сведения
«Кластерный анализ» - это общее название множества вычислительных
процедур, используемых при создании классификации. В результате работы с
процедурами образуются «кластеры» или группы очень «похожих» объектов. Более
точно, кластерный метод - это многомерная статистическая процедура, выполняющая
сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая
объекты в сравнительно однородные группы.
Кластерный анализ не содержит вычислительного механизма проверки гипотезы
об адекватности получаемых классификаций. Результаты кластеризации в этом плане
можно обосновать с использованием метода дискриминантного или других видов
анализа.
Шаги кластерного анализа: получение выборки; определение признаков оценки
объектов; вычисление меры сходства между объектами; применение метода
кластеризации; проверка достоверности полученных результатов.
Методы
кластерного анализа: 1) Иерархические агломеративные методы; 2) Иерархические
дивизивные методы; 3) Итеративные методы группировки; 4) Методы поиска
модальных значений плотности; 5) Факторные методы; 6) Методы сгущений; 7)
Методы, использующие теорию графов [4].
2.2
Алгоритм решения задачи
Построим диаграмму рассеяния по таблице 2.
Рис. 1
Евклидово расстояние является геометрическим расстоянием в многомерном
пространстве и вычисляется следующим образом:
Тогда согласно формуле, расстояние между первым и вторым объектами
Очевидно, что .
Аналогично находим все остальные расстояния между десятью объектами и
строим матрицу расстояний:
1 2 3 4 5 6 7
8 9 10
Наиболее удаленными являются объекты и (); оценим расстояния оставшихся
объектов до первого и шестого:
- объект ближе к ;
- объект ближе к ;
- объект ближе к ;
- объект ближе к ;
- объект ближе к ;
- объект ближе к ;
- объект ближе к ;
- объект ближе к .
Таким образом, получаем два кластера:
{1, 3, 4, 8, 7, 9} и {2,6, 5, 10}.
По кластеру строим матрицу расстояний:
1 3 4 7 8 9
Наибольшее расстояние = 84,85. Оценим расстояния оставшихся объектов до седьмого и
десятого:
- объект ближе к ;
- объект ближе к ;
- объект ближе к ;
- объект ближе к ;
Таким образом, получаем два кластера: {7, 1, 4} и {8, 3, 9}. В кластере находим наибольшее расстояние = 20. По кластеру наибольшее расстояние = 20.
По кластеру строим матрицу расстояний:
0 2 5 6 10
=
Наибольшее расстояние = 41,23. Оценим расстояния оставшихся объектов до пятого и
десятого:
- объект ближе к ;
- объект ближе к ;
Получаем два кластера: {5} и {2, 6, 10}. В кластере находим наибольшее расстояние: = 41,23.
На основе имеющихся данных построим дендрограмму кластеризации:
Рассчитаем сумму попарных внутриклассовых расстояний:
Из формулы следует:
Рассчитаем общую сумму расстояний:
76,15+64,03+10+56,56+85,44+20+72,11+56,56+80,62+72,80+72,80+31,62+10+70,71+70,71+76,15+10+70,71+80,62+76,15+78,10+10+10+82,46+50+82,46+10+78,10+64,03+76,15+41,23+44,72+82,46+80+30+80,62+72,80+80,62+14,14+84,85+72,11+72,80+20+80,62+85,44=2647,45
Исходя из полученных данных можно сделать вывод, что сумма попарных внутриклассовых
расстояний почти в двадцать раз меньше общей суммы расстояний. В результате
проведенного исследования был разработан программный комплекс, функционирующий
на основе подготовленной выборки, позволяющий выявить эволюционные взаимосвязи
между различными возбудителями и отобразить результаты в простой и понятной
графической форме.
Список
литературы
1. Многомерный статистический анализ в экономических
задачах: компьютерное моделирование в SPSS: учебное пособие / под ред. И.В.
Орловой. - М.: Вузовский учебник, 2009. - 210 с.
2. Орлова И.В., Половников В.А. Экономико-математические
методы и модели: компьютерное моделирование: учебное пособие. - М.: Вузовский
учебник, 2007, 2009. - 357 с.
. Дюран Н., Оделл П. Кластерный анализ. - М.:
Статистика, 2007. - 128 с.
. http://rudocs.exdat.com/docs/index-78005.html