Поле корреляции. Неколлинеарные факторы, их коэффициенты частной корреляции
Задача 1
По территориям Южного федерального округа
приводятся статистические данные за 2000 год:
Территории
федерального округа
|
Валовой
региональный продукт, млрд. руб., Y
|
Кредиты,
предоставленные предприятиям, организациям, банкам и физическим лицам, млн.
руб., X
|
1.
Респ. Адыгея
|
5,1
|
60,3
|
2.
Респ. Дагестан
|
13,0
|
469,5
|
3.
Респ. Ингушетия
|
2,0
|
10,5
|
4.
Кабардино-Балкарская Респ.
|
10,5
|
81,7
|
5.
Респ. Калмыкия
|
2,1
|
46,4
|
6.
Карачаево-Черкесская Респ.
|
4,3
|
96,4
|
7.
Респ. Северная Осетия - Алания
|
7,6
|
356,5
|
8.
Краснодарский край1)
|
109,1
|
2463,5
|
9.
Ставропольский край
|
43,4
|
278,6
|
10.
Астраханская обл.
|
18,9
|
321,9
|
11.
Волгоградская обл.
|
50,0
|
782,9
|
12.
Ростовская обл. 1)
|
69,0
|
1914,0
|
Итого
|
156,9
|
2504,7
|
Средняя
|
15,69
|
250,47
|
Среднее
квадратическое отклонение,
|
16,337
|
231,56
|
Дисперсия,
D
|
266,89
|
53620,74
|
Предварительный анализ исходных данных выявил
наличие двух территорий с аномальными значениями признаков. Эти территории
исключены из дальнейшего анализа. Значения показателей в итоговых строках
приведены без учёта указанных аномальных единиц.
Задание:
. Расположите территории по возрастанию фактора
X. Сформулируйте рабочую гипотезу о возможной связи Y и X.
. Постройте поле корреляции и сформулируйте
гипотезу о возможной форме и направлении связи.
3. Рассчитайте параметры а1 и а0
парной линейной функции и
линейно-логарифмической функции
. Оцените тесноту связи с помощью
показателей корреляции (ryx и ηylnx) и детерминации (r2yx и η2ylnx), проанализируйте
их значения.
Надёжность уравнений в целом оцените
через F -критерий Фишера для уровня значимости 0,05.
На основе оценочных характеристик
выберите лучшее уравнение регрессии и поясните свой выбор.
. По лучшему уравнению регрессии
рассчитайте теоретические значения результата (), по ним постройте теоретическую
линию регрессии и определите среднюю ошибку аппроксимации - ε'ср., оцените
её величину.
. Рассчитайте прогнозное значение
результата, если
прогнозное значение фактора () составит 1,037 от среднего уровня
().
. Рассчитайте интегральную и
предельную ошибки прогноза (для 0,05), определите доверительный интервал
прогноза (; ), а также
диапазон верхней и нижней границ доверительного интервала (), оцените
точность выполненного прогноза.
Решение:
Для построения графика расположим
территории по возрастанию значений фактора . См. табл.2. Так как график
строится в табличном процессоре EXCEL, то в исходной таблице фактор должен находиться
на первом месте, а результат - на втором. Из графика может быть сделан вывод о
возможной форме связи валового регионального продукта (Y) с кредитами,
предоставленными предприятиям, организациям, банкам и физическим лицам (X). В
этом случае для описания зависимости следует построить несколько моделей
разного вида и на основе оценочных характеристик выбрать оптимальную форму
модели.
Таблица 2
Территории
федерального округа
|
Кредиты,
предоставленные предприятиям, организациям, банкам и физическим лицам, млн.
руб.
|
Валовой
региональный продукт, млрд. руб.
|
А
|
Х
|
Y
|
1.
Респ. Ингушетия
|
10,5
|
2
|
2.
Респ. Калмыкия
|
46,4
|
2,1
|
3.
Респ. Адыгея
|
60,3
|
5,1
|
4.
Кабардино-Балкарская Респ.
|
81,7
|
10,5
|
5.
Карачаево-Черкесская Респ.
|
96,4
|
4,3
|
6.
Ставропольский край
|
278,6
|
43,4
|
7.
Астраханская обл.
|
321,9
|
18,9
|
8.
Респ. Северная Осетия - Алания
|
356,5
|
7,6
|
9.
Респ. Дагестан
|
469,5
|
13
|
10.
Волгоградская обл.
|
782,9
|
50
|
Итого,
|
2504,7
|
156,9
|
Средняя
|
250,47
|
15,69
|
|
231,56
|
16,337
|
Дисперсия,
D
|
53620,74
|
266,89
|
Рис. 1
По данным таблицы №2 видно, что с
увеличением факторного признака (Х) увеличивается результативный признак (Y).
По характеру расположения точек на
поле корреляции (по графику) можно сделать вывод о слабой связи. Так как точки
корреляционного поля почти не обнаруживают определенную направленность в своем
расположении, можно говорить о наличии очень слабой связи (линейной или
нелинейной).
Обычно моделирование начинается в
построения уравнения прямой:, отражающей линейную форму
зависимости результата Y от фактора X.
Расчёт неизвестных параметров
уравнения выполним методом наименьших квадратов (МНК), построив систему
нормальных уравнений и решая её, относительно неизвестных а0 и а1. Для расчёта
используем значения определителей второго порядка Δ, Δа0 и Δа1 Расчётные
процедуры представим в разработочной таблице, в которую, кроме значений Y и X,
войдут X2, X*Y, а также их итоговые значения, средние, сигмы и дисперсии для Y
и X. См. табл.3.
Таблица 3
№
|
|
|
|
|
|
|
|
|
А
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
1
|
10,500
|
2,000
|
110,250
|
21,000
|
2,921
|
-0,921
|
0,848
|
0,059
|
2
|
46,400
|
2,100
|
2152,960
|
97,440
|
4,831
|
-2,731
|
7,459
|
0,174
|
3
|
60,300
|
5,100
|
3636,090
|
307,530
|
5,571
|
-0,471
|
0,222
|
0,030
|
4
|
81,700
|
10,500
|
6674,890
|
857,850
|
6,709
|
3,791
|
14,369
|
0,242
|
5
|
96,400
|
4,300
|
9292,960
|
414,520
|
7,492
|
-3,192
|
10,187
|
0,203
|
6
|
278,600
|
43,400
|
77617,960
|
12091,24
|
17,187
|
26,213
|
687,129
|
1,671
|
7
|
321,900
|
18,900
|
103619,610
|
6083,910
|
19,491
|
-0,591
|
0,349
|
0,038
|
8
|
356,500
|
7,600
|
127092,250
|
2709,400
|
21,332
|
-13,732
|
188,570
|
0,875
|
9
|
469,500
|
13,000
|
220430,250
|
6103,500
|
27,345
|
-14,345
|
205,779
|
0,914
|
10
|
782,900
|
50,000
|
612932,410
|
39145,000
|
44,022
|
5,978
|
35,741
|
0,381
|
Итого
|
2504,700
|
156,900
|
1163559,63
|
67831,390
|
156,900
|
0,000
|
1150,651
|
4,587
|
Средняя
|
250,47
|
15,690
|
|
|
|
|
|
45,9%
|
Сигма
|
231,56
|
16,337
|
|
|
|
|
|
-
|
Дисперсия,
D
|
53620,74
|
266,89
|
|
|
|
|
|
-
|
Δ=
|
5362074,210
|
-
|
-
|
-
|
-
|
-
|
-
|
-
|
Δа0=
|
12665223,41
|
2,362-----
|
|
|
|
|
|
|
Δа1=
|
285326,470
|
0,053-----
|
|
|
|
|
|
|
Расчёт определителя системы выполним по формуле:
10*1163559,63 - 2504,7*2504,7 =
5362074,21
Расчёт определителя свободного члена
уравнения выполним по формуле:
156,9*1163559,63 -67831,39*2504,7 =
=12665223,41
Расчёт определителя коэффициента
регрессии выполним по формуле:
10*1163559,63 -156,9*2504,7 =
285326,47.
Расчёт параметров уравнения
регрессии даёт следующие результаты:
; .
В конечном счёте, получаем
теоретическое уравнение регрессии следующего вида:
В уравнении коэффициент регрессии а1
= 0,053 означает, что при увеличении объема кредитов на 1 млн. руб. (от своей
средней) объём валового регионального продукта возрастёт на 0,053 млрд. руб.
(от своей средней).
Свободный член уравнения а0 =2,362
оценивает влияние прочих факторов, оказывающих воздействие на объём валового
регионального продукта.
Построение логарифмической функции
предполагает предварительное выполнение процедуры линеаризации исходных
переменных. В данном случае, для преобразования нелинейной функции в линейную
введём новую переменную , которая
линейно связана с результатом. Следовательно, для определения параметров модели
будут
использованы традиционные расчётные приёмы, основанные на значениях
определителей второго порядка. См. расчётную таблицу №4.
Таблица 4
№
|
|
|
|
|
|
|
|
|
А
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
1
|
10,500
|
2,351
|
2,000
|
5,529
|
4,703
|
-7,002
|
9,002
|
81,028
|
2
|
46,400
|
3,837
|
2,100
|
14,725
|
8,058
|
6,047
|
-3,947
|
15,577
|
3
|
60,300
|
4,099
|
5,100
|
16,805
|
20,907
|
8,348
|
-3,248
|
10,548
|
4
|
81,700
|
4,403
|
10,500
|
19,387
|
46,232
|
11,015
|
-0,515
|
0,265
|
5
|
96,400
|
4,569
|
4,300
|
20,871
|
19,645
|
12,468
|
-8,168
|
66,711
|
6
|
278,600
|
5,630
|
43,400
|
31,694
|
21,787
|
21,613
|
467,122
|
7
|
321,900
|
5,774
|
18,900
|
33,342
|
109,133
|
23,056
|
-4,156
|
17,269
|
8
|
356,500
|
5,876
|
7,600
|
34,531
|
44,660
|
23,952
|
-16,352
|
267,391
|
9
|
469,500
|
6,152
|
13,000
|
37,843
|
79,972
|
26,370
|
-13,370
|
178,754
|
10
|
782,900
|
6,663
|
50,000
|
44,396
|
333,150
|
30,860
|
19,140
|
366,337
|
Итого
|
2504,700
|
49,355
|
156,900
|
259,123
|
910,792
|
156,900
|
0,000
|
1471,001
|
Средняя
|
250,47
|
4,935
|
15,690
|
|
|
|
|
|
Сигма
|
231,56
|
1,246
|
16,337
|
|
|
|
|
-
|
D
|
53620,74
|
1,554
|
266,89
|
|
|
|
|
-
|
Δ=
|
155,351
|
-
|
-
|
-
|
-
|
-
|
-
|
-
|
Δа0=
|
-4295,410
|
-27,650-----
|
|
|
|
|
|
|
Δа1=
|
1364,183
|
8,781-----
|
|
|
|
|
|
|
Расчёт определителей второго порядка даёт
следующие результаты:
,351; а0=-4295,41; а1=1364,183.
Отсюда получаем параметры уравнения:
Полученное уравнение имеет вид:.
. Для оценки тесноты связи рассчитаем
линейный коэффициент парной корреляции:
Коэффициент корреляции, равный
0,7512, показывает, что выявлена средняя зависимость между объемом кредитов,
предоставленных предприятиям, организациям, банкам и физическим лицам и валовым
региональным продуктом за год. Коэффициент детерминации, равный 0,564,
устанавливает, что вариация объема валового регионального продукта на 56,4% из
100% предопределена вариацией объема кредитов для организаций; роль прочих
факторов, влияющих на валовой региональный продукт, определяется в 43,6%, что
является большой величиной.
Для оценки тесноты связи рассчитаем
также коэффициент:
Данный коэффициент Ylnx=0,6700,
показывает, что выявлена средняя по силе зависимость между прологарифмированным
объемом кредитов и валовым региональным продуктом. Квадрат этого коэффициента,
равный 0,449, устанавливает, что вариация объема валового регионального
продукта на 44,9% из 100% предопределена вариацией прологарифмированным объемом
кредитов, предоставленных организациям физическим лицам; роль прочих факторов,
влияющих на объем валового регионального продукта, определяется в 55,1%, что
является большой величиной.
. Для оценки статистической
надёжности выявленной зависимости ВРП от кредитов рассчитаем фактическое
значение F-критерия Фишера - Fфактич. и сравним его с табличным значением -
Fтабл. По результатам сравнения примем решения по нулевой гипотезе , то есть,
либо примем, либо отклоним её с вероятностью допустить ошибку, которая не
превысит 5% (или с уровнем значимости α=0,05).
В нашем случае, .
Фактическое значение критерия
показывает, что факторная вариация результата почти в 10 раз больше остаточной
вариации, сформировавшейся под влиянием случайных причин. Очевидно, что
подобные различия не могут быть случайными, а являются результатом
систематического взаимодействия ВРП и общей суммы кредитов. Для обоснованного
вывода сравним полученный результат с табличным значением критерия: при
степенях свободы d.f.1=k-1=1 и d.f.2=n-k=10-2=8 и уровне значимости α=0,05 (по приложению
1).
В силу того, что , нулевую
гипотезу о статистической незначимости выявленной зависимости ВРП от объемов
кредитов и её параметрах можно отклонить с фактической вероятностью допустить ошибку
значительно меньшей, чем традиционные 5%.
Для второго уравнения: рассчитаем
фактическое значение F-критерия Фишера - Fфактич. и сравним его с табличным
значением - Fтабл. По результатам сравнения примем решения по нулевой гипотезе , то есть,
либо примем, либо отклоним её с вероятностью допустить ошибку, которая не
превысит 5% (или с уровнем значимости α=0,05).
Вывод: сравним полученный результат
с табличным значением критерия: при степенях свободы d.f.1=k-1=1 и
d.f.2=n-k=10-2=8 и уровне значимости α=0,05 (по приложению 1).
В силу того, что , нулевую
гипотезу о статистической незначимости выявленной зависимости ВРП от
прологарифмированного объема кредитов и её параметрах можно отклонить с
фактической вероятностью допустить ошибку значительно меньшей, чем традиционные
5%
Оценочные показатели позволяют
сделать вывод, что линейно-логарифмическая функция описывает изучаемую связь
хуже, чем линейная модель: оценка тесноты выявленной связи η=0,6700 (сравните с
0,7512), Fфакт.=6,5 (против 10,4 для линейной модели), то есть возможности
использования для прогноза данной модели более ограничены.
Таким образом, можно придти к
выводу, что по сравнению с линейной моделью данное уравнение менее пригодно для
описания изучаемой связи.
Для линейного уравнения регрессии
рассчитаем теоретические значения (они приведены в таблице №3).
Рис. 2
Оценку качества модели дадим с
помощью скорректированной средней ошибки аппроксимации (по данным расчетной
таблицы №3):
.
В нашем случае, скорректированная
ошибка аппроксимации составляет 45,9%. Она указывает на невысокое качество
построенной линейной модели и ограничивает её использование для выполнения
точных прогнозных расчётов даже при условии сравнительно небольшого изменения
фактора X (относительно его среднего значения ).
Если предположить, что прогнозное
значение фактора () составит
1,023 от среднего уровня (), то есть
Xпрогнозн.=
1,037*Хср=1,037*250,47=259,737,
тогда прогнозное значение результата
сформируется на уровне:
Yпрогнозн.
=-2,362+0,053*259,737=16,1281 (млрд. руб.).
То есть, прирост фактора на 3,7% от
своего среднего значения приводит к приросту результата на 2,8 процента от его
среднего значения (.
Рассчитаем интегральную ошибку
прогноза - , которая
формируется как сумма двух ошибок: из ошибки прогноза как результата отклонения
прогноза от уравнения регрессии-и ошибки прогноза положения
регрессии -.
То есть, .
В нашем случае , где k-
число факторов в уравнении, которое в данной задаче равно 1. Тогда (млрд.
руб.).
Ошибка положения регрессии составит:
=
= = 0,068 (млрд. руб.).
Интегральная ошибка прогноза
составит:
= = 12,012 (млрд. руб.).
Предельная ошибка прогноза, которая
не будет превышена в 95% возможных реализаций прогноза, составит: =
2,31*12,012 = 27,748 ≈ 28,0 (млрд. руб.). Табличное значение t-критерия
для уровня значимости α=0,05
и
для степеней свободы n-k-1 = 10-1-1=8 составит 2,31. (См. табл. приложения 2).
Следовательно, ошибка большинства реализаций прогноза не превысит млрд. руб.
Это означает, что фактическая
реализация прогноза будет находиться в доверительном интервале . Верхняя
граница доверительного интервала составит
= 16,1 + 28,0 = 44,1 (млрд. руб.).
Нижняя граница доверительного
интервала составит:
= 16,1 - 28,0 = -11,9 (млрд. руб.).
Относительная величина различий
значений верхней и нижней границ составит:
= раз.
Это означает, что верхняя граница в
(-3,7) раз больше нижней границы, то есть точность выполненного прогноза весьма
невелика, но его надёжность на уровне 95% оценивается как высокая. Причиной
небольшой точности прогноза является повышенная ошибка аппроксимации. Здесь её
значение выходит за границу 5-7% из-за недостаточно высокой типичности линейной
регрессии, которая проявляется в присутствии единиц с высокой индивидуальной
ошибкой. Если удалить территории с предельно высокой ошибкой, тогда качество
линейной модели и точность прогноза по ней заметно повысятся.
Задача 2
Проводится анализ значений
социально-экономических показателей по территориям Северо-Западного
федерального округа РФ за 2000 год:- Инвестиции 2000 года в основной капитал,
млрд. руб.;- Среднегодовая численность занятых в экономике, млн. чел.;-
Среднегодовая стоимость основных фондов в экономике, млрд. руб.;-Инвестиции
1999 года в основной капитал, млрд. руб.
Требуется изучить влияние указанных
факторов на стоимость валового регионального продукта.
Предварительный анализ исходных
данных по 10 территориям выявил одну территорию (г. Санкт-Петербург) с
аномальными значениями признаков. Эта единица должна быть исключена из
дальнейшего анализа. Значения приводимых показателей рассчитаны без учёта
указанной аномальной единицы.
При обработке исходных данных
получены следующие значения:
А) - линейных коэффициентов парной
корреляции, средних и средних квадратических отклонений -σ: N=9.
|
Y
|
X1
|
X2
|
X3
|
Y
|
1
|
0,7813
|
0,8897
|
0,9114
|
X1
|
0,7813
|
1
|
0,7372
|
0,7959
|
X2
|
0,8897
|
0,7372
|
1
|
0,6998
|
X3
|
0,9114
|
0,7959
|
0,6998
|
1
|
Средняя
|
8,867
|
0,4652
|
121,2
|
4,992
|
5,19760,128748,193,183
|
|
|
|
|
Б) - коэффициентов частной корреляции
|
Y
|
X1
|
X2
|
X3
|
Y
|
1
|
-0,2830
|
0,8617
|
0,8729
|
X1
|
-0,2830
|
1
|
0,4466
|
0,5185
|
X2
|
0,8617
|
0,4466
|
1
|
-0,6838
|
X3
|
0,8729
|
0,5185
|
-0,6838
|
1
|
Задание:
. По значениям линейных коэффициентов парной и
частной корреляции выберите неколлинеарные факторы и рассчитайте для них
коэффициенты частной корреляции. Проведите окончательный отбор информативных
факторов во множественную регрессионную модель.
. Выполните расчёт бета коэффициентов и
постройте с их помощью уравнение множественной регрессии в стандартизованном
масштабе. Проанализируйте с помощью бета коэффициентов силу связи каждого
фактора с результатом и выявите сильно и слабо влияющие факторы.
3. По значениям коэффициентов
рассчитайте параметры уравнения в естественной форме (a1, a2 и a0).
Проанализируйте их значения. Сравнительную оценку силы связи факторов дайте с
помощью общих (средних) коэффициентов эластичности -.
. Оцените тесноту множественной
связи с помощью R и R2, а статистическую значимость уравнения и тесноту
выявленной связи - через F -критерий Фишера (для уровня значимости 0,05).
. Рассчитайте прогнозное значение
результата, предполагая, что прогнозные значения факторов составят 107,3
процента от их среднего уровня.
. Основные выводы оформите
аналитической запиской.
Решение.
Представленные в условии задачи
значения линейных коэффициентов парной корреляции позволяют установить, что
инвестиции 2000 г. в основной капитал - Y более тесно связаны инвестициями 1999
года в основной капитал - X3 () и среднегодовой стоимостью
основных фондов - X2 (); наименее
тесно результат Y связан со среднегодовой численностью занятых в экономике -
X1. Поэтому, в силу небольшой информативности фактора X1, предполагаем, что его
можно исключить из дальнейшего анализа.
Проверим наши предположения с
помощью анализа матрицы коэффициентов частной корреляции. Очевидно, что
наиболее тесная связь результата Y с инвестициями 1999 г. в основной капитал (), средняя
связь со среднегодовой стоимостью основных фондов в экономике (), и
наименее - со среднегодовой численностью занятых в экономике (). Поэтому
для уточнения окончательного вывода выполним расчёт серии коэффициентов частной
корреляции Y с двумя возможными комбинациями факторных признаков: для Y с X2 и
с X3, а также для Y c X1 и X3.
Расчёты частных коэффициентов
корреляции выполним по следующим формулам:
Как видим, факторы X2 и X3,
действительно, тесно связаны с результатом, а между собой практически
взаимодействуют слабее.
Расчёт аналогичных показателей по
следующей паре факторов приводит к иным результатам:
В данном случае, межфакторное
взаимодействие сравнимо с
теснотой связи инвестиций 2000 г. с инвестициями 1999 г. Таким образом, первая
из рассмотренных пар факторных признаков (X2 и X3) в большей мере отвечает
требованиям, предъявляемым МНК к исходным данным и, в частности, к отсутствию
межфакторного взаимодействия. Указанные обстоятельства позволяют использовать
X2 и X3 в качестве информативных факторов уравнения множественной регрессии.
При построении двухфакторной
регрессионной модели воспользуемся
для упрощения расчётов методом стандартизованных переменных. В этом случае,
исходное уравнение приобретает вид: . Выполним расчёт коэффициентов,
используя значения известных по условию линейных коэффициентов парной
корреляции.
;
;
В результате получено уравнение в
стандартизованном масштабе:
Параметры данного уравнения
представляют собой относительные оценки силы влияния каждого из факторов на
результат. При увеличении среднегодовой стоимости основных фондов на одну сигму
- (от своей
средней) инвестиции 2000 г. в основной капитал увеличатся на 0,494 своей сигмы
(); с
увеличением инвестиций 1999 г. в основной капитал на результат
увеличится на 0,566.Сравнивая
коэффициентов, определяем, какой из признаков влияет на результат сильнее, а
какой - слабее. В данном случае, увеличение объема инвестиции 2000 г. в
основной капитал происходит, прежде всего, под влиянием увеличения инвестиций 1999
г. в основной капитал и в меньшей степени - в результате увеличения средней
стоимости основных фондов.
Используя значения коэффициентов,
можно рассчитать параметров уравнения в естественной форме:
.
В конечном счёте, имеем уравнение:
.
По значениям коэффициентов регрессии
можно судить о том, на какую абсолютную величину изменяется результат при
изменении каждого фактора на единицу (от своей средней).
С увеличением стоимости основных
фондов на 1 млрд. руб. инвестиции 2000 г. в основной капитал увеличиваются на
0,053 млрд. руб., с увеличением инвестиций 1999 г. в основной капитал на 1
млрд. руб. инвестиции 2000 г. возрастут на 0,924 млрд. руб.
Но так как признаки-факторы
измеряются в разных единицах, сравнивать значения их коэффициентов регрессии не
следует. Точную оценку силы связи факторов с результатом дают коэффициенты
эластичности и β
- коэффициенты.
Для сравнительной оценки силы связи
выполним расчёт средних коэффициентов эластичности. С их помощью можно
определить, на сколько процентов изменяется результат при изменении фактора на
1% (от своего среднего значения). В нашем случае, расчёт показал, что влияние
стоимости основных фондов на инвестиции 2000 г. в основной капитал оказалось
более сильным по сравнению с влиянием объема инвестиций 1999 г.: с ростом
стоимости основных фондов на 1% инвестиции 2000 г. увеличатся на 0,728%, а при
увеличении объема инвестиций 1999 г. на 1% инвестиции 2000 г. возрастут на
0,520%. Различия в силе влияния весьма значительны: второй фактор влияет на
результат сильнее, чем третий. Поэтому регулирование объема инвестиций 2000 г.
через стоимость основных фондов будет более результативным, чем через объем
инвестиций 1999 г.
; .
Тесноту выявленной зависимости
объема инвестиций 2000 г. в основной капитал от инвестиций 1999 г. и от
стоимости основных фондов оценивают множественный коэффициент корреляции и
детерминации. Расчёт коэффициента корреляции выполним, используя известные
значения линейных коэффициентов парной корреляции и β - коэффициентов.
В нашем случае 2-х факторной
зависимости расчёт строится следующим образом:
Как показали расчёты, установлена
весьма тесная зависимость объема инвестиций 2000 г. в основной капитал от
инвестиций 1999 г. и от стоимости основных фондов. Это означает, что 95,5%
вариации объема инвестиций 2000 г. определены вариацией данных факторов.
Оставшиеся 4,5% вариации результата сформировались под влиянием прочих причин,
роль которых незначительна.
Оценка статистической значимости или
надёжности установленной формы зависимости, её параметров, оценок её силы и
тесноты является важным этапом анализа результатов. Для выполнения оценки
формулируется нулевая гипотеза, которая рассматривает предположение о случайной
природе полученных результатов. То есть, .
Для проверки выдвинутой нулевой
гипотезы используется F-критерия Фишера. Его фактическое значение определяется,
исходя из соотношения факторной и останочной дисперсий и их степеней свободы:
d.f.1=k и d.f.2=n-k-1; где: n -число изучаемых единиц; k - число ограничений,
которые накладываются на исходные данные при расчёте данного показателя. Здесь
k равно числу факторов уравнения, то есть k=2.
.
В нашем случае, когда
рассматривается зависимость результата от двух факторов, расчёт выглядит
следующим образом:
.
Фактическое значение критерия
показывает, что детерминация, сформированная под воздействием двух изучаемых
факторов, почти в 64 раза больше, чем детерминация, связанная с действием
прочих причин. Очевидно, что подобное соотношение случайно сформироваться не
может, а является результатом влияния существенных, систематических факторов.
Для принятия обоснованного решения
Fфактич. сравнивается с Fтабличн., которое формируется случайно и зависит
степеней свободы факторной (d.f.1 = k) и остаточной (d.f.2 = n-k-1) дисперсий,
а также от уровня значимости α=0,05. В нашем примере, где d.f.1=k= 2 и
d.f.2=n-k-1 = 9-2-1=6 при α=0,05 Fтабл = 5,14 (см. табл. приложения
1). В силу того, что Fфактич =63,7 > Fтабл. = 5,14, можно с высокой степенью
надёжности отклонить нулевую гипотезу, а в качестве альтернативы - согласиться
с утверждением, что проверяемые параметры множественной регрессионной модели
неслучайны, что коэффициенты уравнения и показатели тесноты связи не являются
случайными величинами.
. Техническая часть прогнозных
расчётов по уравнению множественной регрессии сравнительно проста. Достаточно
определить прогнозные значения каждого факторного признака , подставить
их в уравнение и выполнить с ними расчёт прогнозного значения результата - . При этом
следует помнить, что требования к точности и надёжности прогноза предъявляют к
используемой модели повышенные требования. В нашем случае, прогнозное значение
каждого из факторов, то есть и , получено на основе средней
величины:
.
.
После подстановки в уравнение
получаем следующий результат:
(млрд. руб.)
Если стоимость основных фондов
составит 130,047 млрд. руб., а инвестиции 1999 г. в основной капитал возрастут
до 5,356 млрд. руб., тогда следует ожидать, что инвестиции 2000 г. в основной
капитал составят 9,675 млрд. руб., то есть увеличится на 9,1% от своего
среднего уровня.
Задача 3
Данные о стоимости экспорта () и импорта
() Туниса,
млрд. $, приводятся за период с 1990 по 2000 г. В уровнях рядов выявлены
линейные тренды:
для экспорта - , а для
импорта -
По указанным трендам произведено
выравнивание каждого ряда, то есть рассчитаны теоретические значения их
уровней: и .
Годы
|
Экспорт
()Импорт
()
|
|
|
М
факт.
|
=
G
факт..
|
|
|
1990
|
3,53
|
3,53
|
5,54
|
5,41
|
1991
|
3,70
|
3,80
|
5,19
|
5,76
|
1992
|
4,02
|
4,07
|
6,43
|
6,11
|
1993
|
3,80
|
4,34
|
6,21
|
6,46
|
1994
|
4,66
|
4,61
|
6,58
|
6,81
|
1995
|
5,48
|
4,88
|
7,90
|
7,16
|
1996
|
5,52
|
5,16
|
7,75
|
7,51
|
1997
|
5,56
|
5,43
|
7,91
|
7,86
|
1998
|
5,74
|
5,70
|
8,35
|
8,21
|
1999
|
5,87
|
5,97
|
8,47
|
8,56
|
2000
|
5,85
|
6,24
|
8,56
|
8,91
|
Предварительная обработка исходной информации
привела к следующим результатам:
|
Mt
|
Gt
|
T
|
Mt
|
1
|
0,9751
|
0,9445
|
Gt
|
0,9751
|
1
|
0,9546
|
t
|
0,9445
|
0,9546
|
1
|
Итого
|
53,73
|
78,89
|
66
|
Средняя
|
4,88
|
7,17
|
6,0
|
0,9081,1613,162
|
|
|
|
Задание:
1. Для изучения связи рядов
рассчитайте отклонения фактических значений каждого ряда от теоретических ( );
. Для оценки тесноты связи
рассчитайте: 1) линейный коэффициент парной корреляции отклонений от линии
тренда: ; 2) уровней
рядов: и 3)
коэффициент частной корреляции уровней: ; поясните их значения, укажите
причины различий значений парных коэффициентов корреляции (пп. 1 и 2) и
схожести коэффициентов парной корреляции отклонений и частной корреляции
уровней (пп. 1 и 3);
. Постройте уравнение множественной
регрессии с участием временной составляющей:
. Проанализируйте полученные
результаты.
Решение.
. Изучение связи рядов выполним
двумя способами, сравним их результаты и выберем из них правильный. Для оценки
тесноты связи рядов через величины отклонений от оптимального тренда рассчитаем
значения отклонений: и
Таблица 5
Годы
|
|
|
|
|
|
|
|
|
1990
|
3,53
|
3,53
|
5,54
|
5,41
|
0
|
0,13
|
0,000
|
0,000
|
0,017
|
1991
|
3,7
|
3,8
|
5,19
|
5,76
|
-0,1
|
-0,57
|
0,057
|
0,010
|
0,325
|
1992
|
4,02
|
4,07
|
6,43
|
6,11
|
-0,05
|
0,32
|
-0,016
|
0,003
|
0,102
|
1993
|
3,8
|
4,34
|
6,21
|
6,46
|
-0,54
|
-0,25
|
0,135
|
0,292
|
0,063
|
1994
|
4,66
|
4,61
|
6,58
|
6,81
|
0,05
|
-0,23
|
-0,011
|
0,002
|
0,053
|
1995
|
5,48
|
4,88
|
7,9
|
7,16
|
0,6
|
0,74
|
0,444
|
0,360
|
0,548
|
1996
|
5,52
|
5,16
|
7,75
|
7,51
|
0,36
|
0,24
|
0,086
|
0,130
|
0,058
|
1997
|
5,56
|
5,43
|
7,91
|
7,86
|
0,13
|
0,05
|
0,006
|
0,017
|
0,002
|
1998
|
5,74
|
5,7
|
8,35
|
8,21
|
0,04
|
0,14
|
0,006
|
0,002
|
0,020
|
1999
|
5,87
|
5,97
|
8,47
|
8,56
|
-0,1
|
-0,09
|
0,009
|
0,010
|
0,008
|
2000
|
5,85
|
6,24
|
8,56
|
8,91
|
-0,39
|
-0,35
|
0,137
|
0,152
|
0,123
|
Итого
|
53,73
|
|
78,89
|
|
0
|
0,13
|
0,8525
|
0,9768
|
1,3175
|
Средняя
|
4,885
|
|
7,172
|
|
0,000
|
0,012
|
|
0,089
|
0,120
|
Сигма
|
0,908
|
|
1,161
|
|
0,298
|
0,346
|
|
|
|
D
|
0,824
|
|
1,348
|
|
0,089
|
0,120
|
|
|
|
надежность регрессия уравнение ряд
Выполним расчёт коэффициента
корреляции отклонений от трендов через коэффициент регрессии отклонений с1, и . Но для
этого предварительно рассчитаем определители второго порядка по уравнению
регрессии отклонений: .
В силу того, что свободный член
уравнения регрессии отклонений равен нулю, вид уравнения будет отличаться от
традиционного:. С изменением
отлонений импорта от своего тренда на единицу отклонения экспорта от своего
тренда изменятся в том же направлении на 0,6478 части своей единицы. В
дальнейшем коэффициент с1 используется для расчёта показателей тесноты связи
двух рядов отклонений:
;
Выявлена средняя связь отклонений от
трендов, которая означает, что на 56,5% вариация размеров отклонений по импорту
детерминирует изменения по экспорту, а на 43,5% вариация размеров отклонений
происходит под влиянием прочих факторов.
Второй вариант оценки связи двух
рядов основан на традиционной оценке корреляции их уровней:
.
Данный подход к решению задачи
предполагает традиционный расчёт определителей уравнения регрессии уровней,
нахождение коэффициента регрессии а1 и далее с помощью и расчёт
коэффициента корреляции. Информация для расчёта представлена в табл. 2.
Расчёт определителей дал следующие
результаты:
Значения параметров регрессии:; , а
уравнение имеет вид:
.
Коэффициенты тесноты связи уровней
составят:; . Это
значит, что в уровнях существует весьма тесная связь, при которой вариации
импорта предопределяет 95,1% вариации экспорта.
Таблица 6
Годы
|
|
|
|
|
|
1990
|
3,53
|
5,54
|
12,461
|
30,692
|
19,556
|
1991
|
3,7
|
5,19
|
13,690
|
26,936
|
19,203
|
1992
|
4,02
|
6,43
|
16,160
|
41,345
|
25,849
|
1993
|
3,8
|
6,21
|
14,440
|
38,564
|
23,598
|
1994
|
4,66
|
6,58
|
21,716
|
43,296
|
30,663
|
1995
|
5,48
|
7,9
|
30,030
|
62,410
|
43,292
|
1996
|
5,52
|
7,75
|
30,470
|
60,063
|
42,780
|
1997
|
5,56
|
7,91
|
30,914
|
62,568
|
43,980
|
1998
|
5,74
|
8,35
|
32,948
|
69,723
|
47,929
|
1999
|
5,87
|
8,47
|
34,457
|
71,741
|
49,719
|
2000
|
5,85
|
8,56
|
34,223
|
73,274
|
50,076
|
Итого
|
53,73
|
78,89
|
271,508
|
580,611
|
396,644
|
Средняя
|
4,885
|
7,172
|
|
|
|
Сигма
|
0,908
|
1,161
|
|
|
|
D
|
0,824
|
1,348
|
|
|
|
.Однако, делать подобный вывод было бы глубоко
ошибочно потому, что в уровнях и одного, и другого рядов выявлены устойчивые,
статистически значимые линейные тренды. В подобных условиях выявленное
взаимодействие уровней не является причинной зависимостью, а представляет собой
ложную связь, вызванную наличием трендов схожей линейной формы. В силу того,
что оба тренда сформированы под влиянием разного комплекса факторов, схожесть
их формы могут создавать иллюзию связи рядов. Подобные соображения позволяют
отказаться от результатов изучения связи уровней, содержащих тренд. В подобной
ситуации пристального внимания заслуживает связь случайных отклонений от
трендов. Именно этот подход позволяет выявить и количественно оценить истинную
связь рядов.
В действительности связь рядов существует,
оценивается она как тесная; то есть, в ней экспорт на 95,1% детерминирован
вариацией импорта.
Фактический F-критерий равен 174.
Это больше табличного (F табл.=5,12), что доказывает надёжность и значимость
истинной связи рядов.
. Для формализованного представления
подобных зависимостей и использования моделей связи динамических рядов в прогнозных
расчётах предлагается построить множественную регрессионную модель связи рядов,
включая в неё в качестве обязательной составляющей фактор времени t. Речь идёт
о построении модели следующего вида: . В данной задаче в уровнях обоих
рядов присутствует линейный тренд. Поэтому включение в модель фактора времени
позволит через коэффициент а2 отразить наличие линейного тренда в уровнях обоих
рядов. Если в уровнях рядов представлены тренды иной, более сложной формы,
тогда уравнение множественной регрессии должно через фактор времени отразить
эту более сложную форму трендов.
Истинную силу и направление связи
рядов отразит коэффициент регрессии а1 , а тесноту их связи оценит частный
коэффициент корреляции: .
Используем для расчёта параметров
множественной регрессии матрицу парных коэффициентов корреляции, представленную
в исходных данных.
Для построения уравнения в
стандартизованном масштабе: рассчитаем значения -коэффициентов:
Получено следующее уравнение: .
Его параметры позволяют сделать вывод
о том, что влияния импорта на экспорт почти в пять с половиной раза сильнее,
чем влияние систематических факторов, формирующих линейный тренд:
По значениям -коэффициентов
рассчитаем параметры множественной регрессии в естественной форме:
;
.
Уравнение имеет вид:. С
увеличением импорта на 1 млрд. $ экспорт увеличивается на 0,648 млрд.$; под
влиянием комплекса систематических факторов (которые условно обозначили через
t) экспорт увеличивается в среднем за год на 0,044 млрд. $.
Оценку тесноты связи рядов,
очищенную от влияния комплекса систематических факторов, даёт частный
коэффициент корреляции:
; .
Как видим, получены результаты,
совпадающие с оценками тесноты связи по отклонениям от лучших трендов,
которыми, в данном случае, являются линейные тренды.
Использование динамической модели в
прогнозе заключается в подстановке в её правую часть прогнозных значений
фактора G и фактора t. То есть,