Построение модели множественной линейной регрессии

Вид работы:

Курсовая работа (т)
Предмет:

Менеджмент
Язык:

Русский
,
Формат файла:
MS Word

141,25 Кб
Опубликовано:

2015-06-24

Скачать курсовую работу Читать текст online Заказать курсовую
*Помощь в написании! Посмотреть все курсовые работы

Вы можете узнать стоимость помощи в написании студенческой работы.

Построение модели множественной линейной регрессии

Задание

Имеются данные о деятельности крупнейших компаний США - чистом доходе (Y, млрд. долл.), численности служащих (Х₁, тыс. чел.) и использованном капитале (Х₂, млрд. долл.):

Задание:

1. Оцените распределение переменной Х₁:

· определите вид переменной по типу измерения;

· постройте статистический ряд и гистограмму, опишите закон распределения переменной;

· определите ожидаемое значение переменной и средний разброс ее значений;

· сделайте вывод об ожидаемом значении данного показателя в генеральной совокупности с 95%-ной вероятностью;

· определите, можно ли признать имеющийся набор данных нормально распределенным; укажите, как можно устранить существующие проблемы в наборе данных.

2. Исследуйте корреляционную зависимость между переменными У и Х₁ (переменная Y подчиняется нормальному распределению):

· выберите и рассчитайте числовой показатель взаимосвязи между переменными, сделайте вывод о силе и направлении связи между ними;

· проверьте сделанные выводы с помощью поля корреляции;

· предложите одну или несколько математических функций, наиболее соответствующих зависимости между переменными.

3. Произведите моделирование взаимосвязи между переменными У и Х₁ с помощью линейной функции:

· постройте с помощью метода наименьших квадратов линейное уравнение регрессии Ŷ = b₀ + b₁ · X₁;

· приведите интерпретацию каждого из коэффициентов регрессии;

· проверьте качество построенной модели при уровне значимости 0,05;

· проверьте наличие автокорреляции остатков графическим методом и с помощью критерия Дарбина-Уотсона при уровне значимости 0,01;

· проверьте наличие гетероскедастичности графическим методом и с помощью теста ранговой корреляции при уровне значимости 0,1;

· сделайте вывод, можно ли использовать линейную модель для прогнозирования. Совпадают ли ваши выводы с предположениями, сделанными в п. 2?

4. Произведите моделирование взаимосвязи между переменными с помощью множественной линейной регрессии Ŷ = b₀ + b₁ Х₁ + b₂ Х₂.

5. Проверьте качество новой модели при том же уровне значимости, а также наличие автокорреляции остатков. Как можно объяснить изменения показателей?

. Если необходима дальнейшая корректировка модели, внесите предложения по изменению спецификации.

. Сравните качество построенных моделей. Какая из моделей, на ваш взгляд, предпочтительнее для выражения исследуемой зависимости и почему?

Рассчитайте 99%-ные доверительные интервалы для теоретических коэффициентов наилучшей регрессии. Сделайте выводы.

8. По наилучшей регрессионной модели рассчитайте точечный прогноз среднего значения чистого дохода при значениях численности служащих 100 тыс. чел. и стоимости использованного капитала 30 млрд. долл.

Содержание

1. Оценка распределения переменной Х1

2. Исследование корреляционной зависимости между переменными Х₁и У

. Моделирование взаимосвязи между переменными У и Х₁ с помощью линейной функции

. Моделирование взаимосвязи между переменными с помощью множественной линейной регрессии

. Проверка качества модели, построенной с помощью множественной регрессии

. Сравнение качества моделей, построенных с помощью линейной регрессии и множественной регрессии

7. Расчет точечного прогноза по заданным значениям

Список литературы

Приложение

1. Оценка распределения переменной Х1

переменная линейный регрессия прогноз

В набор данных в данной задаче входит две переменных Х1 (численность служащих, тыс. чел.) и Х2 (использованный капитал, млрд.руб.), поэтому данный набор данных является двумерным массивом. Так как последовательность записи наблюдаемых значений не важна, то набор данных является перекрестным набором. Переменные в наборе принимают числовые показатели, поэтому являются количественными дискретными переменными.

Для того чтобы найти закон распределения случайной величины и построить гистограмму, произведем группировку значений случайной величины по интервалам, найдем частоту попадания величин с эти интервалы, а далее - определим середину каждого из интервалов и вероятность попадания в указанные нами интервалы. Данные действия необходимы, так как при построении гистограммы по оси абсцисс откладываются средние значения в интервалах, по оси ординат - вероятности попадания в интервал. Построив график, мы найдем закон распределения переменной. Количество интервалов и их ширину подберем самостоятельно таким образом, чтобы построенная на основе закона распределения гистограмма была наглядной.

Исходные данные

Упорядочим значения численности служащих (Х1, тыс.чел.) по возрастанию.

Из данных видно, что минимальное значение численности служащих равно 4,1 тыс.чел., максимальное - 745 тыс.чел. Ширина равных интервалов группировки рассчитывается по формуле:

(1)

где: X_max - максимальное значение переменной; X_min - минимальное значение переменной; n - число групп.

Количество интервалов примем равным 6. Границы интервалов определяются путем прибавления величины шага к значению предыдущей границы. Рассчитаем ширину равных интервалов группировки:

тыс.чел.

Частота попадания значений случайной величины в соответствующие интервалы определяется с помощью встроенной функции MS Excel ЧСТРОК, т.к. ее удобно использовать для подсчета частоты попадания значений в определенный интервал: ЧСТРОК (диапазон ячеек)

Построим закон распределения случайной величины Х1 (численность служащих). Рассчитаем вероятность попадания каждого значения в интервал.

Для наглядности расчеты сведем в таблицу 1.

Таблица 1. Расчет вероятности попадания каждого значения в интервал.

Строим гистограмму с помощью Мастера диаграмм MS Excel (закон распределения случайной величины), при этом по оси абсцисс откладываем средние значения в интервале, по оси ординат - вероятность попадания в интервал (рис.1).

Рисунок 1 - Закон распределения случайной величины

Определим ожидаемое значение переменной и средний разброс ее значений. Для определения ожидаемого значения переменной найдем ее математическое ожидание.

Математическое ожидание - некоторое число, которое характеризует типичное значение случайной величины. Оно рассчитывается по формуле:

(2)

Математическое ожидание можно рассчитать с помощью встроенной функции Excel - СРЗНАЧ (диапазон ячеек).

m= 115,4520 тыс.чел.

Для определения среднего разброса значения переменной найдем ее среднее квадратичное отклонение.

Среднее квадратичное отклонение - некоторое число, которое показывает, на сколько в среднем конкретные значения случайной величины отличаются от математического ожидания. Оно рассчитывается по формуле:

(3)

Среднее квадратичное отклонение можно рассчитать с помощью встроенной функции Excel - СТАНДОТКЛОН (диапазон ячеек).

σ= 148,7732 тыс.чел..

Сделаем вывод о наиболее типичном значении данного показателя в генеральной совокупности с 95%-ной уверенностью.

Имея информацию о выборке, можно приблизительно оценить, чему может быть равна ошибка оценивания - разность между выборочным средним и математическим ожиданием генеральной совокупности. Такой оценкой является стандартная ошибка, которая рассчитывается по формуле:

(4)

где: S - выборочное среднее квадратичное отклонение; n - объем выборки.

Рассчитаем стандартную ошибку:

тыс.чел.

По таблице распределения Стьюдента определим значение критический точки. В таблице распределения Стьюдента используется величина α = 1 - γ, которая называется уровнем значимости и показывает, каков процент ошибки, т.е. процент того, что значение параметра генеральной совокупности окажется за пределами доверительного интервала.

В нашем случае уровень значимости α=1-0,95=0,05 при ν=n-1=25-1=24. Встроенная формула Excel для нахождения критической точки: =СТЬЮДРАСПОБР(0,05;24)

t_кр= 2,0639

Доверительный интервал - интервал вокруг математического ожидания случайной величины, имеющей нормальное распределение и ширину 4 средних квадратичных отклонения. Границы доверительного интервала находятся по формуле: от (m - tкр · S_х) до (m + tкр · S_х) (5)

Тогда нижняя граница доверительного интервала:

,4520 - 2,0639 ^. 29,7546 = 54,0414 тыс.чел.

верхняя граница доверительного интервала:

,4520 + 2,0639 ^. 29,7546 = 176,8626 тыс.чел.

Вывод: можно быть на 95% уверенными, что значение средней численности служащих лежит в пределах от 54,0414 тыс.чел. до 176,8626 тыс.чел.

Определим, можно ли признать имеющийся набор данных нормально распределенным. Построенная гистограмма не соответствует нормальному распределению, т.к. по определению нормальное распределение - это непрерывное распределение, имеющее графическое представление в виде симметричной колоколообразной кривой. Форма кривой нормального распределения зависит от значений числовых характеристик распределения - математического ожидания и среднего квадратичного отклонения.

Значение математического ожидания влияет на сдвиг кривой вдоль оси: вершина кривой всегда расположена над математическим ожиданием. Значение среднего квадратичного отклонения влияет на степень растяжения кривой вверх и в стороны. Наш набор данных имеет асимметрическое распределение. Чтобы привести данные к нормальному виду, можно применить логарифмирование или увеличить количество данных.

. Исследование корреляционной зависимости между переменными Х₁и У

Так как переменная Х1 не подчиняется нормальному закону распределения, то для характеристики взаимосвязи будем использовать коэффициент ранговой корреляции. Построим поле корреляции.

Рисунок 2 - Поле корреляции

На поле корреляции заметна положительная корреляционная зависимость (с увеличением Х увеличивается Y). Точки на поле корреляции сгруппированы вокруг линии, направленной вверх и вправо, но имеют значительный разброс, следовательно, можно сделать предварительный вывод: между переменными Х и Y наблюдается слабая линейная зависимость.

Определим вид переменных Х и Y по типу измерения:

численность служащих (Х) - количественная дискретная переменная;

чистый доход (Y) - количественная дискретная переменная.

Так как обе переменные являются количественными, но одна из переменных (Х) не подчиняется нормальному распределению исходя из выводов, сделанных выше, для оценки силы корреляционной зависимости используем коэффициент ранговой корреляции Спирмена:

(6)

гдеd - разность между рангами значений переменных Х и Y;

n - объем выборки (число наблюдаемых пар значений в наборе данных).

Рангом (R) называется порядковый номер, который присваивается каждому наблюдаемому значению переменной после упорядочивания. Расчеты сведем в таблицу 2.

Таблица 2. Расчет коэффициента ранговой корреляции

= 0,36538462

По таблице 3 дадим интерпретацию полученному коэффициенту ранговой корреляции.

Таблица 3 - Интерпретация коэффициента ранговой корреляции

Коэффициент корреляции равен 0,365, что по таблице 3 можно интерпретировать следующим образом: прямая связь средней силы. Точки на поле корреляции сгруппированы вокруг прямой или кривой линии, направленной вверх и вправо, но имеют некоторый разброс, что соответствует выводу, сделанному по полу корреляции.

Для проверки гипотезы о значимости коэффициента ранговой корреляции используется критерий:

(7)

который подчинен распределению Стьюдента с числом степеней свободы n = n-2.

По таблице распределения Стьюдента необходимо определим критическую точку для двустороннего уровня значимости α:

α = 0,05n = 10-2 = 23_кр(α ; n) = t_кр(0,05; 23)= 2,06866.

Так как Т=1,8825< t_кр=2,06866, то критерий Тпопадает область принятия гипотезы, значит, принимается нулевая гипотеза, т.е. коэффициент корреляции в генеральной совокупности незначим.

. Моделирование взаимосвязи между переменными У и Х₁ с помощью линейной функции

Произведем моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции.

Линейный регрессионный анализ позволяет предсказывать одну переменную на основании другой с использованием прямой линии, характеризующей взаимосвязь между этими переменными: Ŷ = b₀ + b₁ · X

Переменную, поведение которой прогнозируют, называют результирующей переменной (Y); переменную, которая используется для прогнозирования, - фактором (Х₁). Коэффициенты b₀ и b₁ называются коэффициентами регрессии.

Угловой коэффициент b₁ показывает наклон линии регрессии, или изменение результирующего показателя Y при изменении фактора Х на единицу. Свободный член b₀ показывает сдвиг линии регрессии по вертикальной оси, т.е. определяет значение результирующего показателя Y при нулевом значении фактора Х.

С помощью метода наименьших квадратов строится уравнение регрессии, которое характеризуется наименьшей суммой квадратов отклонений реальных точек наблюдений от линии регрессии.

Метод наименьших квадратов использует следующие формулы для расчета коэффициентов регрессии:

(6)

(7)

Все необходимые промежуточные расчеты сведем в таблицу 4.

Также для расчета коэффициентов уравнения линейной линейной регрессии и показателей его качества может использоваться режим работы "Регрессия". Результаты, полученные с помощью данного режима, представлены в приложении А.

Таблица 4. Промежуточные расчеты для вычисления коэффициентов регрессии

№ п/п	x	y	x*y	х²
1	43	0,9	38,7	1849
2	64,7	1,7	109,99	4186,09
3	24	0,7	16,8	576
4	50,2	1,7	85,34	2520,04
5	106	2,6	275,6	11236
6	96,6	1,3	125,58	9331,56
7	347	4,1	1422,7	120409
8	85,6	1,6	136,96	7327,36
9	745	6,9	5140,5	555025
10	4,1	0,4	1,64	16,81
11	56,8	1,3	73,84	3226,24
12	42,7	1,9	81,13	1823,29
13	61,8	1,9	117,42	3819,24
14	212	1,4	296,8	44944
15	105	0,4	42	11025
16	33,5	0,8	26,8	1122,25
17	142	1,8	255,6	20164
18	96	0,9	86,4	9216
19	140	1,1	154	19600
20	59,3	1,9	112,67	3516,49
21	131	-0,9	-117,9	17161
22	70,7	1,3	91,91	4998,49
23	65,4	2	130,8	4277,16
24	23,1	0,6	13,86	533,61
25	80,8	0,7	56,56	6528,64
Среднее значение:	115,4520	1,56	351,028	34577,2908
s	148,7732	1,4393
s²	22133,4751	2,0717

Тогда линейное уравнение регрессии будет иметь вид:

Ŷ = 0,6313 + 0,00804 · X1

Приведем интерпретацию каждого из коэффициентов уравнения регрессии. Угловой коэффициент регрессии (коэффициент наклона) показывает, что если Х1 увеличивается на одну единицу, то У возрастает на 0,00804 единицы, т.е. при возрастании численности служащих на 1 тыс.чел., чистый доход У увеличивается на 0,00804 млрд.долл.

Свободный член уравнения регрессии показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов. Свободный член регрессии дает прогнозируемое значение У, если Х1 равен 0. То есть при численности служащих в 0 чел., чистый доход составит 0,6313 млрд.руб.

Проверим качество построенной модели при уровне значимости 0,05. Если существует значимая линейная взаимосвязь между фактором и результирующим показателем, построенное уравнение регрессии будет адекватно данным генеральной совокупности. Таким образом, проверка адекватности уравнения сводится к проверке значимости линейной взаимосвязи между переменными.

Проверить значимость линейной взаимосвязи можно несколькими способами:

1) проверить значимость углового коэффициента регрессии;

2) проверить значимость коэффициента детерминации.

Оба способа основаны на методе проверки статистических гипотез.

Для проверки углового коэффициента используется критерий Стьюдента:

(8)

гдеb₁ - эмпирический угловой коэффициент регрессии;

S_b₁ - стандартная ошибка углового коэффициента регрессии, которая

определяется по формуле:

(9)

гдеSе² и Sе - остаточная дисперсия и стандартная ошибка регрессии соответственно;

Sх - среднее квадратичное отклонение переменной Х.

=0,00112

Критерий t_b₁ имеет распределение Стьюдента с числом степеней свободы n = n - 2 = 25 - 2 =23

7,1774

Найдем табличный критерий Стьюдента для уровня значимости 0,05. Для этого используем функцию =СТЬЮДРАСПОБР(0,05;23)

2,06866

= 7,1774 > 2,06866,

то есть значение критерия t_b₁ попадает в одну из критических областей. Вывод:

1) угловой коэффициент признается значимым;

2) существует значимая линейная связь между фактором и результирующим показателем;

) построенное уравнение адекватно данным генеральной совокупности.

Проверим значимость свободного члена регрессии.

(10)

где b₀ - эмпирический свободный член регрессии;

S_b₀ - стандартная ошибка свободного члена регрессии, которая определяется по формуле:

(11)

0,20841

= 3,02912 > 2,06866, то есть значение критерия t_b₀ попадает в одну из критических областей, то есть значение свободного члена генеральной совокупности значимо.

Определим коэффициент детерминации по формуле:

(12)

где S_y² - дисперсия переменной Y. S_y² = 2,071667

Коэффициент детерминации показывает, какую долю вариации (разброса) результирующего показателя Y можно объяснить с помощью фактора Х. Он может принимать значения от 0 до 1. Чем ближе коэффициент детерминации к 1, тем большая доля вариации результирующего показателя объясняется действием фактора Х, т.е. тем точнее осуществляется предсказание по уравнению регрессии. Промежуточные расчеты сведем в таблицу 5.

Таблица 5. Промежуточные расчеты для вычисления коэффициента детерминации

№	x	y	e=-yе²
1	43	0,9	0,97701	0,07701	0,00593054
2	64,7	1,7	1,151478	-0,548522	0,30087638
3	24	0,7	0,82425	0,12425	0,01543806
4	50,2	1,7	1,034898	-0,665102	0,44236067
5	106	2,6	1,48353	-1,11647	1,24650526
6	96,6	1,3	1,407954	0,107954	0,01165407
7	4,1	3,42117	-0,67883	0,46081017
8	85,6	1,6	1,319514	-0,280486	0,0786724
9	745	6,9	6,62109	-0,27891	0,07779079
10	4,1	0,4	0,664254	0,264254	0,06983018
11	56,8	1,3	1,087962	-0,212038	0,04496011
12	42,7	1,9	0,974598	-0,925402	0,85636886
13	61,8	1,9	1,128162	-0,771838	0,5957339
14	212	1,4	2,33577	0,93577	0,87566549
15	105	0,4	1,47549	1,07549	1,15667874
16	33,5	0,8	0,90063	0,10063	0,0101264
17	142	1,8	1,77297	-0,02703	0,00073062
18	96	0,9	1,40313	0,50313	0,2531398
19	140	1,1	1,75689	0,65689	0,43150447
20	59,3	1,9	1,108062	-0,791938	0,6271658
21	131	-0,9	1,68453	2,58453	6,67979532
22	70,7	1,3	1,199718	-0,100282	0,01005648
23	65,4	2	1,157106	-0,842894	0,7104703
24	23,1	0,6	0,817014	0,217014	0,04709508
25	80,8	0,7	1,280922	0,580922	0,33747037
				Сумма	15,3468302

Значение коэффициента детерминации R² = 0,69134 показывает, что 69% вариации результирующего показателя объясняется с помощью уравнения регрессии (действием фактора Х), а 31% - случайностью.

Проверим статистическую значимость уравнения с помощью критерия Фишера.

(13)

Табличное значение критерия рассчитаем как =FРАСПОБР(0,05;1;23).

> , значение критерия F попадает в критическую область, выводы оказываются следующими:

1) коэффициент детерминации признается значимым;

2) существует значимая линейная связь между фактором и результирующим показателем;

) построенное уравнение адекватно данным генеральной совокупности.

Построим линию регрессии на поле корреляции (рис.4).

Рисунок 4 - Линия регрессии на поле корреляции

Проверим наличие автокорреляции остатков графическим методом и с помощью критерия Дарбина-Уотсона при уровне значимости 0,01.

Одной из предпосылок МНК является независимость между собой значений случайных отклонений. Если присутствует корреляция между ними, то говорят о наличии автокорреляции остатков. Автокорреляцией остатков называется зависимость между значениями случайных отклонений, упорядоченными по значениям фактора Х.

Наиболее наглядный способ проверки состоит в построении диагностической диаграммы: поля корреляции между случайными отклонениями (ошибками прогнозирования) е_i и прогнозируемыми значениями результирующего показателя ŷ_i.Значения случайного отклонения откладываются по вертикальной оси, прогнозируемые значения результирующего показателя - по горизонтальной оси (рис.5).

При анализе диагностической диаграммы можно сделать следующий вывод: между точками на поле взаимосвязи не наблюдается, диаграмма представляет собой облако из точек, расположенных хаотично и неупорядоченно, следовательно, автокорреляция остатков отсутствует, значит, предпосылки МНК выполняются.

Рисунок 5 - Диагностическая диаграмма к определению автокорреляции.

Проверим наличие автокорреляции с помощью критерия Дарбина-Уотсона при уровне значимости 0,01. Упорядочим случайные отклонения по возрастанию значений фактора Х и составим вспомогательную таблицу 6.

Таблица 6. Промежуточные расчеты критерия Дарбина-Уотсона

x	y	y1	e_i	e_i²	e_i-1	e_i- e_i-1	(e_i- e_i-1)²
4,1	0,4	0,664269	-0,264269	0,069838131
23,1	0,6	0,817108	-0,217108	0,047135748	-0,264269	0,0471614	0,00222419
24	0,7	0,824347	-0,124347	0,015462279	-0,2171077	0,0927603	0,00860447
33,5	0,8	0,900767	-0,100767	0,010153934	-0,1243474	0,0235807	0,00055605
42,7	1,9	0,974773	0,925227	0,856045353	-0,1007667	1,0259939	1,05266353
43	0,9	0,977186	-0,077186	0,005957687	0,9252272	-1,002413	1,00483231
50,2	1,7	1,035104	0,664896	0,442086889	-0,0771861	0,7420822	0,55068599
56,8	1,3	1,088195	0,211805	0,044861287	0,6648961	-0,453091	0,20529174
59,3	1,9	1,108306	0,791694	0,626780158	0,2118048	0,5798897	0,33627201
61,8	1,9	1,128416	0,771584	0,595342082	0,7916945	-0,02011	0,00040443
64,7	1,7	1,151744	0,548256	0,30058479	0,7715841	-0,223328	0,0498754
65,4	2	1,157375	0,842625	0,710017292	0,5482561	0,2943691	0,08665317
70,7	1,3	1,200009	0,099991	0,009998261	0,8426252	-0,742634	0,55150516
80,8	0,7	1,281255	-0,581255	0,337856794	0,0999913	-0,681246	0,46409584
85,6	1,6	1,319866	0,280134	0,078474852	-0,5812545	0,8613881	0,74198952
96	0,9	1,403525	-0,503525	0,253537839	0,2801336	-0,783659	0,6141215
96,6	1,3	1,408352	-0,108352	0,011740133	-0,5035254	0,3951735	0,15616211
105	0,4	1,475923	-1,075923	1,157609572	-0,1083519	-0,967571	0,93619319
106	2,6	1,483967	1,116033	1,245530105	-1,0759227	2,1919559	4,8046705
131	-0,9	1,68507	-2,58507	6,682588306	1,1160332	-3,701103	13,6981669
140	1,1	1,757468	-0,657468	0,432263541	-2,5850703	1,9276028	3,71565236
142	1,8	1,773556	0,026444	0,000699296	-0,6574675	0,6839117	0,46773524
212	1,4	2,336646	-0,936646	0,877304827	0,0264442	-0,96309	0,92754181
347	4,1	3,422604	0,677396	0,458864983	-0,9366455	1,6140413	2,60512917
745	6,9	6,624172	0,275828	0,076081345	0,6773957	-0,401567	0,16125627
				15,34681548		33,1422829

Критерий Дарбина - Уотсона рассчитывается по формуле:

(14)

Для определения критических точек воспользуемся таблицей критических точек Дарбина-Уотсона: при уровне значимости a = 0,01, одной независимой переменной m=1, и числе наблюдений n=25, d_l = 1,033 и d_u = 1,211.

Так как d_u < DW < 4 - d_u (1,033 < 2,160 < 2,789), то можно сделать вывод, что автокорреляция отсутствует.

Проверим наличие гетероскедастичности графическим методом и с помощью теста ранговой корреляции при уровне значимости 0,1 (рис.6).

На диагностической диаграмме заметно увеличение дисперсии при увеличении значений фактора, т. е. можно сделать вывод о наличии гетероскедастичности в построенной регрессионной модели.

Рисунок 6 - Диагностическая диаграмма к определению гетероскедастичности.

Проверим наличие гетероскедастичности в регрессионной модели с помощью теста ранговой корреляции Спирмена. Суть теста ранговой корреляции сводится к оценке коэффициента корреляции между рангами переменной Х и модуля случайных отклонений е.

Ранг - это место данного числового значения среди упорядоченных значений анализируемого показателя.

Коэффициент ранговой корреляции находится по формуле:

(15)

Вспомогательные расчеты оформим в виде таблицы 7.

Проверка правильности составления матрицы на основе исчисления контрольной суммы:

Сумма по столбцам матрицы равны между собой и контрольной суммы, значит, матрица составлена правильно.

Рассчитаем коэффициент ранговой корреляции:

Вывод: между фактором Х и случайными отклонениями е имеется взаимосвязь слабой силы.

Таблица 7. Вспомогательные расчеты к тесту ранговой корреляции

x	y	R(x_i)	e_i		R(e_i)	d_i	d_i²
43	0,9	6	-0,077186	0,0771861	2	4	16
64,7	1,7	11	0,5482561	0,5482561	13	-2	4
24	0,7	3	-0,124347	0,1243474	6	-3	9
50,2	1,7	7	0,6648961	0,6648961	16	-9	81
106	2,6	19	1,1160332	1,1160332	24	-5	25
96,6	1,3	17	-0,108352	0,1083519	5	12	144
347	4,1	24	0,6773957	0,6773957	17	7	49
85,6	1,6	15	0,2801336	0,2801336	11	4	16
745	6,9	25	0,2758285	0,2758285	10	15	225
4,1	0,4	1	-0,264269	0,264269	9	-8	64
56,8	1,3	8	0,2118048	0,2118048	7	1	1
42,7	1,9	5	0,9252272	0,9252272	21	-16	256
61,8	1,9	10	0,7715841	0,7715841	18	-8	64
212	1,4	23	-0,936646	0,9366455	22	1	1
105	0,4	18	-1,075923	1,0759227	23	-5	25
33,5	0,8	4	-0,100767	0,1007667	4	0	0
142	1,8	22	0,0264442	0,0264442	1	21	441
96	0,9	16	-0,503525	0,5035254	12	4	16
140	1,1	21	-0,657468	0,6574675	15	6	36
59,3	1,9	9	0,7916945	0,7916945	19	-10	100
131	-0,9	20	-2,58507	2,5850703	25	-5	25
70,7	1,3	13	0,0999913	0,0999913	3	10	100
65,4	2	12	0,8426252	0,8426252	20	-8	64
23,1	0,6	2	-0,217108	0,2171077	8	-6	36
80,8	0,7	14	-0,581255	0,5812545	14	0	0
		325			325	0	1798

Проверим значимость коэффициента ранговой корреляции при уровне значимости 0,01:

Н₀: r_x_,_e = 0 - коэффициент ранговой корреляции незначим,

Н₁: r_x_,_e ≠ 0 - коэффициент ранговой корреляции значим.

Рассчитаем наблюдаемое значение критерия Стьюдента.

Критическое значение критерия Стьюдента при уровне значимости a = 0,1 и числе степеней свободы ν = n - 2 =25 - 2 =23, = 1,7139. Коэффициент ранговой корреляции признается незначимым, так как наблюдаемое значение Т = 1,5552 меньше чем критическое значение = 1,7139. Зависимость между фактором Х и случайными отклонениями е отсутствует, т.е. наблюдается гомоскедастичность.

4. Моделирование взаимосвязи между переменными с помощью множественной линейной регрессии

Прогнозирование одной переменной Y на основании нескольких факторов Х₁, Х₂ и т.д. называется множественной регрессией. Уравнение множественной линейной регрессии для данной задачи выглядит следующим образом:

Ŷ = b₀ + b₁ · X₁ + b₂ · X₂ (16)

Угловые коэффициенты b₁, b₂ для каждого фактора показывают изменение результирующего показателя Y при изменении данного фактора Х на единицу при условии, что все остальные факторы остаются неизменными. Свободный член b₀ показывает значение результирующего показателя Y при нулевых значениях всех факторов.

Чаще всего для определения коэффициентов уравнения регрессии используется метод наименьших квадратов, который минимизирует сумму квадратов отклонений реальных точек наблюдений от линии регрессии. Вычисление коэффициентов множественной регрессии произведем с помощью функции ЛИНЕЙН, которая дает параметры линейного приближения по методу наименьших квадратов.

ЛИНЕЙН (известные_значения_у; известные_значения_х; константа; статистика)

Результат:

Рассчитывает массив данных, описывающих уравнение линейной регрессии на основе метода наименьших квадратов.

Аргументы:

- известные_значения_у: диапазон значений результирующего показателя Y;

известные_значения_х: диапазон значений факторов (одновременно выделяются все столбцы, содержащие значения факторов);

константа: логическое значение: если оно равно 0, свободный член b₀ равен 0;

если оно равно 1, то b₀ вычисляется обычным образом.

статистика: логическое значение:

если оно равно 0, то функция рассчитывает только коэффициенты регрессии;

если оно равно 1, то функция рассчитывает дополнительную регрессионную статистику.

Полученный результат представлен в таблице 8.

Таблица 8. Результат расчета с помощью функции ЛИНЕЙН

b₀	0,51383517	Sb₀	0,1982011
b₁	0,00565112	Sb₁	0,0014665
b₂	0,02407261	Sb₂	0,0105045
R²	0,75081808	Se	0,750434
F	33,1444541	n	22
ssоб	37,3306747	ssост	12,389325

Уравнение регрессии будет иметь вид:

Ŷ = 0,51384 + 0,00565 · X₁ + 0,02407 · X₂

Также для расчета коэффициентов уравнения множественной линейной регрессии и показателей его качества может использоваться режим работы "Регрессия". Результаты, полученные с помощью данного режима, представлены в приложении Б.

Дадим словесную интерпретацию коэффициентов уравнения регрессии. b₀ - свободный член. Показывает, что при нулевых значениях X₁ и X₂ значение результирующего показателя будет равно 0,51384. Коэффициент b₁ показывает, что при увеличении численности на 1 тыс.чел. чистый доход увеличится на 1 млрд.долл. при постоянном объеме использованного капитала, коэффициент b₂показывает, что при увеличении использованного капитала на 1 млрд.долл. чистый доход увеличится на 1 млрд.долл. при постоянной численности служащих.

5. Проверка качества модели, построенной с помощью множественной регрессии

Рассчитаем стандартную ошибку регрессии, которая для многомерных данных определяется следующим образом:

(17)

где m - число факторов Х.

Стандартная ошибка регрессии показывает величину, на которую в среднем отклоняются реальные наблюдаемые значения y_i от прогнозируемых по уравнению регрессии ŷ_i. Чем меньше величина стандартной ошибки регрессии, тем более точными окажутся прогнозы, выполненные на основании уравнения регрессии.

= 0,75043

Рассчитаем коэффициент детерминации. В случае множественной регрессии коэффициент детерминации показывает, какую долю разброса результирующего показателя Y можно объяснить с помощью используемых в уравнении регрессии m факторов. С увеличением коэффициента детерминации, точность прогнозирования по уравнению регрессии возрастает.

(18)

Это означает, что 75% вариации результирующего показателя объясняется с помощью уравнения регрессии(действием факторов х1 и х2), а 25% - случайностью.

Выводы, сделанные на основе стандартной ошибки регрессии или коэффициента детерминации, относятся лишь к эмпирическим данным. Каким бы качественным не было построенное уравнение по отношению к эмпирическим данным, может оказаться, что в генеральной совокупности связь между переменными отсутствует вовсе, и выявленная сильная линейная связь - просто случайность, основанная на случайно отобранной выборке.

Проверка адекватности эмпирического уравнения регрессии данным генеральной совокупности осуществляется с помощью проверки значимости коэффициента детерминации. Цель этой проверки заключается в том, чтобы выяснить, объясняет ли совместное влияние всех m факторов значительную долю разброса переменной Y.

Нулевая и альтернативная гипотезы формулируются следующим образом:

Н₀: R² = 0 - значение коэффициента детерминации незначимо, совместное влияние m факторов объясняет незначительную долю разброса переменной Y.

Н₁: R² > 0 - значение коэффициента детерминации значимо, совместное влияние m факторов объясняет значительную долю разброса переменной Y.

Для проверки используется критерий Фишера:

(19)

Критерий F имеет распределение Фишера с числами степеней свободы n₁ = m=2 и n₂ = n-m-1=22.

Найдем табличное значение критерия Фишера. Для этого воспользуемся функцией =FРАСПОБР(0,05;2;22). F_табл = 3,4433568.

Так как F_расч = 33,1444 > F_табл = 3,4433568, то значение критерия попадает в критическую область, т.е. мы отказываемся от нулевой гипотезы и принимаем альтернативную. Отсюда следуют выводы:

) коэффициент детерминации признается значимым;

) существует значимая линейная связь между факторами и результирующими показателями;

) построенное уравнение адекватно данным генеральной совокупности.

Поскольку регрессия оказалась значимой, то можно продолжить проверку качества уравнения регрессии, используя гипотезы о значимости коэффициентов регрессии.

Значимость коэффициента детерминации (значимость регрессии) показывает, что один или несколько (может быть и все) из используемых в уравнении m факторов вместе значимо влияют на результирующий показатель Y. При этом неизвестно, какие из факторов действительно влияют на результат, а какие нет.

Если выяснить, какие из используемых факторов не влияют на результат, их можно исключить из уравнения регрессии без снижения его качества. При этом уравнение может значительно упроститься, что существенно для его использования. Проверка значимости каждого из коэффициентов регрессии b_j показывает, насколько значимым является влияние соответствующего фактора Х_j на Y при условии, что все остальные факторы остаются неизменными.

Проверку значимости коэффициентов регрессии осуществим с помощью критерия Стьюдента. Проверка гипотезы о значимости любого из коэффициентов регрессии осуществляется следующим образом:

Н₀: b_j = 0 - значение теоретического коэффициента регрессии незначимо, фактор X_j не влияет на результирующий показатель.

Н₁: b_j ≠ 0 - значение теоретического коэффициента регрессии значимо, фактор X_j влияет на результирующий показатель.

Для проверки используется критерий Стьюдента:

(20)

Критерий t_bj имеет распределение Стьюдента с числом степеней свободы n = n-m-1.

) свободный член регрессии b₀= 0,51383517_.Стандартная ошибка регрессии Sb₀ = 0,1982011. Фактическое значение критерия Стьюдента

Найдем табличный критерий Стьюдента для уровня значимости 0,05. Для этого используем функцию =СТЬЮДРАСПОБР(0,05;22)

2,07387

= 2,5925 > 2,07387, то есть значение критерия попадает в одну из критических областей. Отсюда делаем вывод, что свободный член регрессии признается значимым.

) коэффициент регрессии b₁= 0,00565. Стандартная ошибка регрессии Sb₁ = 0,00147. Фактическое значение критерия Стьюдента

= 3,85353 > 2,07387, то есть значение критерия попадает в одну из критических областей. Отсюда делаем вывод, что коэффициент регрессии b₁ признается значимым.

) коэффициент регрессии b₂= 0,024073. Стандартная ошибка регрессии Sb₂ = 0,010504. Фактическое значение критерия Стьюдента

= 2,29165 > 2,07387, то есть значение критерия попадает в одну из критических областей. Отсюда делаем вывод, что коэффициент регрессии b₂ признается значимым.

Чтобы сравнить влияние различных факторов на результирующий показатель, следует сравнить коэффициенты корреляции между каждым из этих факторов и результирующим показателем r_Xj_,_Y. Для этого воспользуемся функцией =КОРРЕЛ(массив1;массив2).

Влияние фактора 1: коэффициент корреляции r_X_1,_Y = 0,8314657

Влияние фактора 2: коэффициент корреляции r_X_2,_Y = 0,7695045.

Для фактора Х1 коэффициент корреляции больше r_X_1,_Y = 0,8314657 > r_X_2,_Y = 0,7695045, поэтому фактор 1 (численность служащих) сильнее влияет на результирующий показатель (чистый доход).

Статистические выводы о качестве уравнения регрессии будут обоснованными только в том случае, если выполняются определенные условия относительно свойств случайного отклонения, называемые предпосылками метода наименьших квадратов (МНК). Если предпосылки МНК не выполняются, могут быть существенные проблемы с интерпретацией полученных выводов. Поэтому, построив уравнение регрессии, необходимо проверить выполнение этих условий.

Наиболее наглядный способ проверки состоит в построении диагностической диаграммы: поля корреляции между случайными отклонениями (ошибками прогнозирования) е_i и прогнозируемыми значениями результирующего показателя ŷ_i. Значения случайного отклонения откладываются по вертикальной оси, прогнозируемые значения результирующего показателя - по горизонтальной оси (рис.7).

Возможные варианты интерпретации структуры диагностической диаграммы приведены в таблице 9.

Таблица 9. Интерпретация диагностической диаграммы

Структура диагностической диаграммы	Интерпретация
Явная взаимосвязь отсутствует	Никаких проблем не обнаружено
Заметна линейная или нелинейная взаимосвязь - присутствует автокорреляция остатков, при этом одно или несколько значений могут резко отклоняться	По-видимому, данные связаны нелинейной связью. Качество уравнения можно повысить, воспользовавшись нелинейной регрессией или добавив в уравнение новую переменную
Дисперсия случайных отклонений различается для разных значений ŷ_i - присутствует гетероскедастичность	Прогнозы, сделанные на основании этого уравнения, недостаточно точны. Для улучшения качества уравнения необходимо устранить гетероскедастичность

По виду диагностической диаграммы можно сделать вывод: точки расположены хаотично, явная взаимосвязь отсутствует, поэтому никаких проблем не обнаружено.

Критерий Дарбина - Уотсона рассчитывается по формуле:

(14)

Для определения критических точек воспользуемся таблицей критических точек Дарбина-Уотсона: при уровне значимости a = 0,01, двух независимых переменных m=2, и числе наблюдений n=25, d_l = 0,981 и d_u = 1,303.

Так как d_u < DW < 4 - d_u (0,981 < 1,253 < 2,697), то можно сделать вывод, что автокорреляция отсутствует.

Таблица 10. Вспомогательные расчеты к вычислению критерия Дарбина-Уотсона

x1	х2	у	e_i	e_i²	e_i-1	e_i- e_i-1	(e_i- e_i-1)²
4,1	1,4	0,9	0,5707064	0,32929358	0,10843426
23,1	1,9	1,7	0,690114	1,009885977	1,01986969	0,32929358	0,6805924	0,463206
24	18,5	0,7	1,0948054	-0,39480536	0,15587127	1,00988598	-1,404691	1,973158
33,5	3,2	1,7	0,7801801	0,919819925	0,8460687	-0,3948054	1,3146253	1,72824
42,7	18,9	2,6	1,2101104	1,389889633	1,93179319	0,91981993	0,4700697	0,220966
43	18,9	1,3	1,2118057	0,088194297	0,00777823	1,38988963	-1,301695	1,694411
50,2	4,8	4,1	0,91307	3,186930029	10,156523	0,0881943	3,0987357	9,602163
56,8	8	1,6	1,0273997	0,572600278	0,32787108	3,18693003	-2,61433	6,83472
59,3	11,9	6,9	1,1354107	5,764589296	33,2304898	0,57260028	5,191989	26,95675
61,8	13,2	0,4	1,1808329	-0,7808329	0,60970002	5,7645893	-6,545422	42,84255
64,7	13,7	1,3	1,2092575	0,090742544	0,00823421	-0,7808329	0,8715754	0,759644
65,4	11,5	1,9	1,1602535	0,739746502	0,54722489	0,09074254	0,649004	0,421206
70,7	8,6	1,9	1,1203939	0,77960613	0,60778572	0,7397465	0,0398596	0,001589
80,8	5,8	1,4	1,1100669	0,289933117	0,08406121	0,77960613	-0,489673	0,23978
85,6	20,1	0,4	1,4814306	-1,081430589	1,16949212	0,28993312	-1,371364	1,880638
96	6,9	0,8	1,2224438	-0,422443793	0,17845876	-1,0814306	0,6589868	0,434264
96,6	5,8	1,8	1,1993546	0,600645405	0,3607749	-0,4224438	1,0230892	1,046712
105	12,2	0,9	1,4008887	-0,500888716	0,25088951	0,60064541	-1,101534	1,213377
106	21,8	1,1	1,6376369	-0,537636894	0,28905343	-0,5008887	-0,036748	0,00135
131	1,6	1,9	1,2926482	0,607351806	0,36887622	-0,5376369	1,1449887	1,310999
140	15	-0,9	1,6660813	-2,566081258	6,58477302	0,60735181	-3,173433	10,07068
142	13	1,3	1,6292383	-0,32923828	0,10839785	-2,5660813	2,236843	5,003467
212	12,6	2	2,0151877	-0,015187705	0,00023067	-0,3292383	0,3140506	0,098628
347	99	0,6	4,8579626	-4,257962553	18,1302451	-0,0151877	-4,242775	18,00114
745	60,6	0,7	6,1827205	-5,482720473	30,0602238	-4,2579626	-1,224758	1,500032
					107,143121			134,2997

6. Сравнение качества моделей, построенных с помощью линейной регрессии и множественной регрессии

Линейное уравнение регрессии имеет вид: Ŷ = 0,6313 + 0,00804 · X1. Здесь не учитывается влияние на результирующий показатель фактора Х2. Путем проверки качества построенной модели можно сделать следующие выводы:

) оба коэффициента уравнения регрессии значимы;

) существует значимая линейная связь между фактором и результирующим показателем;

) значение коэффициента детерминации признается значимым;

) построенное уравнение адекватно данным генеральной совокупности;

) в модели отсутствует автокорреляция остатков и присутствует гомоскедастичность.

6) Значение коэффициента детерминации R² = 0,69134 показывает, что 69% вариации результирующего показателя объясняется с помощью уравнения регрессии (действием фактора Х), а 31% - случайностью.

Уравнение множественной регрессии имеет вид:

Ŷ = 0,51384 + 0,00565 · X₁ +0,02407 · X₂

В данной модели учитывается влияние на результат обеих факторов.

Путем проверки качества построенной модели можно сделать следующие выводы:

) все коэффициенты уравнения регрессии значимы;

) значение коэффициента детерминации признается значимым;

) построенное уравнение адекватно данным генеральной совокупности;

) в модели отсутствует автокорреляция остатков.

5) Для фактора Х1 коэффициент корреляции больше r_X_1,_Y = 0,8314657 > r_X_2,_Y = 0,7695045, поэтому фактор 1 (численность служащих) сильнее влияет на результирующий показатель (чистый доход).

Значение коэффициента детерминации R² = 0,75082 показывает, что 75% вариации результирующего показателя объясняется с помощью уравнения регрессии(действием факторов х1 и х2), а 25% - случайностью.

Коэффициент детерминации показывает, какую долю вариации (разброса) результирующего показателя Y можно объяснить с помощью фактора Х. Он может принимать значения от 0 до 1. Чем ближе коэффициент детерминации к 1, тем большая доля вариации результирующего показателя объясняется действием фактора Х, т.е. тем точнее осуществляется предсказание по уравнению регрессии. Если сравнивать коэффициенты детерминации построенных моделей, то для модели множественной регрессии коэффициент детерминации больше.

² _множ= 0,75082 > R² _лин= 0,69134,

поэтому точнее осуществляется предсказание результирующего показателя по уравнению множественной регрессии.

Рассчитаем 99%-ные доверительные интервалы для теоретических коэффициентов множественной регрессии.

Для любого из коэффициентов доверительный интервал строится следующим образом:

(b - tкр · S_b; b + tкр · S_b) (15)

гдеb - эмпирический коэффициент регрессии

S_b - стандартная ошибка соответствующего коэффициента;

tкр - критическое (табличное) значение коэффициента Стьюдента, рассчитанное при числе степеней свободы n = n-2.

1) свободный член регрессии b₀= 0,5138_.Стандартная ошибка регрессии Sb₀ = 0,1982. Найдем табличный критерий Стьюдента для уровня значимости 0,01. Для этого используем функцию =СТЬЮДРАСПОБР(0,01;22)

2,8073. Доверительный интервал

нижняя граница 0,5138 - 2,8073 · 0,1982=-0,04258

верхняя граница 0,5138 + 2,8073 · 0,1982=1,070252

) коэффициент регрессии b₁= 0,00565. Стандартная ошибка регрессии Sb₁ = 0,00147. Доверительный интервал

нижняя граница 0,00565 - 2,8073 · 0,00147=0,001534

верхняя граница 0,00565 + 2,8073 · 0,00147=0,009768

) коэффициент регрессии b₂= 0,02407. Стандартная ошибка регрессии Sb₂ = 0,0105. Доверительный интервал

нижняя граница 0,02407 - 2,8073 · 0,0105= -0,00542

верхняя граница 0,02407 + 2,8073 · 0,0105= 0,053562

7. Расчет точечного прогноза по заданным значениям

По уравнению множественной регрессии

Ŷ = 0,51384 + 0,00565 · X₁ +0,02407 · X₂

как наилучшей модели, рассчитаем точечный прогноз среднего значения чистого дохода при значениях численности служащих 100 тыс. чел. и стоимости использованного капитала 30 млрд. долл.

Ŷ = 0,51384 + 0,00565 · 100 +0,02407 · 30

Ŷ = 1,8011 млрд.долл.

Список литературы

1. Е.Д.Саяпина. Задания и методические указания по выполнению курсовой работы по курсу "Эконометрика", Новомосковск, 2013

. Эконометрика. Книги 1 и 2. (Учебник) Носко В.П. (2011, 672с. и 576с.)

. Эконометрика. (Учебник) Под ред. Уткина В.Б. (2012, 564с.)

4. Эконометрика. (Учебно-метод. пособие) Шалабанов А.К., Роганов Д.А. (КазГУ; 2008, 198с.) <#"880379.files/image066.gif">

Приложение Б

Коэффициенты уравнения множественной регрессии и показателей его качества полученные с помощью режим работы "Регрессия"

Построение модели множественной линейной регрессии

Построение модели множественной линейной регрессии

Похожие работы на - Построение модели множественной линейной регрессии