Изучение характера связи между признаками двух случайных величин
Курсовая
работа
на
тему:
"Изучение
характера зависимости между признаками двух случайных величин"
Постановка задачи
Даны 100 пар чисел: , i=1…N, N=100.
Значения Х показывают,
насколько экологическая обстановка в некоторых регионах благоприятна для
постоянного проживания там людей. (Предполагается, что каждое значение -
некоторый коэффициент, полученный при анализе данных экологической обстановки).
Величина Х отражает
интенсивность миграции населения некоторых регионов: объём оттока населения из
них.
Задачей данной курсовой
работы является изучение характера зависимости от . Для этого необходимо:
. В виде точечной
диаграммы (в программе Excel)
изобразить на плоскости точки .
. С помощью
метода наименьших квадратов определить числа a, b такие, что прямая наименее отклоняется от
точек в
среднем квадратичном.
. Методом
наименьших квадратов определить значения p, q, r такие, что парабола Y=pXІ + qX + r наименее отклоняется от точек в среднем квадратичном.
. Сравнить
результаты, полученные в пунктах 2 и 3.
. При помощи
сравнения статистик
, , ,
где , N - объём выборки,
Ответить на следующие вопросы:
1) Подтвердилась ли
гипотеза о том, что зависимость между и близка к линейной?
) Подтвердилась
ли гипотеза о том, что зависимость между и близка к квадратичной?
) Какая из двух
кривых - прямая или парабола - меньше отклоняется от точек выборки?
Построение диаграммы
рассеивания
Диаграмма рассеивания -
это точки на плоскости, координаты которых соответствуют значениям случайных
величин X и Y. Дана выборка i=1…100.
X
|
Y
|
X
|
Y
|
X
|
Y
|
X
|
Y
|
87,308
|
214,714
|
93,664
|
219,296
|
66,085
|
245,922
|
71,267
|
238,541
|
55,861
|
249,938
|
50,755
|
250,667
|
72,935
|
226,812
|
54,46
|
239,428
|
79,724
|
235,462
|
69,653
|
240,745
|
52,28
|
230,868
|
60,271
|
251,586
|
65,084
|
268,649
|
70,174
|
247,605
|
71,364
|
239,148
|
80,536
|
221,786
|
66,354
|
244,699
|
82,958
|
236,012
|
86,156
|
198,226
|
52,285
|
265,597
|
78,156
|
84,218
|
219,783
|
59,303
|
250,319
|
83,583
|
231,816
|
68,521
|
219,405
|
64,936
|
256,197
|
61,438
|
258,219
|
99,62
|
204,694
|
86,856
|
220,46
|
68,881
|
253,868
|
62,737
|
220,327
|
83,541
|
221,682
|
78,778
|
244,139
|
74,841
|
239,003
|
79,079
|
249,419
|
75,672
|
244,184
|
65,656
|
239,856
|
61,796
|
240,113
|
57,464
|
244,057
|
75,866
|
244,728
|
57,046
|
239,339
|
85,365
|
226,336
|
87,739
|
232,597
|
75,324
|
231,957
|
74,529
|
228,691
|
80,538
|
229,377
|
56,03
|
253,703
|
81,578
|
238,906
|
87,452
|
222,019
|
53,787
|
238,315
|
73,897
|
257,941
|
99,948
|
214,454
|
98,764
|
201,342
|
63,673
|
256,137
|
86,835
|
216,257
|
57,721
|
255,17
|
192,852
|
73,369
|
234,791
|
79,34
|
222,482
|
98,89
|
191,078
|
93,88
|
202,638
|
56,711
|
247,006
|
95,336
|
195,444
|
73,809
|
250,012
|
92,188
|
223,564
|
82,378
|
238,909
|
75,849
|
235,017
|
60,436
|
229,246
|
61,017
|
233,448
|
59,134
|
242,45
|
86,343
|
230,156
|
84,78
|
231,591
|
55,648
|
250,085
|
86,193
|
219,392
|
97,716
|
208,284
|
90,164
|
208,865
|
85,429
|
214,42
|
88,102
|
214,766
|
51,609
|
242,306
|
76,519
|
226,327
|
52,177
|
262,115
|
63,116
|
244,499
|
51,657
|
254,059
|
77,641
|
231,861
|
84,003
|
252,601
|
96,407
|
206,273
|
69,235
|
236,439
|
89,475
|
228,704
|
81,373
|
228,098
|
76,614
|
241,409
|
50,317
|
247,928
|
82,73
|
53,469
|
254,71
|
91,662
|
211,786
|
73,496
|
235,474
|
99,642
|
212,535
|
97,208
|
212,94
|
96,449
|
214,481
|
82,442
|
229,419
|
81,985
|
237,391
|
Чтобы построить диаграмму
рассеивания нужно отформатировать шкалу делений по оси абсцисс и ординат. Для
нахождения соответствующего масштаба найдём
50,317, 99,948
191,078, 268,649
Размах выборки по X и Y
определяется
|max
X - min X | = 49,631
|max
Y - min Y| = 77,412
Построим диаграмму
рассеивания X и Y.
Диаграмма рассеивания
наглядно демонстрирует, что (по большей части) чем лучше состояние окружающей
среды того или иного региона, тем меньше отток населения из него.
Теперь вычислим
выборочные параметры: выборочные средние , выборочные дисперсии средние квадратические
отклонения и
найдём выборочный коэффициент корреляции по формуле
Выборочные средние
значения:
Выборочные дисперсии:
Средние квадратические
отклонения:
Рассчитываем коэффициент
корреляции:
Так как ближе к 1, чем к 0,
можно сделать вывод о том, что зависимость между X и Y достаточно тесная.
Нахождение коэффициентов
и построение графика линейного приближения
Величины X и Y могут быть
функционально зависимы, но по результатам измерений значений этих величин
сложно установить вид фактической зависимости. Метод наименьших квадратов -
один из важнейших способов оценки неизвестных величин по результатам измерений,
содержащим случайные ошибки и нахождения зависимости между X и Y. Суть метода в
том, что условием оценки является минимизация суммы квадратов отклонений
выборочных данных от определяемой оценки.
Вычислим сумму квадратов
отклонений точек прямой от выборочных значений
Y:
Необходимо взять такие A и B, чтобы F (A, B)
достигала своего минимума как функция переменных А и В.
Минимум функции двух
переменных должен удовлетворять необходимому и достаточному условию
существования минимума. Необходимое условие экстремума функции нескольких
переменных - равенство нулю частных производных первого порядка. Получаем
систему уравнений:
Раскроем скобки и
получим следующее:
Введём замену:
, , , = d, N=100. Получим:
Из этой линейной системы
уравнений найдём А и В методом Гаусса, выполнив некоторые преобразования: А =
-0,9337; В = 303,2533. Получим стационарную точку (-0,9337; 303,2533) для F (A;
B).
Следующий шаг - проверка
того, что в найденной точке выполняется достаточное условие минимума: второй
дифференциал функции F (A; B) в точке (-0,9337; 303,2533) должен представлять
собой строго положительную квадратичную форму. Для этого достаточно, чтобы
существовали вторые частные производные функции F (A; B) по всем переменным, и
величины в точке (-0,9337;
303,2533).
Найдём вторые частные
производные функции F (A; B) и .
.
Так как то в точке (-0,9337;
303,2533) минимум функции F (A; B). Поэтому уравнение прямой принимает вид: Y=-0,9337X+303,2533.
Построим график линейной
регрессии.
Теперь определим
коэффициент линейной регрессии . .
Можно применить это для
вычисления коэффициента корреляции r:
плоскость координата график
квадратичный
Как видно, это значение практически
совпадает с тем, что мы вычислили ранее.
Нахождение коэффициентов
и построение графика квадратичного приближения
Для нахождения формулы y = pxІ + qx
+ r построим функцию среднеквадратичного отклонения F (p, q, r) = .
Найдём точку минимума
функции трёх переменных F (p, q, r), которая находится среди стационарных точек
этой функции (по необходимому условию минимума). Система для нахождения
стационарных точек:
Произведём замену:
Перейдём к системе вида:
Теперь, используя
достаточное условие, покажем, что функция F (p, q, r) имеет в этой точке
минимум. Для этого выписываем второй дифференциал функции F (p, q, r).
++
Найдём значения вторых
частных производных в точке ():
Теперь необходимо
доказать, что полученная квадратичная форма положительно определена:
++
Воспользуемся для этого
критерием Сильвестра. Его суть заключается в том, что для того, чтобы
квадратичная форма была положительно определённой, необходимо и достаточно,
чтобы все главные миноры матрицы этой формы были положительны.
Так как
++
>0.
Следовательно, уравнение
квадратичной регрессии имеет вид
Y=
Построим график
квадратичной регрессии
Графическое
сопоставление линейной и квадратичной зависимостей
Построим на одном
графике заданные точки, графики линейного и квадратичного приближений.
Нахождение статистик и
их анализ
Используя следующие
формулы, вычисляем статистики :
, , ,
Где , N - объём выборки,
.
Сравним статистики:
Показатели (1) и (2)
характеризуют процент уменьшения статистик и относительно статистики , которую можно назвать
базовой, а показатель (3) - процент уменьшения статистики относительно .
Можно сделать следующие
выводы:
) Гипотеза о том,
что зависимость между и близка к линейной,
подтвердилась, так как .
) Гипотеза о том,
что зависимость между и близка к квадратичной,
также подтвердилась, так как .
) Однако, сравнив
статистики, получаем, что . Отсюда следует, что
параболическое приближение - наиболее точное.
) Коэффициент
корреляции, равный -0,783, показывает, что связь между величинами Х и Y довольно тесная, как это и было видно на диаграмме рассеивания:
за исключением отдельных точек, при улучшении состояния окружающей среды
(увеличении Х) наблюдается тенденция уменьшения оттока населения из некоторых
регионов в другие (уменьшение Y).
Те самые отдельные точки - регионы, в которых объём эмиграционных потоков не
столь явно связан с экологией.