Изучение характера связи между признаками двух случайных величин

Вид работы:

Дипломная (ВКР)
Предмет:

Математика
Язык:

Русский
,
Формат файла:
MS Word

730,36 kb
Опубликовано:

2011-05-03

Все дипломные работы по математике

Скачать дипломную работу Читать текст online Заказать дипломную
*Помощь в написании! Посмотреть все дипломные работы

Вы можете узнать стоимость помощи в написании студенческой работы.

Изучение характера связи между признаками двух случайных величин

Курсовая работа

на тему:

"Изучение характера зависимости между признаками двух случайных величин"

Постановка задачи

Даны 100 пар чисел: , i=1…N, N=100.

Значения Х показывают, насколько экологическая обстановка в некоторых регионах благоприятна для постоянного проживания там людей. (Предполагается, что каждое значение - некоторый коэффициент, полученный при анализе данных экологической обстановки).

Величина Х отражает интенсивность миграции населения некоторых регионов: объём оттока населения из них.

Задачей данной курсовой работы является изучение характера зависимости от . Для этого необходимо:

. В виде точечной диаграммы (в программе Excel) изобразить на плоскости точки .

. С помощью метода наименьших квадратов определить числа a, b такие, что прямая наименее отклоняется от точек в среднем квадратичном.

. Методом наименьших квадратов определить значения p, q, r такие, что парабола Y=pXІ + qX + r наименее отклоняется от точек в среднем квадратичном.

. Сравнить результаты, полученные в пунктах 2 и 3.

. При помощи сравнения статистик

, , ,

где , N - объём выборки,

Ответить на следующие вопросы:

1) Подтвердилась ли гипотеза о том, что зависимость между и близка к линейной?

) Подтвердилась ли гипотеза о том, что зависимость между и близка к квадратичной?

) Какая из двух кривых - прямая или парабола - меньше отклоняется от точек выборки?

Построение диаграммы рассеивания

Диаграмма рассеивания - это точки на плоскости, координаты которых соответствуют значениям случайных величин X и Y. Дана выборка i=1…100.

X	Y	X	Y	X	Y	X	Y
87,308	214,714	93,664	219,296	66,085	245,922	71,267	238,541
55,861	249,938	50,755	250,667	72,935	226,812	54,46	239,428
79,724	235,462	69,653	240,745	52,28	230,868	60,271	251,586
65,084	268,649	70,174	247,605	71,364	239,148	80,536	221,786
66,354	244,699	82,958	236,012	86,156	198,226	52,285	265,597
78,156	84,218	219,783	59,303	250,319	83,583	231,816
68,521	219,405	64,936	256,197	61,438	258,219	99,62	204,694
86,856	220,46	68,881	253,868	62,737	220,327	83,541	221,682
78,778	244,139	74,841	239,003	79,079	249,419	75,672	244,184
65,656	239,856	61,796	240,113	57,464	244,057	75,866	244,728
57,046	239,339	85,365	226,336	87,739	232,597	75,324	231,957
74,529	228,691	80,538	229,377	56,03	253,703	81,578	238,906
87,452	222,019	53,787	238,315	73,897	257,941	99,948	214,454
98,764	201,342	63,673	256,137	86,835	216,257	57,721	255,17	192,852	73,369	234,791	79,34	222,482	98,89	191,078
93,88	202,638	56,711	247,006	95,336	195,444	73,809	250,012
92,188	223,564	82,378	238,909	75,849	235,017	60,436	229,246
61,017	233,448	59,134	242,45	86,343	230,156	84,78	231,591
55,648	250,085	86,193	219,392	97,716	208,284	90,164	208,865
85,429	214,42	88,102	214,766	51,609	242,306	76,519	226,327
52,177	262,115	63,116	244,499	51,657	254,059	77,641	231,861
84,003	252,601	96,407	206,273	69,235	236,439	89,475	228,704
81,373	228,098	76,614	241,409	50,317	247,928	82,73
53,469	254,71	91,662	211,786	73,496	235,474	99,642	212,535
97,208	212,94	96,449	214,481	82,442	229,419	81,985	237,391

Чтобы построить диаграмму рассеивания нужно отформатировать шкалу делений по оси абсцисс и ординат. Для нахождения соответствующего масштаба найдём

50,317, 99,948

191,078, 268,649

Размах выборки по X и Y определяется

|max X - min X | = 49,631

|max Y - min Y| = 77,412

Построим диаграмму рассеивания X и Y.

Диаграмма рассеивания наглядно демонстрирует, что (по большей части) чем лучше состояние окружающей среды того или иного региона, тем меньше отток населения из него.

Теперь вычислим выборочные параметры: выборочные средние , выборочные дисперсии средние квадратические отклонения и найдём выборочный коэффициент корреляции по формуле

Выборочные средние значения:

Выборочные дисперсии:

Средние квадратические отклонения:

Рассчитываем коэффициент корреляции:

Так как ближе к 1, чем к 0, можно сделать вывод о том, что зависимость между X и Y достаточно тесная.

Нахождение коэффициентов и построение графика линейного приближения

Величины X и Y могут быть функционально зависимы, но по результатам измерений значений этих величин сложно установить вид фактической зависимости. Метод наименьших квадратов - один из важнейших способов оценки неизвестных величин по результатам измерений, содержащим случайные ошибки и нахождения зависимости между X и Y. Суть метода в том, что условием оценки является минимизация суммы квадратов отклонений выборочных данных от определяемой оценки.

Вычислим сумму квадратов отклонений точек прямой от выборочных значений Y:

Необходимо взять такие A и B, чтобы F (A, B) достигала своего минимума как функция переменных А и В.

Минимум функции двух переменных должен удовлетворять необходимому и достаточному условию существования минимума. Необходимое условие экстремума функции нескольких переменных - равенство нулю частных производных первого порядка. Получаем систему уравнений:

Раскроем скобки и получим следующее:

Введём замену:

, , , = d, N=100. Получим:

Из этой линейной системы уравнений найдём А и В методом Гаусса, выполнив некоторые преобразования: А = -0,9337; В = 303,2533. Получим стационарную точку (-0,9337; 303,2533) для F (A; B).

Следующий шаг - проверка того, что в найденной точке выполняется достаточное условие минимума: второй дифференциал функции F (A; B) в точке (-0,9337; 303,2533) должен представлять собой строго положительную квадратичную форму. Для этого достаточно, чтобы существовали вторые частные производные функции F (A; B) по всем переменным, и величины в точке (-0,9337; 303,2533).

Найдём вторые частные производные функции F (A; B) и .

Так как то в точке (-0,9337; 303,2533) минимум функции F (A; B). Поэтому уравнение прямой принимает вид: Y=-0,9337X+303,2533.

Построим график линейной регрессии.

Теперь определим коэффициент линейной регрессии . .

Можно применить это для вычисления коэффициента корреляции r:

плоскость координата график квадратичный

Как видно, это значение практически совпадает с тем, что мы вычислили ранее.

Нахождение коэффициентов и построение графика квадратичного приближения

Для нахождения формулы y = pxІ + qx + r построим функцию среднеквадратичного отклонения F (p, q, r) = .

Найдём точку минимума функции трёх переменных F (p, q, r), которая находится среди стационарных точек этой функции (по необходимому условию минимума). Система для нахождения стационарных точек:

Произведём замену:

Перейдём к системе вида:

Теперь, используя достаточное условие, покажем, что функция F (p, q, r) имеет в этой точке минимум. Для этого выписываем второй дифференциал функции F (p, q, r).

Найдём значения вторых частных производных в точке ():

Теперь необходимо доказать, что полученная квадратичная форма положительно определена:

Воспользуемся для этого критерием Сильвестра. Его суть заключается в том, что для того, чтобы квадратичная форма была положительно определённой, необходимо и достаточно, чтобы все главные миноры матрицы этой формы были положительны.

Так как

>0.

Следовательно, уравнение квадратичной регрессии имеет вид

Построим график квадратичной регрессии

Графическое сопоставление линейной и квадратичной зависимостей

Построим на одном графике заданные точки, графики линейного и квадратичного приближений.

Нахождение статистик и их анализ

Используя следующие формулы, вычисляем статистики :

, , ,

Где , N - объём выборки,

Сравним статистики:

Показатели (1) и (2) характеризуют процент уменьшения статистик и относительно статистики , которую можно назвать базовой, а показатель (3) - процент уменьшения статистики относительно .

Можно сделать следующие выводы:

) Гипотеза о том, что зависимость между и близка к линейной, подтвердилась, так как .

) Гипотеза о том, что зависимость между и близка к квадратичной, также подтвердилась, так как .

) Однако, сравнив статистики, получаем, что . Отсюда следует, что параболическое приближение - наиболее точное.

) Коэффициент корреляции, равный -0,783, показывает, что связь между величинами Х и Y довольно тесная, как это и было видно на диаграмме рассеивания: за исключением отдельных точек, при улучшении состояния окружающей среды (увеличении Х) наблюдается тенденция уменьшения оттока населения из некоторых регионов в другие (уменьшение Y). Те самые отдельные точки - регионы, в которых объём эмиграционных потоков не столь явно связан с экологией.

Изучение характера связи между признаками двух случайных величин

Изучение характера связи между признаками двух случайных величин

Похожие работы на - Изучение характера связи между признаками двух случайных величин