Изучение характера связи между признаками двух случайных величин

  • Вид работы:
    Дипломная (ВКР)
  • Предмет:
    Математика
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    730,36 kb
  • Опубликовано:
    2011-05-03
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Изучение характера связи между признаками двух случайных величин















Курсовая работа

на тему:

"Изучение характера зависимости между признаками двух случайных величин"

Постановка задачи

Даны 100 пар чисел: , i=1…N, N=100.

Значения Х показывают, насколько экологическая обстановка в некоторых регионах благоприятна для постоянного проживания там людей. (Предполагается, что каждое значение - некоторый коэффициент, полученный при анализе данных экологической обстановки).

Величина Х отражает интенсивность миграции населения некоторых регионов: объём оттока населения из них.

Задачей данной курсовой работы является изучение характера зависимости  от . Для этого необходимо:

.        В виде точечной диаграммы (в программе Excel) изобразить на плоскости точки .

.        С помощью метода наименьших квадратов определить числа a, b такие, что прямая  наименее отклоняется от точек в среднем квадратичном.

.        Методом наименьших квадратов определить значения p, q, r такие, что парабола Y=pXІ + qX + r наименее отклоняется от точек в среднем квадратичном.

.        Сравнить результаты, полученные в пунктах 2 и 3.

.        При помощи сравнения статистик

, , ,

где , N - объём выборки,

Ответить на следующие вопросы:

1)      Подтвердилась ли гипотеза о том, что зависимость между  и  близка к линейной?

)        Подтвердилась ли гипотеза о том, что зависимость между  и  близка к квадратичной?

)        Какая из двух кривых - прямая или парабола - меньше отклоняется от точек выборки?

Построение диаграммы рассеивания

Диаграмма рассеивания - это точки на плоскости, координаты которых соответствуют значениям случайных величин X и Y. Дана выборка i=1…100.

X

Y

X

Y

X

Y

X

Y

87,308

214,714

93,664

219,296

66,085

245,922

71,267

238,541

55,861

249,938

50,755

250,667

72,935

226,812

54,46

239,428

79,724

235,462

69,653

240,745

52,28

230,868

60,271

251,586

65,084

268,649

70,174

247,605

71,364

239,148

80,536

221,786

66,354

244,699

82,958

236,012

86,156

198,226

52,285

265,597

78,156

84,218

219,783

59,303

250,319

83,583

231,816

68,521

219,405

64,936

256,197

61,438

258,219

99,62

204,694

86,856

220,46

68,881

253,868

62,737

220,327

83,541

221,682

78,778

244,139

74,841

239,003

79,079

249,419

75,672

244,184

65,656

239,856

61,796

240,113

57,464

244,057

75,866

244,728

57,046

239,339

85,365

226,336

87,739

232,597

75,324

231,957

74,529

228,691

80,538

229,377

56,03

253,703

81,578

238,906

87,452

222,019

53,787

238,315

73,897

257,941

99,948

214,454

98,764

201,342

63,673

256,137

86,835

216,257

57,721

255,17

192,852

73,369

234,791

79,34

222,482

98,89

191,078

93,88

202,638

56,711

247,006

95,336

195,444

73,809

250,012

92,188

223,564

82,378

238,909

75,849

235,017

60,436

229,246

61,017

233,448

59,134

242,45

86,343

230,156

84,78

231,591

55,648

250,085

86,193

219,392

97,716

208,284

90,164

208,865

85,429

214,42

88,102

214,766

51,609

242,306

76,519

226,327

52,177

262,115

63,116

244,499

51,657

254,059

77,641

231,861

84,003

252,601

96,407

206,273

69,235

236,439

89,475

228,704

81,373

228,098

76,614

241,409

50,317

247,928

82,73

53,469

254,71

91,662

211,786

73,496

235,474

99,642

212,535

97,208

212,94

96,449

214,481

82,442

229,419

81,985

237,391



Чтобы построить диаграмму рассеивания нужно отформатировать шкалу делений по оси абсцисс и ординат. Для нахождения соответствующего масштаба найдём

50,317, 99,948

191,078, 268,649

Размах выборки по X и Y определяется

|max X - min X | = 49,631

|max Y - min Y| = 77,412

Построим диаграмму рассеивания X и Y.


Диаграмма рассеивания наглядно демонстрирует, что (по большей части) чем лучше состояние окружающей среды того или иного региона, тем меньше отток населения из него.

Теперь вычислим выборочные параметры: выборочные средние , выборочные дисперсии  средние квадратические отклонения  и найдём выборочный коэффициент корреляции по формуле


Выборочные средние значения:

 


Выборочные дисперсии:



Средние квадратические отклонения:

 

Рассчитываем коэффициент корреляции:


Так как  ближе к 1, чем к 0, можно сделать вывод о том, что зависимость между X и Y достаточно тесная.

Нахождение коэффициентов и построение графика линейного приближения

Величины X и Y могут быть функционально зависимы, но по результатам измерений значений этих величин сложно установить вид фактической зависимости. Метод наименьших квадратов - один из важнейших способов оценки неизвестных величин по результатам измерений, содержащим случайные ошибки и нахождения зависимости между X и Y. Суть метода в том, что условием оценки является минимизация суммы квадратов отклонений выборочных данных от определяемой оценки.

Вычислим сумму квадратов отклонений точек прямой  от выборочных значений Y:


Необходимо взять такие A и B, чтобы F (A, B) достигала своего минимума как функция переменных А и В.

Минимум функции двух переменных должен удовлетворять необходимому и достаточному условию существования минимума. Необходимое условие экстремума функции нескольких переменных - равенство нулю частных производных первого порядка. Получаем систему уравнений:


Раскроем скобки и получим следующее:


Введём замену:

, , ,  = d, N=100. Получим:


Из этой линейной системы уравнений найдём А и В методом Гаусса, выполнив некоторые преобразования: А = -0,9337; В = 303,2533. Получим стационарную точку (-0,9337; 303,2533) для F (A; B).

Следующий шаг - проверка того, что в найденной точке выполняется достаточное условие минимума: второй дифференциал функции F (A; B) в точке (-0,9337; 303,2533) должен представлять собой строго положительную квадратичную форму. Для этого достаточно, чтобы существовали вторые частные производные функции F (A; B) по всем переменным, и величины  в точке (-0,9337; 303,2533).

Найдём вторые частные производные функции F (A; B) и .

.

Так как  то в точке (-0,9337; 303,2533) минимум функции F (A; B). Поэтому уравнение прямой принимает вид: Y=-0,9337X+303,2533.

Построим график линейной регрессии.


Теперь определим коэффициент линейной регрессии . .

Можно применить это для вычисления коэффициента корреляции r:

плоскость координата график квадратичный


Как видно, это значение практически совпадает с тем, что мы вычислили ранее.

Нахождение коэффициентов и построение графика квадратичного приближения

Для нахождения формулы y = pxІ + qx + r построим функцию среднеквадратичного отклонения F (p, q, r) = .

Найдём точку минимума функции трёх переменных F (p, q, r), которая находится среди стационарных точек этой функции (по необходимому условию минимума). Система для нахождения стационарных точек:


Произведём замену:


Перейдём к системе вида:



Теперь, используя достаточное условие, покажем, что функция F (p, q, r) имеет в этой точке минимум. Для этого выписываем второй дифференциал функции F (p, q, r).

++


Найдём значения вторых частных производных в точке ():


Теперь необходимо доказать, что полученная квадратичная форма положительно определена:

++



Воспользуемся для этого критерием Сильвестра. Его суть заключается в том, что для того, чтобы квадратичная форма была положительно определённой, необходимо и достаточно, чтобы все главные миноры матрицы этой формы были положительны.


Так как


++

>0.

Следовательно, уравнение квадратичной регрессии имеет вид

Y=

Построим график квадратичной регрессии


Графическое сопоставление линейной и квадратичной зависимостей

Построим на одном графике заданные точки, графики линейного и квадратичного приближений.


Нахождение статистик и их анализ

Используя следующие формулы, вычисляем статистики :

, , ,

Где , N - объём выборки,

.

Сравним статистики:


Показатели (1) и (2) характеризуют процент уменьшения статистик  и относительно статистики , которую можно назвать базовой, а показатель (3) - процент уменьшения статистики  относительно .

Можно сделать следующие выводы:

)        Гипотеза о том, что зависимость между  и  близка к линейной, подтвердилась, так как .

)        Гипотеза о том, что зависимость между  и  близка к квадратичной, также подтвердилась, так как .

)        Однако, сравнив статистики, получаем, что . Отсюда следует, что параболическое приближение - наиболее точное.

)        Коэффициент корреляции, равный -0,783, показывает, что связь между величинами Х и Y довольно тесная, как это и было видно на диаграмме рассеивания: за исключением отдельных точек, при улучшении состояния окружающей среды (увеличении Х) наблюдается тенденция уменьшения оттока населения из некоторых регионов в другие (уменьшение Y). Те самые отдельные точки - регионы, в которых объём эмиграционных потоков не столь явно связан с экологией.


Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!