Вирусные заболевания приматов
Статистическая основа
принятия решений
1. Выборки к генеральной совокупности: оценка параметра и построение
доверительных интервалов
Сформировать практические навыки постановки и реализации
статистического процесса для поддержки менеджерского решения. Освоить способы
сбора, обработки, анализа и визуализации статистической информации на практике.
Научиться соотносить управленческие задачи с массивами данных. Сформировать
навыки статистического анализа в Excel.
Для выполнения проекта, я выбрал данные, отражающих рейтинг
районов Москвы по стоимости квартир в марте 2010 года
Район
|
Цена в марте
2010 года (долл./м2)
|
Арбат
|
8155
|
Тверской
|
8056
|
Китай-город
|
7723
|
Парк культуры
|
7644
|
Хамовники
|
7204
|
Якиманка
|
6921
|
Дорогомилово
|
6337
|
Красносельский
|
6097
|
Мещанский
|
5950
|
Беговой
|
5752
|
Пресненский
|
5576
|
Замоскворечье
|
5575
|
Гагаринский
|
5516
|
Таганский
|
5467
|
Донской
|
5386
|
Сокольники
|
5077
|
Аэропорт
|
5028
|
Басманный
|
4975
|
Марьина Роща
|
4960
|
Черемушки
|
4903
|
Крылатское
|
4882
|
Проспект
Вернадского
|
4808
|
Нижегородский
|
4790
|
Алексеевский
|
4746
|
Динамо
|
4682
|
Академический
|
4666
|
Тропарево-Никулино
|
4638
|
Хорошевский
|
4572
|
Коньково
|
4449
|
Филевский
|
4362
|
Останкинский
|
4343
|
Хорошево-Мневники
|
4335
|
Зюзино
|
Войковский
|
4139
|
Кунцево
|
4105
|
Соколиная гора
|
4103
|
Бутырский, Тимирязевский
|
4101
|
Даниловский
|
4100
|
Нагатинский
|
4094
|
Строгино
|
4076
|
Свиблово
|
4068
|
Чертаново
|
4052
|
Южнопортовый
|
4042
|
Можайский
|
4030
|
Преображенское
|
4006
|
Куркино
|
3987
|
Покровское-Стрешнево
|
3946
|
Медведково
|
3908
|
Очаково-Матвеевское
|
3897
|
Ясенево
|
3896
|
Бабушкинский
|
3892
|
Лефортово
|
3832
|
Левобережный
|
3808
|
Теплый Стан
|
3806
|
Тушино
|
3795
|
Отрадное
|
3794
|
Измайлово
|
3782
|
Москворечье-Сабурово,
Царицыно
|
3767
|
Головинский
|
3765
|
Митино
|
3660
|
Данные
взяты с сайта www.raiting.rbc.ru. Было отобрано 60 районов Москвы. Таким образом, объём выборки
равен 60. Вычисления произведены в Microsoft Excel и приложены к анализу.
Статистические
законы распределения
)
Рассматриваемая случайная величина является непрерывной, поэтому для
определения статистического закона распределения данной случайной величины был
построен интервальный статистический ряд. Для построения статистического ряда
необходимо вычислить некоторое величины - число интервалов, на которое
разбивается рассматриваемый отрезок исходных величин, частоты.
Максимальное
значение
|
8155
|
Минимальное
значение
|
3660
|
Количество
интервалов
|
6
|
Длина интервала
|
749,1667
|
Объём выборки
|
60
|
Интервальный
статистический ряд имеет вид:
Начало
промежутка
|
Конец
промежутка
|
Частота
|
|
3660,00
|
4409,17
|
0,52
|
4409,17
|
5158,33
|
14
|
0,23
|
5158,33
|
5907,50
|
6
|
0,10
|
5907,50
|
6656,67
|
3
|
0,05
|
6656,67
|
7405,83
|
2
|
0,03
|
7405,83
|
8155,00
|
4
|
0,07
|
Частота
была посчитана с помощью средства Excel Гиcтограмма.
)
Для построения эмпирической функция распределения, которая служит оценкой
теоретической функции распределения, были посчитаны следующие значения:
Начало
промежутка
|
Конец
промежутка
|
|
-∞
|
3660,00
|
0
|
3660,00
|
4409,17
|
0,52
|
4409,17
|
5158,33
|
0,75
|
5158,33
|
5907,50
|
0,85
|
5907,50
|
6656,67
|
0,90
|
6656,67
|
7405,83
|
0,93
|
7405,83
|
8155,00
|
1,00
|
8155,00
|
+∞
|
1,00
|
|
|
|
Далее мы построили график эмпирической функции - кумуляту,
имеющую следующий вид:
3)
Для построения гистограммы, мы нашли для нашей случайной непрерывной величины
эмпирическую плотность распределения. Были посчитаны следующие значения:
Начало промежутка
|
Конец
промежутка
|
|
3660,00
|
4409,17
|
0,00069
|
4409,17
|
5158,33
|
0,00031
|
5158,33
|
5907,50
|
0,00013
|
5907,50
|
6656,67
|
0,00007
|
6656,67
|
7405,83
|
0,00004
|
7405,83
|
8155,00
|
С
помощью этих значений мы построили график функции эмпирической плотности -
гистограмму:
. Оценивание параметров распределения
) Затем мы вычисляли оценки математического ожидания,
дисперсии, среднеквадратического отклонения, ассиметрии и эксцесса, для
вычисления которых использования средство Excel Описательная статистика.
Итоговая
статистика
|
Среднее
|
4803,116667
|
Стандартная
ошибка
|
149,7236439
|
Медиана
|
4352,5
|
Стандартное
отклонение
|
1159,754359
|
Дисперсия
выборки
|
1345030,173
|
Эксцесс
|
1,601423954
|
Асимметричность
|
1,506908437
|
Интервал
|
4495
|
Минимум
|
3660
|
Максимум
|
8155
|
Сумма
|
288187
|
Счет
|
60
|
Таким образом, средняя цена в регионах Москвы в марте 2010
равна 4803,116667 долл./м2. Цена варьируется от 3,5 до 6 тысяч долл./м2.
Наименьшая цена за этот период составила 3660 в Митино, наибольшая - 8155 на
Арбате.
) Для интервального оценивания параметров распределения были
построены доверительные интервалы. Возьмём доверительную вероятность равную
0,95.
Доверительная
вероятность α
|
0,95
|
Ф(С)
|
0,475
|
Cα=
|
1,96
|
Для выборки
большого объема
|
|
|
|
|
Для
математического ожидания
|
|
α = P {x¯ - S*Сα/√(n-1) < m < x¯ + S*Сα/√(n-1)}
|
|
|
|
Лев. граница
интервала m1 =
|
|
Прав. граница
интервала m2 =
|
|
Для дисперсии
|
|
|
α = P{S2/|1
+ Сα*√2/(n-1)|
< σ2 < S2/|1 - Сα*√2/(n-1)|}
|
|
|
|
Лев. граница
интервала v1 =
|
|
Прав. граница
интервала v2 =
|
|
Для выборки
малого объема
|
|
|
|
|
Для
математического ожидания
|
|
α = P {x¯ - tn-1*S/ √(n-1)< m < x¯ + t, n-1*S/√(n-1)}
|
|
|
|
Лев. граница
интервала m1 =
|
|
Прав. граница интервала
m2 =
|
|
Для дисперсии
|
|
|
α =
P{(n-1)*S2/2, n-1 < σ2 < (n-1)*S2/1, n-1}
|
|
|
|
Лев. граница
интервала v1 =
|
|
Прав. граница
интервала v2 =
|
|
3. Статистическая проверка гипотез
7) После визуального изучения кумуляты, гистограммы и анализа
полученных оценок числовых характеристик мы выдвинули гипотезу о том, что
функция распределена по нормальному закону и проверили по критерию Пирсона и по
критерию Колмагорова.
Ho:
|
с. в.
распределена по нормальному закону с параметрами m=4803,116667и s= 1159,754359
|
Ha:
|
с. в. не
распределена по нормальному закону с параметрами m=4803,116667и s=
1159,754359
|
Мы знаем, что выдвигая гипотезу о классе закона распределения
случайной величины по критерию Пирсона мы сначала строим интервальный
статистический ряд, а затем вычисляем выборочную статистику:
начало
|
конец
|
F(xi)
|
F (xi+1)
|
pi вероятность
|
li частота
|
n pi
|
n pi - li
|
(n pi - li)^2/
n pi
|
3660,000
|
0,000
|
0,162
|
0,162
|
0
|
9,729
|
9,729
|
9,729
|
3660,000
|
4409,167
|
0,162
|
0,367
|
0,205
|
31
|
12,294
|
-18,706
|
28,464
|
4409,167
|
5158,333
|
0,367
|
0,620
|
0,253
|
14
|
15,196
|
1,196
|
0,094
|
5158,333
|
5907,500
|
0,620
|
0,830
|
0,209
|
6
|
12,553
|
6,553
|
3,421
|
5907,500
|
7405,833
|
0,830
|
0,988
|
0,158
|
5
|
9,484
|
4,484
|
2,120
|
7405,833
|
8155,000
|
0,988
|
0,998
|
0,010
|
4
|
0,629
|
-3,371
|
18,063
|
8155,000
|
+∞
|
0,998
|
1,000
|
0,002
|
0
|
0,116
|
0,116
|
0,116
|
Для 1- α = 0,05
|
v = r-2-1 =
|
2
|
Т.к. Z*>K2,
то отклоняем основную гипотезу в пользу альтернативной
|
|
K2=
|
5,99
|
|
|
Z*=
|
62,01
Так как значение выборочной статистики больше значения
границы критической области, наша гипотеза о нормальном распределении случайной
величины отвергается.
доверительный интервал распределение гипотеза
Конец
|
F(xi)
|
F*(xi)
|
abs (F(xi) -
F*(xi))
|
3660,000
|
0,162
|
0,000
|
0,162
|
4409,167
|
0,367
|
0,517
|
0,150
|
5158,333
|
0,620
|
0,750
|
0,130
|
5907,500
|
0,830
|
0,850
|
0,020
|
6656,667
|
0,945
|
0,900
|
0,045
|
7405,833
|
0,988
|
0,933
|
0,054
|
8155,000
|
0,998
|
1,000
|
0,002
|
|
|
max=
|
0,162
|
|
|
|
|
Для 1-a
= 0,05
|
K2 =
|
1,358
|
Т.к. Z*<K2,
то гипотеза принимается
|
|
l* =Z*=√n
* max|Fn(Xi) - Fn*(Xi)|=
|
1,256
|
|
При проверке гипотезы о виде закона распределения непрерывной
случайной величины по критерию согласия Колмагорова также необходимо вычислить
выборочную статистику. Произведя расчеты, мы узнаем, что её значение равно 1,256.
Критическая область также правосторонняя а её границу ищем по
таблицам распределения Колмагорова по уровню значимости. значения границы
критической области равно 1,358. В нашем случае значение выборочной статистики
меньше значения границы критической области, а значит по критерию согласия
Колмагорова гипотеза о том, что функция распределена по нормальному закону
принимается.
) Далее мы, располагая выборочными данными, можем вычислить
оценки параметров математического ожидания и дисперсии и выдвинуть
предположение чему равно неизвестное математическое ожидание:
Ho:
|
m = 4800
|
|
Ha:
|
m ≠
4800
|
|
Среднее
|
4803,117
|
Стандартное
отклонение
|
1159,754
|
Дисперсия
выборки
|
1345030
|
Если основная гипотеза верна, то случайная величина Z*
распределена по закону Стьюдента с (n-1) степенью свободы. По таблице распределения
Стьюдента по заданному уровню значимости (0,05) и n-1 степени свободы(59)
ищем симметричную критическую точку распределения.
Мы вычисляем значение выборочной статистики с помощью средства
Ecxel и получаем:
Выборочная
статистика Z* =
|
-0,020641932
|
Т.к. |Z*|<K2,
то принимается
|
Граница
критической области K2 =
|
2,001
|
основная
гипотеза
|
) Мы выдвигаем предположение о том, чему равна неизвестная
дисперсия:
Ho:
|
V = 1300000
|
Ha:
|
V ≠ 130000
Выборочная
статистика Z* =
|
61,04367706
|
Граница
критической области K1 =
|
82,11740607
|
Граница
критической области K2 =
|
39,66185967
|
Т.к.
K1<Z*<K2, то приниматеся основная гипотеза
|
) Рассмотрим 2 выборки - стоимость квартир в Москве за март и
за апрель в одних и тех же районах и выдвинем гипотезы о равенстве
математических ожиданий и дисперсий для этих случайных величин.
Итак, выдвинем гипотезу о равенстве средних значений, т.е.:
Ho:
|
m1 = m2
|
Ha:
|
m1 ≠
m2
|
X1 =
|
4803,117
|
X2 =
|
4926,333
|
n1 =
|
60
|
n2 =
|
60
|
|
|
|
|
|
Число степеней свободы в нашем случае составляет 118 (n1 + n2
-2), а уровень значимости 0,05. С помощью этих данных мы по таблице критических
точек ищем границы критической области.
Вычисляем выборочную статистику с помощью Excel. Получаем:
Выборочная
статистика Z* =
|
-0,57553309
|
Граница
критической области K1 =
|
-1,980
|
Граница
критической области K2 =
|
1,980
|
Т.к. lZ*l<K2, то принимается основная гипотеза
|
|
Выдвинем гипотезу о равенстве, т.е.:
Ho:
|
12
= 22
|
Ha:
|
12
≠ 22
|
Вычисляем выборочную статистику Z* и найдём границу
критической области по таблицам распределения Фишера. Получаем:
Выборочная
статистика Z* =
|
1,010565841
|
Т.к. Z*<K2,
то принимается основная гипотеза
|
Граница
критической области K2 =
|
1,530
|
|
Похожие работы на - Вирусные заболевания приматов
| |