Зависимость количества лейкоцитов в крови человека от уровня радиации
Международный университет природы, общества и
человека
“Дубна”
Кафедра высшей математики
Кафедра системного анализа и управления
Курсовая
работа
по теории вероятностей и
математической статистике
на тему:
Зависимость количества
лейкоцитов в крови человека от уровня радиации
студентки 2 курса группы 2101
Березиной Ирины Владимировны
Руководители: проф. Чавлейшвили М. П.
ассистент Крейдер О. А.
ассистент Возвышаева Н. А.
Дубна, 2003
Оглавление
Введение……………………………………………………………...3
Исходные
данные……………………………………………………4
Постановка
задачи…………………………………………………..7
Теоретическая
основа…………………………………………….…8
Теория
вероятностей……………………………………………….11
Математическая
статистика……………………………………….14
Вывод………………………………………………………………..24
Список
литературы………………………………………………...25
Приложение………………………………………………………...26
В данной курсовой работе будет проводиться
исследование числа лейкоцитов в крови человека от уровня радиации. Это
исследование будет проводиться на основе исходных данных, с помощью метода наименьших
квадратов, проверки статистических гипотез а так же с помощью различных
геометрических построений. На основе полученных результатов будет сделан вывод
о существовании зависимости.
Исходные данные
За Х принят уровень радиации, за Y — количество лейкоцитов в крови человека.
X
|
Y
|
0,626667
|
4527,237
|
0,653333
|
5108,709
|
0,646667
|
5207,555
|
0,773333
|
5458,406
|
0,78
|
5507,011
|
0,74
|
5673,077
|
0,8
|
5728,142
|
0,853333
|
5812,477
|
0,866667
|
5965,568
|
0,96
|
6149,168
|
0,92
|
6255,463
|
0,9
|
6329,594
|
1,093333
|
6332,226
|
0,86
|
6337,099
|
0,82
|
6385,752
|
0,953333
|
6391,242
|
0,926667
|
6595,454
|
0,96
|
6738,951
|
0,946667
|
6838,889
|
0,786667
|
7091,043
|
0,993333
|
7097,944
|
0,986667
|
7253,375
|
1,093333
|
7318,543
|
1,02
|
7379,69
|
1,046667
|
7391,09
|
1,026667
|
7408,133
|
1,14
|
7467,515
|
1,086667
|
7515,751
|
1,093333
|
7574,012
|
1,04
|
7608,591
|
1,006667
|
7717,174
|
1,013333
|
7803,208
|
1,04
|
7881,098
|
1,206667
|
8250,378
|
1,12
|
8464,471
|
1,266667
|
8506,901
|
1,266667
|
8506,901
|
1,266667
|
8506,901
|
1,12
|
8525,006
|
1,053333
|
8539,606
|
1,306667
|
8639,868
|
1,353333
|
8804,893
|
1,206667
|
8873,718
|
1,333333
|
8960,734
|
1,4
|
8975,02
|
1,213333
|
9260,916
|
1,166667
|
9332,443
|
1,453333
|
9469,077
|
1,573333
|
9539,758
|
1,4
|
9683,772
|
1,306667
|
9694,652
|
1,493333
|
9978,551
|
1,5
|
10012,91
|
1,4
|
10035,87
|
1,473333
|
10137,97
|
1,513333
|
10150,81
|
1,513333
|
10150,81
|
1,44
|
10156,15
|
1,586667
|
10166,75
|
1,473333
|
10172,3
|
1,453333
|
10327,17
|
1,566667
|
10370,44
|
1,613333
|
10484,95
|
1,58
|
10546,77
|
1,553333
|
10639,61
|
1,72
|
10710,06
|
1,78
|
10894,36
|
1,54
|
10904,36
|
1,673333
|
11133,19
|
1,7
|
11426,35
|
1,66
|
11483,3
|
1,833333
|
11530,38
|
1,8
|
11636,61
|
1,72
|
11685,42
|
1,646667
|
11755,89
|
1,653333
|
11829,51
|
1,78
|
11888,4
|
1,84
|
12092,16
|
1,846667
|
12168,77
|
1,866667
|
12438,43
|
2,033333
|
12787,44
|
1,933333
|
13261,7
|
2,033333
|
13298,56
|
1,946667
|
13381,07
|
2,013333
|
13643,99
|
2,073333
|
13826,9
|
2,146667
|
14134,15
|
2,36
|
14770,7
|
2,26
|
14869,74
|
2,44
|
15085,68
|
2,286667
|
15170,25
|
2,533333
|
15448,3
|
2,52
|
15974,4
|
2,273333
|
16240,57
|
2,193333
|
16377,2
|
2,673333
|
16409,9
|
2,566667
|
16562,52
|
2,553333
|
17086,62
|
2,5
|
17102,3
|
2,673333
|
17181,38
|
Таблица
1. Исходные данные
В данной
работе на основании имеющихся данных провести статистический анализ генеральной
совокупности заданных чисел. Производя этот анализ, использовать различные
числовые функции, а также и графические: диаграмму и гистограммы рассеяния,
регрессии. По корреляционной таблице подсчитать некоторые характерные величины.
На основании этого проверить статистические гипотезы, согласовать исходные
данные с теорией.
Теоретическая основа
С давних времен человек совершенствовал себя, как
физически, так и умственно, постоянно создавая и совершенствуя орудия труда.
Постоянная нехватка энергии заставляла человека искать и находить новые
источники, внедрять их, не заботясь о будущем. В порыве за открытиями в конце XIX в. двумя учеными:
Пьером Кюри и Марией Склодовской-Кюри было открыто явление радиоактивности.
Именно это достижение поставило существование всей планеты под угрозу. За 100 с
лишним лет человек наделал столько глупостей, сколько не делал за все свое
существование. Давно уже прошла Холодная война, мы уже пережили Чернобыль и
многие засекреченные аварии на полигонах, однако проблема радиационной угрозы
никуда не ушла и по сей день служит главной угрозой биосфере.
Радиация играет огромную роль в развитии
цивилизации на данном историческом этапе. Благодаря явлению радиоактивности был
совершен существенный прорыв в области медицины и в различных отраслях
промышленности, включая энергетику. Но одновременно с этим стали всё отчётливее
проявляться негативные стороны свойств радиоактивных элементов: выяснилось, что
воздействие радиационного излучения на организм может иметь трагические
последствия. Подобный факт не мог пройти мимо внимания общественности. И чем
больше становилось известно о действии радиации на человеческий организм и
окружающую среду, тем противоречивее становились мнения о том, насколько
большую роль должна играть радиация в различных сферах человеческой
деятельности.
Воздействие
радиации на организм может быть различным, но почти всегда оно негативно. В
малых дозах радиационное излучение может стать катализатором процессов,
приводящих к раку или генетическим нарушениям, а в больших дозах часто приводит
к полной или частичной гибели организма вследствие разрушения клеток тканей.
Сложность в отслеживании
последовательности процессов, вызванных облучением, объясняется тем, что
последствия облучения, особенно при небольших дозах, могут проявиться не сразу,
и зачастую для развития болезни требуются годы или даже десятилетия. Кроме
того, вследствие различной проникающей способности разных видов радиоактивных
излучений они оказывают неодинаковое воздействие на организм: a-частицы наиболее опасны, однако для a-излучения даже лист бумаги является непреодолимой
преградой; b-излучение способно проходить в ткани
организма на глубину один-два сантиметра; наиболее безобидное g-излучение характеризуется наибольшей проникающей
способностью: его может задержать лишь толстая плита из материалов, имеющих
высокий коэффициент поглощения, например, из бетона или свинца.
Также различается чувствительность
отдельных органов к радиоактивному излучению. Поэтому, чтобы получить наиболее
достоверную информацию о степени риска, необходимо учитывать соответствующие
коэффициенты чувствительности тканей при расчете эквивалентной дозы облучения:
0,03 – костная ткань
0,03 – щитовидная железа
0,12 – красный костный мозг
0,12 – легкие
0,15 – молочная железа
0,30 – другие ткани
1,00 – организм в целом.
Вероятность повреждения тканей
зависит от суммарной дозы и от величины дозировки, так как благодаря
репарационным способностям большинство органов имеют возможность восстановиться
после серии мелких доз.
Если поступление
радиоактивных веществ было однократным, то концентрация их в крови вначале
возрастает до максимума, а затем в течение 15-20 суток снижается.
При повышении
уровня радиации повышается уровень лейкоцитов в крови.
Лейкоциты, или
белые кровяные тельца, — это бесцветные клетки, содержащие ядра разнообразной
формы. В 1 мм куб крови здорового человека содержится около 6-8тыс лейкоцитов.
При рассмотрении в микроскоп мазка окрашенной крови можно заметить, что
лейкоциты имеют разнообразную форму. Различают две группы лейкоцитов: зернистые
и незернистые. У первых в цитоплазме содержатся мелкие зерна (гранулы),
окрашивающиеся разными красителями в синий, красный или фиолетовый цвет. У
незернистых форм лейкоцитов таких зерен нет. Среди незернистых лейкоцитов
различают лимфоциты (круглые клетки с очень темными, округлыми ядрами) и
моноциты (клетки большей величины, с ядрами неправильной формы). Зернистые
лейкоциты по-разному относятся к различным красителям. Если зерна цитоплазмы
лучше окрашиваются основными (щелочными) красками, то такие формы называют
базофилами, если кислыми - эозинофилами (эозин - кислый краситель), а если цитоплазма
окрашивается нейтральными красками - нейтрофилами. Между отдельными формами
лейкоцитов существует определенное соотношение. Соотношение различных форм
лейкоцитов, выраженное в процентах, называют лейкоцитарной формулой. При
некоторых заболеваниях наблюдаются характерные изменения соотношения отдельных
форм лейкоцитов. В случае глистной инвазии увеличивается число эозинофилов, при
воспалениях возрастает число нейтрофилов, при туберкулезе часто отмечают
увеличение количества лимфоцитов. Часто лейкоцитарная формула меняется в
течение заболевания. В острый период инфекционного заболевания, при тяжелом
течении болезни, эозинофилы могут не обнаружиться в крови, а с началом
выздоровления, еще до видимых признаков улучшения состояния больного, они
отчетливо видны под микроскопом. Кол-во лейкоцитов в крови может меняться.
После приема пищи, тяжелой мышечной работы содержание этих клеток в крови
увеличивается. Особенно много лейкоцитов появляется в крови при воспалительных
процессах. Лейкоцитарная формула также имеет свои возрастные особенности:
высокое содержание лимфоцитов и малое количество нейтрофилов в первые годы
жизни постепенно выравнивается, достигая к 5-6 годам почти одинаковых величин.
После этого процент нейтрофилов неуклонно растет, а процент лимфоцитов
понижается. Основная функция лейкоцитов - защита организма от микроорганизмов,
чужеродных белков, инородных тел, проникающих в кровь и ткани. Лейкоциты
обладают способностью самостоятельно двигаться, выпуская ложноножки
(псевдоподии). Они могут покидать кровеносные сосуды, проникая через сосудистую
стенку, и передвигаться между клетками различных тканей организма. При
замедлении движения крови лейкоциты прилипают к внутренней поверхности
капилляров и в огромном кол-ве покидают сосуды, протискиваясь между клетками
эндотелия капилляров. По пути своего следования они захватывают и подвергают
внутриклеточному перевариванию микробов и другие инородные тела. Лейкоциты
активно проникают через неповрежденные сосудистые стенки, легко проходят через
мембраны, перемещаются в соединительной ткани под действием различных
химических веществ образующихся в тканях. В кровеносных сосудах лейкоциты
передвигаются вдоль стенок. Иногда даже против тока крови. Скорость движения не
всех клеток одинаковы. Наиболее быстро движутся нейтрофилы - около 30 мкм в 1
мин, лимфоциты и базофилы передвигаются медленнее. При заболеваниях скорость
движения лейкоцитов, как правило, возрастает. Это связано с тем, что проникшие
в организм болезнетворные микробы в результате жизнедеятельности выделяют
ядовитые для человека вещества - токсины. Они-то и вызывают ускоренное движение
лейкоцитов.
Теория вероятностей — наука, изучающая
вероятностные закономерности случайных событий. Знание этих закономерностей
позволяет предвидеть, как эти события будут протекать. Знание и методы теории
вероятностей используются в различных отраслях естествознания и техники.
Числовые характеристики случайной
величины
Случайная величина — это
величина, которая в результате испытания примет одно и только одно возможное
значение, заранее неизвестное и зависящее от случайных причин, которые заранее
не могут быть известны.
Случайные величины подразделяются на дискретные и
непрерывные. Дискретной случайной величиной называют случайную величину,
которая принимает отдельные, изолированные возможные значения с определенными
вероятностями. Непрерывной случайной величиной называют случайную
величину, которая может принимать все значения из некоторого конечного или
бесконечного промежутка. Законом распределения дискретной случайной величины
называют соответствие между возможными значениями и их вероятностями. Законами
распределения непрерывных случайных величин называют плотности
распределений.
Математическое ожидание
Случайные величины имеют числовые характеристики, одной из
которых является математическое ожидание. Математическим ожиданием
дискретной случайной величины называют сумму произведений всех ее возможных
значений на их вероятности. Математическое ожидание приближенно равно среднему
значению случайной величины. Допустим, что случайная величина Х может
принимать значения x1, x2, ..., xn, вероятности которых соответственно равны p1, p2,…,pn. Тогда математическое
ожидание М(X) случайной
величины X определяется равенством
M(X) = x1p1 +x2p2 + … + xnpn.
Если дискретная случайная величина Х принимает
счетное множество возможных значений, то можно записать:
Для данных, указанных в этой работе, математическое
ожидание равно (pn принимается равным
0,01)
M(X) = 1,467;
M(Y) = 9979,058266.
Моды.
Медианы
Мода
случайной величины (Mo)
— это число с наибольшей вероятностью.
Медиана
случайной величины(Me)
— это ее среднее значение.
Для данных, указанных в этой работе, моды и медианы равны
Mo(X)= 1,093333333;
Mo(Y)= 8506,90117;
Me(X)= 1,42;
Me(Y)= 9689,211947.
Дисперсия
Для определения дисперсии необходимо ввести понятие
отклонения случайной величины от ее математического ожидания.
Пусть X — случайная величина и М(Х)
— ее математическое ожидание. Рассмотрим в качестве новой случайной
величины разность Х – М(Х). Эту разность и называют отклонением,
т.е. разность между случайной величиной и ее математическим ожиданием. При
определении дисперсии используется следующее свойство отклонения:
y
= px2 + qx + r.
Дисперсией случайной величины Х
называют математическое ожидание квадрата отклонения случайной величины от ее
математического ожидания:
D(X) = M[X – M(X)]2.
Также
дисперсию вычисляют по формуле:
D(X) = M(X2) – [M(X)]2.
Для данных, указанных в этой работе дисперсия равна:
D(X) = 0,279473288;
D(Y) = 10499319,67.
.
Среднее квадратическое отклонение
Для оценки рассеяния возможных значений случайной величины
вокруг ее среднего значения кроме дисперсии служат и другие характеристики,
такие как среднее квадратическое отклонение. Средним квадратическим отклонением
случайной величины X называют квадратный корень из
дисперсии:
Для данных, указанных в этой работе отклонение равно:
s(X) = 0,528652332;
s(Y) = 3240,26537.
Моменты
Моменты служат для более подробной характеристики случайной
величины. Они делятся на начальные и центральные.
Начальные моменты характеризуют саму случайную величину, а центральные —
отклонения случайной величины от М(Х).
Начальный момент n-го порядка —
математическое ожидание от n-ой степени случайной
величины; обозначается:
αn
= M(Xn).
Центральный момент n-го порядка —
математическое ожидание величины (X – M(X))n; обозначается:
μn
= M[(X – M(X))n].
В частности,
α1 = M(X); μ1
= 0;
α2 = M(X2); μ2
= D(X).
Для данных, указанных в этой работе,
начальные и центральные моменты 1-3 порядков равны:
|
X
|
Y
|
α1
|
1,467
|
9979,058266
|
α2
|
2,428767556
|
109975930,4
|
α3
|
4,45698776
|
1,3234E+12
|
|
|
|
μ1
|
0
|
0
|
μ2
|
0,279473288
|
10499319,67
|
μ3
|
0,082210874
|
18491004059
|
Математическая
статистика — это наука, которая занимается получением, обработкой и анализом
данных, характеризующих количественные закономерности жизни общества в
неразрывной связи с их качественным содержанием. Статистика, в узком смысле —
это совокупность данных о каком-либо процессе или явлении. Основной задачей
математической статистики является выяснение вероятностных свойств совокупности:
распределения, числовых характеристик и т. д. с применением методов теории
вероятности, позволяющих оценить надёжность и точность выводов, делаемых на основании
ограниченного статистического материала (выборки) Совокупность объектов, или
совокупность значений какого-то признака объектов, называется генеральной совокупностью.
Обычно из генеральной совокупности делают выборку, т.е. исследуют некоторые ее
объекты. Выборочной совокупностью или просто выборкой называют совокупность
случайно отобранных объектов. С помощью выборки оценивают генеральную
совокупность по вероятным свойствам. Чтобы оценки были достоверными, выборка
должна быть представительной, т.е. ее вероятностные свойства должны совпадать
или быть близкими к свойствам генеральной совокупности. Часто под генеральной совокупностью
понимают и исследуемую случайную величину. Для исследования случайной величины
при постоянных условиях выполняются испытания. Совокупность полученных значений
также называется выборкой и обрабатывается статистически. Методы статистической
обработки выборки аналогичны в обоих случаях. При исследовании объектов можно
фиксировать или измерять значение одного или нескольких признаков, т.е. речь
может идти об одномерной или многомерной выборках.
Корреляционный анализ
Корреляционная таблица
Две случайные величины могут быть связаны либо
функциональной, либо статистической зависимостью, либо быть независимыми.
Строгая функциональная зависимость реализуется редко в реальной жизни, так как
обе величины или одна из них могут быть подвержены еще действию случайных
факторов, причем среди них могут быть и общие для обеих величин. В этом случае
возникает статистическая зависимость. Статистической называют зависимость, при
которой изменение одной из величин влечет изменение распределения другой. В
частности, статистическая зависимость проявляется в том, что при изменении
одной из величин изменяется среднее значение другой; в этом случае
статистическую зависимость называют корреляционной.
Предположим, что рассматриваемые случайные величины Х
и У связаны корреляционной зависимостью. Так как при большом числе
наблюдений одно и то же значение x может
встретиться nx раз, и значения y — ny раз, одна и та же пара
чисел (х,у) — nxy раз. Поэтому
данные наблюдений группируют, т.е. подсчитывают частоты nx, ny, nxy. Все сгруппированные данные записывают в виде таблицы, которую
называют корреляционной.
X|Y
|
4527,24
|
5792,65
|
7058,07
|
8323,48
|
9588,89
|
10854,30
|
12119,72
|
13385,13
|
14650,55
|
15915,96
|
17181,38
|
Nx
|
0,626667
|
1
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0,831333
|
0
|
6
|
2
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
8
|
1,036
|
0
|
0
|
10
|
6
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
16
|
1,240667
|
0
|
0
|
0
|
9
|
6
|
0
|
0
|
0
|
0
|
0
|
0
|
15
|
1,445333
|
0
|
0
|
0
|
0
|
8
|
3
|
0
|
0
|
0
|
0
|
0
|
11
|
1,65
|
0
|
0
|
0
|
0
|
1
|
13
|
2
|
0
|
0
|
0
|
0
|
16
|
1,854667
|
0
|
0
|
0
|
0
|
0
|
1
|
10
|
1
|
0
|
0
|
0
|
12
|
2,059333
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
6
|
0
|
0
|
0
|
6
|
2,264
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
2
|
1
|
1
|
4
|
2,468667
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
3
|
1
|
4
|
2,673333
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
1
|
6
|
7
|
Ny
|
1
|
6
|
12
|
15
|
15
|
17
|
12
|
6
|
3
|
5
|
8
|
n=100
|
Таблица 2. Корреляционная таблица
Характеристики значений выборки
На основе данных корреляционной таблицы можно посчитать все
характеристики наблюдаемых значений выборки намного быстрее и проще, но они
будут иметь некоторые отклонения от выборочных характеристик, посчитанных по
формулам. Это объясняется уменьшением размеров рассматриваемых величин, которое
происходит из-за разбиения их на интервалы.
Посчитаем числовые характеристики для Х и Y по корреляционной таблице.
Математическое ожидание для выборочной совокупности называется
выборочной средней и находится по формуле:
Выборочной дисперсией называют
среднее арифметическое квадратов отклонения наблюдаемых значений признака от их
среднего значения:
Выборочным средним квадратичным отклонением
называют квадратный корень из выборочной дисперсии:
Корреляционным моментом (ковариацией, смешанной
дисперсией) случайных величин Х и Y
называют математическое ожидание произведения отклонений этих величин:
kxy = M[(x – M(x))(y – M(y))].
Коэффициентом корреляции случайных
величин Х и Y называют отношение корреляционного момента к
произведению средних квадратичных отклонений этих величин: при условии
Для данной
работы:
М*(X) = 1,57018; М*(Y)
= 10639,18813;
D*(X) = 0,278051305; D*(Y)
= 10313962,39;
s* (X)= 0,527305704; s*(Y) = 3211,53583.
r*xy
= 0,985735993; k*xy
= 1671,654574.
Графический способ анализа данных
В данной курсовой работе необходимо наглядно изобразить
различные зависимости величин друг от друга. Одним из лучших средств
визуального изображения зависимостей являются:
·
диаграмма рассеивания;
·
гистограмма рассеяния;
·
полигон относительных частот
·
линейная регрессия .
·
эмпирическая функция распределения
Диаграмма рассеивания
Диаграмма рассеивания
получается путем нанесения данных всех пар чисел (100) на координатную
плоскость (см. приложение, рис.1).
Гистограммы рассеивания
Гистограммы рассеивания также являются одним из способов
наглядного представления распределения значений случайной величины. В данной
курсовой построены гистограммы рассеивания относительных частот для случайных
величин Х (уровень радиации) и Y (количество
лейкоцитов в крови человека). Гистограммой относительных частот называют
ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат
частичные интервалы длиной h, а высоты равны
отношению pi*/n , (n ––
общее количество точек). Приведем гистограмму относительных частот
распределения уровня радиации и гистограмму относительных частот для количества
лейкоцитов в крови человека (см. приложение, рис. 2, 3).
Полигон относительных частот — ломаная, соединяющая точки (x1, W1)…(xn, Wn). Для построения полигона относительных
частот на оси абсцисс откладывают варианты xi, а на оси ординат — соответствующие им относительные частоты Wi. Приведены полигоны относительных частот распределения
уровня радиации и количества лейкоцитов в крови человека (см. приложение,
рис.4,5) Эмпирической функцией распределения называют функцию F*(x), определяющую
для каждого значения x относительную частоту
события X<x.
По определению, F*(x)=nx/n, где nx — число вариант , меньших x;
n — объем выборки.
Функции распределения X и Y имеют вид (см. приложение, Рис. 6, 7).
Регрессионный анализ
Между переменными X и Y существует функциональная связь у = f(x), т.е. каждому значению аргумента Х
соответствует единственное значение аргумента Y. Регрессия
— зависимость среднего значения какой-либо величины Y от другой величины X. Понятие регрессии в некотором смысле
обобщает понятие функциональной зависимости у = f(x). Только в
случае регрессии одному и тому же значению x в
различных случаях соответствуют различные значения y.
Регрессионный анализ заключается в определении
аналитического выражения связи, в котором изменения одной величины (называемой
зависимой или результативным признаком) обусловлено влиянием одной или
нескольких независимых величин (факторов).
По форме зависимости различают:
1). Линейную регрессию, которая выражается
уравнением прямой — линейной функцией вида: у =ax+b.
Если в результате n
экспериментов точки на диаграмме рассеивания расположены таким образом, что
прослеживается тенденция роста Y при росте X, то это предположение
о линейной зависимости: у = f(x).
Эта зависимость определяется двумя параметрами — а и
b. Подобрав эти параметры, можно получить уравнение
регрессии.
2). Нелинейную (параболическую) регрессию:
у =ах2 +bх+с.
3). Полиномную регрессию
— полином первой степени: у =ах+b (линейная регрессия);
— полином второй степени: у = ах2 +bх+с (параболическая регрессия);
— полином n-ой степени: y = anxn + … +
a2x2 + a1x + a0.
Целью регрессионного анализа является оценка функциональной
зависимости результативного признака (у) от факторных (x1, x2, …,Xn).
Метод наименьших квадратов (МНК)
Найдем по данным наблюдений выборочное уравнение прямой
линии у = ах+b среднеквадратичной регрессии Y на X.
Это можно сделать с помощью метода наименьших квадратов
(МНК). Этот метод, применяется в теории ошибок, для отыскания одной или
нескольких величин по результатам измерений, содержащих случайные ошибки. МНК
также используется для приближенного представления заданной функции другими
(более простыми) функциями и часто оказывается полезным для обработки
наблюдений.
Для того чтобы определить параметры a и b необходимо знать отклонения
(точки,
находящиеся не на на прямой, а рядом). Суммарное отклонение будет равно:
где
Yiexp — экспериментальные точки (не
обязательно лежащие на прямой), Yiteor —
теоретические точки (лежащие на прямой).
Чтобы все отклонения давали в суммарном отклонении положительные
числа, надо возвести в квадрат эти отклонения:
где
Δ — суммарное квадратичное отклонение, которое зависит от параметров а
и b, Yi —
экспериментальные значения Y, axi + b — теоретические значения Y.
Лучшими параметрами а и b являются такие, которые
минимизируют Δ, следовательно, среди бесконечного множества прямых,
которых дает прямая у = ax + b, наилучшей является прямая с такими значениями параметров а и b,
для которых Δ(а, b) принимает минимальное значение.
Чтобы найти эти значения параметров а и b,
необходимо найти точку минимума функции Δ(а, b). Для этого берется
производная
и
рассматривается система двух уравнений, решения которой — значения a и b:
Для данных курсовой работы получаем:
a = 6041,9;
b = 1115,6.
Т.е. y = 6041,9x + 1115,6;
По тем же данным курсовой работы вычислим коэффициенты
уравнения параболической регрессии.
Параболическое уравнение регрессии Y
на X имеет вид
Неизвестные параметры A, B,C находят из системы уравнений:
Для данных курсовой работы получаем:
A=-69,58; B=6266,7; C=954,82.
т.е. y =–69,58x2+6266,7x+954,82
Линии регрессий на диаграмме рассеивания имеют вид (см.
приложение, рис. 8, 9).
На рис.10 приложения — сравнение двух регрессий.
Какая регрессия соответствует исходным данным:
E2=7,93079*10-10
E3=8,0945*10-11
E2>E3 это параболическая регрессия.
Доверительный
интервал
Доверительным называют интервал (, где k= n-1 степеней свободы, s*— исправленное среднее квадратическое отклонение, — надежность оценки
Доверительный
интервал для X.
Доверительный
интервал для
Доверительный интервал для
Доверительный интервал для
Доверительный интервал для Y рассчитывается
аналогично.
Проверка
гипотез
Статистической называют гипотезу о виде неизвестного
распределений или о параметрах известных распределений. Нулевой называют
выдвинутую гипотезу Н0. Конкурирующей гипотезой называют
гипотезу Н1, которая противоречит нулевой. Простой называют
гипотезу, содержащую только одно предположение. Сложной называет гипотезу,
которая состоит из конечного или бесконечного числа простых гипотез.
Статистическим критерием называют величину К, которая служит для
проверки гипотезы. Наблюдаемым (эмпирическим) значением критерия Кнабл
называют то значение критерия, которое вычислено по выборкам. Критической
областью называют совокупность значений, при которых нулевую гипотезу
отвергают. Областью принятия гипотезы называют совокупность значений, при
которых нулевую гипотезу принимают. Основной принцип проверки статистических
гипотез: если Кнабл принадлежит критической области, то нулевую
гипотезу отвергают; если наблюдаемое значение критерия принадлежит области
принятия гипотезы, то гипотезу принимают. Критическими точками kкр называют точки, отделяющие
критическую область от области принятия гипотезы. Правосторонней называют
критическую область, определяемую неравенством К > kкр , где
kкр — положительное
число. Левосторонней называю критическую область, определяемую неравенством К
< kкр , где kкр —
отрицательное число. Двухсторонней называют критическую область, определяемую
неравенствами K<k1, K>k2, k2>k1.
Для отыскания критической области задаются уровнем
значимости α и ищут критические точки, исходя из следующих
соотношений:
a)
для правосторонней критической области
P(K>kкр) = α (kкр>0);
b)
для левосторонней критической области
P(K<kкр) = α (kкр<0);
c)
для двухсторонней симметричной области
P(K>kкр) = α/2 (kкр>0), P(K<-kкр) =
α/2.
Сравнение выборочной средней
с гипотетической генеральной средней (Дисперсия генеральной совокупности
неизвестна).
Если дисперсия генеральной
совокупности неизвестна, то в качестве критерия проверки нулевой гипотезы
принимают случайную величину
где — исправленное среднее квадратическое
отклонение. Величина T имеет распределение Стьюдента с k = n-1
степенями свободы.
Правило 1. Для того, чтобы при заданном уровне
значимости α проверить нулевую гипотезу H0: а=а0 о равенстве неизвестной генеральной средней а
гипотетическому значению а0 при конкурирующей гипотезе H1: а≠а0, надо вычислить наблюдаемое значение
критерия
и по таблице критических точек распределения
Стьюдента по заданному уровню значимости α и числу степеней свободы k = n-1 найти критическую
точку tдвуст. кр(α; k).
Если — нет оснований отвергнуть нулевую гипотезу.
Если — нулевую
гипотезу отвергают.
Правило 2. При конкурирующей гипотезе H1: а>а0, по уровню значимости α, помещенному в нижней строке таблицы приложения 6
пункта 1 из списка литературы, и числу степеней свободы k=n-1 находят критическую
точку tправост. к.(α; k) правосторонней
критической области. Если — нет оснований отвергнуть нулевую гипотезу.
Если — нулевую
гипотезу отвергают.
Правило 3. При конкурирующей гипотезе H1: а<а0 сначала находят «вспомогательную» критическую точку
(по правилу 2) tправост. к.(α; k) и полагают границу левосторонней критической
области tлевост. кр.=– tправост. кр.. Если , нет оснований отвергнуть нулевую гипотезу.
Если — нулевую
гипотезу отвергают.
Для данной работы:
S= 0,526002;
1,467
α=0,05
a0=1,5
k=99
T=-0,627373528
Правило 1.
а=1,5
tдвуст. кр(α;
k)= tдвуст.кр(0,05;99)=1,99
—
нет оснований отвергнуть нулевую гипотезу, т. е выборочная средняя 1,467 незначительно
отличается от гипотетической генеральной средней a0=1,5.
Правило 2.
a>1,5
tправост. кр. (α; k)= tправост.
кр. (0,05; 99)=1,661
—
нет оснований отвергнуть нулевую гипотезу.
Правило 3.
a<1,5
tправост. кр. (α; k)= tправост.
кр. (0,05; 99)=1,661
tлевост. кр.=– tправост. кр.= – 1,661
—
нет оснований отвергнуть нулевую гипотезу.
Все параметры по Y находятся
аналогично.
Проверка гипотезы о
нормальном распределении генеральной совокупности по критерию Пирсона
Пусть эмпирическое распределение задано в виде
последовательных интервалов (xi, xi+1) и
соответствующим им частот ni. Требуется,
используя критерий Пирсона проверить гипотезу о том, что генеральная
совокупность X распределена нормально.
Правило: Чтобы при уровне значимости α проверить гипотезу о нормальном
распределении генеральной совокупности, надо:
1.Вычислить
выборочную среднюю и
выборочное среднее квадратическое отклонение , причем .
2.Перейти к
случайной величине ,
и вычислить концы интервалов , .
3.Вычислить
теоретические частоты ,
где n — объем выборки; Рi=Ф(zi+1)– Ф(zi) —
вероятности попадания X в интервалы (xi, xi+1); Ф(Z) — функция
Лапласа.
4.Сравнить
эмпирические и теоретические частоты с помощью критерия Пирсона. Для этого
строят таблицу и находят значение критерия Пирсона . По таблице распределения
Проведя обработку выборочной совокупности случайно
отобранных статистических данных, мы получили некоторые оценки их параметров, а
также выяснили, что данная выборка случайных величин имеет такую зависимость,
что при росте значения X увеличивается и значение Y, т.е., переводя на тему курсовой работы. При увеличении радиации
число лейкоцитов возрастает. Зависимость параболическая, поэтому Уравнение
зависимости Y от X
выглядит следующим образом:
y
=–69,58x2+6266,7x+954,82
1)
Гмурман В. Е. Руководство к решению задач по теории
вероятностей и математической статистике. — М.: Высшая школа, 1998.
2)
Гмурман В. Е. Теория вероятностей и математическая
статистика. — М.: Высшая школа, 1977.
3)
Чавлейшвили М. П. Курс лекций
4)
Кабанова Е. И Теория вероятностей и математическая
статистика. Курс лекций.—Дубна, 1996.
5)
Мазный Г. Л., Прогулова Т. Б. Методическое пособие
к курсовому проектированию по высшей математике. - Дубна, 1996.
6)
Радиация, ее влияние на организм человека.
Рис 1. Диаграмма рассеивания
Рис 2 . Гистограмма рассеивания относительных частот для X
Рис. 3. Гистограмма рассеивания относительных частот для Y
Рис.4 Полигон относительных частот для X
Рис.5 Полигон относительных частот для Y
Рис6 Эмпирическая функция распределения Х
Рис.7 Эмпирическая функция распределения Y
Рис. 8. График линейной регрессии
Рис. 9. График параболической регрессии
Рис.10.
Сравнение линейной и параболической регрессий
Дата
|
ФИО
|
Подпись
|
“____”__________200__г.
|
Березина И. В.
|
|
Дата
|
ФИО
|
Оценка
|
Подпись
|
“____”__________200__г.
|
Асс. Возвышаева Н.А.
|
|
|
“____”__________200__г.
|
Крейдер О.А.
|
|
|