Математическая статистика и её частные методы

  • Вид работы:
    Курсовая работа (т)
  • Предмет:
    Математика
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    725,94 Кб
  • Опубликовано:
    2012-05-16
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Математическая статистика и её частные методы

Содержание

Цель работы

Введение

Глава 1. Математическая статистика и её методы

.1 Происхождение Статистики

.2 Статистика как наука

.3 Предмет Статистики

.4 Стадии и методы статистического исследования

Глава 2. Математическая статистика

.1 Математическая статистика и её методы

2.2 Метод главных компонент

2.3 Применение Метода главных компонент

.4 Закон больших чисел

2.5 Ложь, наглая ложь, статистика и парадокс сэра Гиффена

Заключение

Литература


Цель работы

Цель данной работы заключается в исследовании понятия «статистики» с точки зрения современной науки и практики.

В соответствии с определенной целью были поставлены и решены следующие задачи:

исследованы основные понятия Статистики;

исследованы математические методы в статистике и Метод главных компонент в частности;

сформулированы выводы и предложения по проделанной работе.

Предметом исследования данной работы стала математическая составляющая сегодняшней статистической науки.

Объектом исследования данной курсовой работы является исследование Метода главных компонент и сопутствующих методов.

Исследование темы «Математическая статистика и её частные методы» осуществлялось при помощи следующих научных методов:

Диалектического, то есть осуществления всестороннего познания объекта и предмета исследования данной работы;

Анализа, то есть обособленного анализа отдельных математических методов статистических исследований.

Структурно-функционального, то есть определение роли математических методов в статистике и их значение;

Синтеза, то есть последующего обобщения полученных знаний по данной теме.

Теоретической основой представляемой курсовой работы являются научные работы и труды российских зарубежных авторов, посвященных изучению статистики Большева Л.Н., Зиновьева А.Ю., Едроновой В.Н., Едроновой М.В., Прохорова Ю.В. Смирнова Н.В. и др.

Работа изложена на 40 страницах, включает 7 рисунков.

Введение

Статистика имела всегда и также имеет сегодня очень важное значение в деле управления общественными отношениями как в политике, так и в экономике. Что из них является причиной, а что следствием есть предмет спора политологов и экономистов. Статистику интересует точность и достоверность сведений, без которых невозможно представить какой-либо эффективно функционирующий политический или экономический организм.

Статистика на протяжении тысячелетий своего существования всегда выступала как необходимый инструмент государственного управления. А с течением времени она стала также и наукой, исследующей количественную сторону массовых явлений. Статистика с древних времён нередко использовалась в политических целях, как в отношении соперников вовне или изнутри.

Сегодня статистика выполняет самые разнообразные функции сбора, систематизации и анализа сведений, характеризующих экономическое и социальное развитие общества. Как готовый продукт она поставляет фактологию для управленческих, научно-исследовательских и прикладных нужд госструктур, организаций и населения. Поэтому статистикой сегодня называют также и числовые данные, характеризующие все стороны жизни государства, как-то - политические отношения, культуру, население, производство и многое другое.

Глава 1. Математическая статистика и её методы

.1 Происхождение Статистики

Статистика как наука имеет давнюю и неоднозначную историю.

Учёт, в смысле сегодняшнего статистического учёта, велся с самого начала существования рода человеческого homo sapiens, если не ранее. При встречах выигрывал битву за место под солнцем тот клан, который был больше и у которого было больше бойцов. С развитием производственных отношений уважался тот род, который имел больше скота и земли. С развитием общественных отношений и государств стали сравнивать военные, торговые и экономические потенциалы. С расширением и уточнением учётов стали подвергаться исследованию численность населения и его имущественное состояние с целью налогообложения. Возрастные исследования статистов-переписчиков всегда были особенно интересными для политиков, генералов, демографов, экономистов ещё со времён древних Афин, где вёлся особый учёт для военнообязанных юношей, достигших 18 лет, и достигших возраста 20 лет полноправных граждан. Аристотель составил труд с перечислением 157 эллинских городов-государств, их населения и имущества.

Самыми известными находками для практической статистики стали способы записи сведений разнообразных учётов: как то на глиняных табличках в Междуречья, папирусах Древнего Египта и узелковое письмо - кипу, кипукамайок. Самым древним профессиональным статистом стал «кипукамайок юпан».

Ну а самым важным изобретением древних счётоводов стали счёты «абак» из Междуречья, те самые с костяшками, которые ещё 15-20 лет тому назад лежали у каждого кассира или бухгалтера. Даже изобретённые 300 лет тому назад логарифмические линейки не добились такого распространения из-за сложности вычислений.

Рис 1. Первый профессиональный статист «Кипукамайок юпан»

К слову, десятеричную систему для счетов разработали в России в XVI-XVII веках русские предприниматели, озабоченные вопросом облегчения учёта постоянно растущего торгового и промышленного оборота.

Сам термин «статистика» сравнительно молод, как и указанная выше линейка. Изначально он означал совсем не то, что понимаем мы под этим определением сейчас. Первоначально оно употреблялось в значении «политическое положение», так как само слово «статистика» происходит от латинского status, означавшего «состояние, положение вещей с точки зрения закона». С точки зрения сухой и беспристрастной цифры эти сведения стали рассматриваться в рамках первого направления статистической науки - «политической арифметики», созданной в конце XVII века благодаря трудам английских учёных мужей - экономиста Уильяма Петти (William Petty) (1623 - 1687 г.г.) и галантерейщика Джона Граунта (John Graunt) (20.04.1620 г. - 18.04.1674 г.), ставшего известным демографом. В своих трудах они давали числовую оценку исследуемым социально-экономическим явлениям.

Вопрос о едином текущем учёте населения был поставлен одним из просветителей России - В.Н.Татищевым (1686 - 1750 г.г.), который указывал на недостатки проводимых в стране ревизий, а также разработал конкретные предложения по улучшению их проведения. Рост народонаселения он рассматривал в неразрывной связи с развитием экономике и культуры России.

«Статистика» стала наименованием научной и учебной дисциплины благодаря читавшему лекции в Марбургском, а затем и Гёттингенском университетах немецкому учёному, преподавателю философии и права Готфриду Ахенвалю (1719-1772 гг.). Сей представитель второго направления статистической науки - описательного - в 1746 году предложил переименовать «Государствоведение», то есть исследование статусов, как то состояний и положений, на «Статистику». В силу особенности раннего немецкого направления в этой науке в 1792 году увидело свет такое определение, что «статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом».

Третье направление статистической науки - статистико-математическое - возникло благодаря бельгийскому статистику Адольфу Кетле, разработавшему в середине XIX века правила переписи населения. Он стал основоположником учения о средних величинах. Основанный им в 1885 году Международный статистический институт существует до сих пор.

В течении короткого времени она ещё более удалилась от правоведения в сторону математики. Так в конце XIX века В.Госсет разработал «Теорию малой выборки», а в начале XX века для целей статистики стали применяться, например Р.Фишером, методы «теории вероятностей».

В России большое влияние на развитие математического направления в статистике произвели работы русских математиков П.П. Чебышева (1821-1894 гг.), А.А. Маркова (1856-1922 гг.), А.М. Ляпунова (1857-1919 гг.). В начале XX века в области математической статистики появились исследования А.В. Монтовича о «кривых распределения», а затем Е.Е. Слуцкого и А.А. Чупрова о «корреляционном анализе». Продолжателем А.А. Чупрова стал Н.К. Дружинин. В 1949 году был издан учебник Н.К. Дружинина, в котором статистика была определена как «наука о количественных закономерностях массовых явлений, как учение о тех принципах, на которых основывается сбор обработки этих сведений».

К сегодняшнему дню статистика прошла длинный путь развития. Сухая цифирь часто становилась причиной для неописуемой гордости от успехов первых пятилеток, так и для самых серьёзных оргвыводов в отношении тех, кто не справился с «плановыми заданиями». Характерной чертой «командной экономики» были «улучшающие статистику» «приписки». В известном разговоре одного «ответственного работника» с не менее «ответственным» другим были произнесены такие слова - «Если мы припишем, то нас возможно посадят. Но если мы не припишем, то нас точно посадят!». В условиях экономики рыночной характерны не приписки, а сокрытия реального объёма товарного производства и доходов, с целью избежания налогообложения. Не менее известна истина о трёх видах лжи - чёрной, белой и статистике. Причинами таких отклонений являются, прежде всего, причины корыстные и политические. Поэтому цель статистики заключается в использовании научных методов и неискажённых исходных данных с целью вычисления точных данных о состоянии государств, народов, доходов, расходов, запасов и остального великого множества необходимых сведений.

История развития статистики показывает, что статистическая наука сложилась в результате теоретического обогащения накопленного человечеством передового опыта учётно-статистических работ, обусловленных прежде всего потребностями управления жизнью общества.

1.2 Статистика как наука

Статистика сегодня это одна из важнейших общественных наук, имеющая своей целью сбор, упорядочение, анализ и сопоставление числового представления фактов, относящихся к самым разнообразным массовым явлениям. Её предметом являются системы количественных показателей и характеристик, дающих всестороннее представление об общественных явлениях, о промышленности в целом и отдельных его отраслях. Статистика сегодня это инструмент познания, используемый для установления закономерностей в виде числовых порядков, которые действуют в изучаемых этой наукой массовых явлениях.

Познание количественных и качественных законов развития явлений невозможно без анализа их количественной и качественной стороны. Сила статистики заключаются в том, что количественные отношения объективной действительности она рассматривает в неразрывной связи с качественными особенностями явлений и процессов. Благодаря статистике единство качественной и количественной стороны анализа проявляется с наибольшей силой.

То есть статистика на сегодня это наука, исследующая с количественной стороны массовые общественные явления, но также и метод изучения каждой конкретной совокупности. При этом статистка имеет дело с закономерностями, свойственными множеству явлений, различающимися между собой по индивидуальным признакам.

Статистические методы, применяемые при сборе, представлении, анализе и интерпретации данных, часто путают собственно со статистикой. Статистическая методология призвана исследовать совокупность факторов, изобразить процесс в целом, учесть тенденции развития и разнообразие форм явлений. Она помогает также открывать и анализировать причинные зависимости и закономерности явлений. Применение статистических методов важно при изучении больших массивов данных, когда необходимо выделить лишь интересующие сведения из общего моря фактологии.

Перед статистикой ставятся всё новые и новые задачи, что способствует выделению для более скрупулёзного изучения отдельных отраслей из тела единой статистической науки. Поэтому статистическая наука сегодня представляет собой целостную систему научных дисциплин, состоящую из общей теории статистики, которая делится на две большие группы - экономической и социально-демографической статистики. В свою очередь эти две группы имеют деление на отрасли. Каждая из этих отраслей имеет свой объект исследования, выясняет сущность определённой системы показателей, разрабатывает правила и методы их получения и использования в научной и практической деятельности. Однако во всех отраслевых статистиках применяются принципы и методы общей теории статистики.

Рис. 2. Теория статистики и её разделы

Экономическая статистика изучает через систему показателей итоги трудов народного хозяйства, его составляющие, пропорции, взаимосвязи отраслей особенности размещения производительных сил, наличие материальных, трудовых и финансовых ресурсов, достигнутый уровень их использования; структуру, пропорции и элементы общественного воспроизводства.

Её отраслевые статистки представлены отдельными статистиками - промышленности, сельского хозяйства, строительства, транспорта, связи и т.п.

Социально-демографическая статистка изучает через систему показателей, характеризующих образ жизни и различные стороны социальных отношений общественную жизнь. Её отраслевые статистки представлены отдельными статистиками - права, демографическая, труда, политики, просвещения и других, задачей которых является изучение системы показателей, анализ социально-экономических процессов соответствующих отраслей народного хозяйства или сторон общественной жизни.

Каждая отраслевая статистика представляет собой науку о количественных изменениях, происходящих в соответствующих отраслях народного хозяйства и сферах общественной жизни. Задачей всех отраслевых статистик является разработка статистических показателей соответствующих отраслей.

Статистика развивается как единая наука, и развитие каждой отрасли содействует её совершенствованию в целом.

Точное описание и измерение общественных закономерностей одна самых из важных функций статистики.

1.3 Предмет статистики

Предмет познания и методы его изучения составляют признаки полноценной науки.

Предмет статистики исторически молод, до конца не сформирован и говоря языком физики минералов - его кристаллизация не завершена. Приведённые выше определения статистики ведущими учёными-экономистами оспариваются до сих пор. Поэтому остановимся на общих определениях.

Предметом статистики выступают размеры и количественные соотношения качественно определённых социально-экономических явлений, закономерности их связи и развития в конкретных условиях места и времени.

Свой предмет статистика изучает методом обобщающих показателей.

. Статистика как наука исследует не отдельные факты, но массовые социально-экономические явления и процессы, выступающие совокупно как множества отдельных фактов, обладающих как индивидуальными, так и общими признаками.

Задача статистического исследования состоит в получении обобщающих показателей и выявлении закономерностей общественной жизни в конкретных условиях места и времени, которые проявляются лишь в большой массе явлений через преодоление свойственной единичным элементам случайности.

Статистическая совокупность представляет множество единиц, обладающих массовостью, однородностью, определённой целостностью, взаимозависимостью состояний отдельных единиц и наличием вариации.

Единицей статистической совокупности называется каждый отдельно взятый элемент данного множества. Признаками единицы статистической совокупности является однородность, сходство единиц - объектов, явлений, процессов - по каким-либо существенным признакам, но различающихся по каким-либо другим признакам.

. Статистика как наука изучает, прежде всего, количественную сторону общественных явлений и процессов в конкретных условиях места и времени, т.е. предметом статистики выступают размеры и количественные соотношения социально-экономических явлений, закономерности их связи и развития. Также она изучает числовые соотношения размеров общественных явлений.

Количественную характеристику статистика выражает через определённого рода числа, которые называются статистическими показателями. Статистический показатель отражает результат измерения у единиц совокупности и совокупности в целом.

Статистический показатель имеет три обязательных атрибута - количественную определённость, место и время измерения. Место и время измерения понятны без перевода. Количественная определённость есть объективное свойство предмета познания статистикой. Количественные характеристики, устанавливаемые статистикой, не являются зафиксированными раз и навсегда, одинаковыми для всех единиц совокупности.

. Статистика как наука характеризует структуру общественных явлений. Структура представляет собой внутреннее строение массовых явлений, т.е. внутреннее строение статистического множества. Статистика должна эту структуру обнаружить, выразить и отразить с помощью статистических показателей.

При анализе структуры выявляются составные части социально-экономических явлений, которые сопоставляются с явлением в целом и между собой. Полученная структура сравнивается с другими однотипными структурами, а также с плановыми или нормативными для выявления причин отклонений.

Структура социально-экономических явлений изучается статистикой через систему признаков, которые определяются задачами, поставленными в заданный момент, в заданное время и на заданном месте.

. Статистика как наука изучает изменения в пространстве и времени, то есть, в статике и в динамике. Статика определяется посредством анализа структуры общественного явления, а динамика изучает изменения размера, уровня и структуры явления исследуются во времени.

. Статистика как наука изучает явления общественной жизни в их взаимосвязи, так как изменение одних явлений предопределяют другие; например, снижение затрат на сырьё и материалы приводит к снижению себестоимости, и наоборот.

Наибольшее значение имеет выявление причинно-следственных связей, чтобы воздействовать на общественные явления с целью их изменения в интересах общества. С помощью специальной методологии статистика определяет количественные связи между общественными явлениями.

Таким образом, статистика - это общественная наука, которая изучает количественную сторону качественно определённых массовых социально-экономических явлений и процессов, их структуру и распределение, размещение в пространстве, движение во времени, выявляя действующие количественные зависимости, тенденции и закономерности, причём в конкретных условиях места и времени.

1.4 Стадии и методы статистического исследования

Для изучения предмета статистики разработаны и применяются специфические приёмы, совокупность которых образует методологию статистики. Это методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод и др. Применение в статистике конкретных методов предопределяются поставленными задачами и зависит от исходной информации.

Диалектический метод познания является общей основой разработки и применения статистической методологии. Согласно нему общественные явления и процессы рассматриваются в развитии, взаимной связи и причинной обусловленности. Знание диалектических законов и категорий позволяет статистике правильно понять и истолковать явления, подлежащие статистическому исследованию, выбрать надлежащий инструмент и методологически правильный подход к их изучению.

Количество и качество, необходимость и случайность, причинность и закономерность, единичное и массовое, индивидуальное и общее - это диалектические категории статистики.

Методология статистики - это система приёмов, способов и методов, направленных на изучение количественных закономерностей, проявляющихся в структуре, динамике и взаимосвязях социально-экономических явлений.

Статистическое исследование состоит из трёх основных стадий:

Статистическое наблюдение - это первая стадия. В ходе её происходит сбор первичной статистической информации и данных, которые станут основой для будущего статистического анализа. Методы статистического наблюдения представлены переписями, статистической отчётностью, анкетированием, выборочным наблюдением.

Статистическая сводка - это вторая стадия. В ходе её происходит обработка первичной информации; обобщаются конкретные единичных сведения, образующие совокупность в целях выявления типичных черт и закономерностей, присущих изучаемому явлению в целом. Основным методом статистической сводки выступает группировка, когда изучаемые явления делятся на важнейшие типы, характерные группы и подгруппы по существенным признакам. Итоги статистической группировки и сводки излагаются в виде таблиц и графиков.

Обобщение и анализ статистической информации - это третья стадия. Статистический анализ является заключительной стадией статистического исследования.

Основными этапами анализа являются следующие действия:

) установление фактов и их оценка;

) установление характерных черт и причин явления;

) сопоставление явления с базовыми явлениями - нормативными, плановыми и прочими;

) формулирование гипотез, выводов и предположений;

) статистическая проверка выдвинутых гипотез с помощью специальных обобщающих статистических показателей.

Обобщающие показатели - абсолютные, относительные, средние величины и индексные системы -применяются именно на этой стадии. Общие черты формирования обобщающих показателей устанавливаются посредством измерения их отклонений и приведения к усреднённому показателю. Изучение отклонений - «вариаций» - вместе с применением средних и относительных величин имеет большое практическое и научное значение. Показатели отклонений «вариаций» характеризуют степень однородности статистической совокупности по искомому признаку. Показатели «вариаций» определяют степень и границы вариации. Значительный интерес представляет взаимосвязь признаков «вариаций».

Все эти три стадии неразрывно связаны между собой органическим единством. Так, проведение статистического наблюдения бессмысленно без дальнейшего анализа, а анализ невозможен без информации, полученной на стадии первичной обработки данных.

Следующая часть работы будет посвящена роли математики и её методов.

статистика математический парадокс гиффен

Глава 2. Математическая статистика

.1 Математическая статистика и её методы

Статистка, как отмечалось во Введении, сегодня имеет дело с количественной стороной явлений, поэтому она теснейшим образом связана с Математикой, а не с исходным для неё Правом. Статистика неразрывно связана с научными дисциплинами, изучающими основные закономерности и качественные особенности той или иной области явлений. Но она как никакая другая наука имеет дело, прежде всего, с количественной стороной явлений и поэтому она тесно связана с математикой.

В распоряжении статистики имеются такие средства, как массовое статистическое наблюдение (сплошное и выборочное), отчётность. Используются также системы показателей, всесторонне характеризующих явление, объект и совокупность в целом, сводные, групповые и комбинационные таблицы, представляющие результаты статистических группировок. При анализе методом статистических группировок изучаемая совокупность явлений расчленяется на однородные по отдельным признакам группы и подгруппы и каждая из них характеризуется системой статистических показателей

Математическая статистика - это, прежде всего, наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов.

Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надёжность и точность выводов, делаемых на основании ограниченного статистического материала.

Математическая статистика представляет собой раздел математики, предметом которой является разработка методов регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений. В зависимости от математической природы конкретных результатов наблюдений математическая статистика делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы.

В математической статистике также выделяют описательную статистику, теорию оценивания и теорию проверки гипотез.

Описательная статистика представляет собой совокупность эмпирических методов, используемых для визуализации и интерпретации данных.

Методы описательной статистики предполагают использование возможностей современных компьютеров, так как они используются как не только для расчётов, но и для графического моделирования в виде таблиц, диаграмм, графиков и т. д. С помощью компьютеров гораздо проще произвести как кластерный анализ, нацеленный на выделение групп объектов, похожих друг на друга, так и многомерное моделирование, позволяющее наглядно представить объекты на плоскости.

Методы оценивания и проверки гипотез опираются на вероятностные модели происхождения данных, которые делятся на параметрические и непараметрические. В параметрических моделях предполагается, что характеристики изучаемых объектов описываются посредством распределений, зависящих от одного или нескольких числовых параметров. Непараметрические модели не связаны со спецификацией параметрического семейства для распределения изучаемых характеристик.

В математической статистике оценивают параметры и функции от них, представляющие важные характеристики распределений - математическое ожидание, медиану, стандартное отклонение, а также плотности и функции распределения и пр. Для этого используют точечные и интервальные оценки.

Важным шагом в современной математической статистике стал статистический последовательный анализ, основной вклад в создание и развитие которого внес Абрахам Вальд (Wald Abraham, 30.10.1902 г., Австро-Венгрия - 13.12.1950 г., США). В отличие от традиционных (непоследовательных) методов статистического анализа, основанных на случайной выборке фиксированного объема, в последовательном анализе допускается формирование массива наблюдений по одному (или, более общим образом, группами), при этом решение об проведении следующего наблюдения (группы наблюдений) принимается на основе уже накопленного массива наблюдений. Ввиду этого, теория последовательного статистического анализа тесно связана с теорией оптимальной остановки.

В математической статистике есть общая теория проверки гипотез и большое число методов, посвящённых проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности, о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

В отличии полного наблюдения выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелесообразно. Физическая невозможность имеет место, например, при изучении пассажиропотоков, рыночных цен, семейных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением, например, дегустация, испытание кирпичей на прочность и т.п.

Статистические единицы, отобранные для наблюдения, составляют выборочную совокупность или выборку, а весь их массив - генеральную совокупность (ГС). При этом число единиц в выборке обозначают n, а во всей ГС - N. Отношение n/N называется относительный размер или доля выборки.

Качество результатов выборочного наблюдения зависит от репрезентативности выборки, то есть от того, насколько она представительна в ГС. Для обеспечения репрезентативности выборки необходимо соблюдать принцип случайности отбора единиц, который предполагает, что на включение единицы ГС в выборку не может повлиять какой-либо иной фактор кроме случая.

Существует 4 способа случайного отбора в выборку:

. Собственно случайный отбор или «метод лото», когда статистическим величинам присваиваются порядковые номера, заносимые на определенные предметы (карточки, бочонки), которые затем перемешиваются и выбираются наугад. На практике этот способ осуществляют с помощью генератора случайных чисел или математических таблиц случайных чисел.

. Механический отбор, согласно которому отбирается каждая (N/n)-я величина генеральной совокупности. Например, если она содержит 100 000 величин, а требуется выбрать 1 000, то в выборку попадет каждая 1000000 / 1000 = 1000-я величина. Причем, если они не ранжированы, то первая выбирается наугад из первой тысячи, а номера других будут на тысячу больше. Например, если первой оказалась единица №280, то следующей должна быть №1280, затем №2280, затем №3280 и т.д. Если единицы генеральной совокупности ранжированы, то первой выбирается №500, затем №1500, затем №2500 и так далее.

. Стратифицированный (расслоенный) отбор величин ведётся из неоднородного массива данных, когда генеральная совокупность предварительно разбивается на однородные группы, к которым применяется случайный или механический отбор.

. Серийный отбор представляет собой особый способ составления выборки, при котором случайно или механически выбирают не отдельные величины, а их серии (последовательности с какого-то номера по какой-то подряд), внутри которых ведут сплошное наблюдение.

Качество выборочных наблюдений зависит и от типа выборки, которая бывает повторной или бесповторной.

Повторный отбор означает, что попавшие в выборку статистические величины или их серии после использования возвращаются в генеральную совокупность, имея шанс попасть в новую выборку. При этом у всех величин генеральной совокупности одинаковая вероятность включения в выборку.

Бесповторный отбор означает, что попавшие в выборку статистические величины или их серии после использования не возвращаются в генеральную совокупность, а потому для остальных величин последней повышается вероятность попадания в следующую выборку.

Бесповторный отбор дает более точные результаты, поэтому применяется чаще. Но есть ситуации, когда его применить нельзя (изучение пассажиропотоков, потребительского спроса и т.п.) и тогда ведется повторный отбор.

Выборочную совокупность можно сформировать по количественному признаку статистических величин, а также по альтернативному или атрибутивному. В первом случае обобщающей характеристикой выборки служит выборочная средняя величина, обозначаемая , а во втором − выборочная доля величин, обозначаемая w. В генеральной совокупности соответственно: генеральная средняя и генеральная доля р. Разности и W − р называются ошибкой выборки, которая делится на ошибку регистрации и ошибку репрезентативности. Первая часть ошибки выборки возникает из-за неправильных или неточных сведений по причинам непонимания существа вопроса, невнимательности регистратора при заполнении анкет, формуляров и т.п. Она достаточно легко обнаруживается и устраняется. Вторая часть ошибки возникает из-за постоянного или спонтанного несоблюдения принципа случайности отбора. Ее трудно обнаружить и устранить, она гораздо больше первой и потому ей уделяется основное внимание.

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки Карлом Гауссом в 1794 г. метода наименьших квадратов.

Разработка методов аппроксимации (приближения) данных и сокращения размерности описания была начата более 100 лет назад, когда Карл Пирсон создал метод главных компонент.

Другими способами уменьшения размерности данных являются методы независимых компонент, многомерное шкалирование, а также нелинейные обобщения, такие как метод главных кривых и многообразий, метод упругих карт, поиск наилучшей проекции, нейросетевые методы сжатия данных («узкого горла»), самоорганизующиеся карты Кархунена и др.

Позднее были разработаны факторный анализ и многочисленные нелинейные обобщения.

Метод главных компонент и будет рассмотрен поподробнее.

 

.2 Метод главных компонент

 

Метод главных компонент (PCA - Principal component analysis) - один из основных способов уменьшить размерность данных при наименьшей потере сведений. Изобретенный в 1901 г. Карлом Пирсоном он широко применяется во многих областях. Например, для сжатия данных, «компьютерного зрения», распознавания видимых образов и т.д. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. Метод главных компонент часто называют преобразованием Кархунена-Лёве (Karhunen-Loeve transform) или преобразованием Хотеллинга (Hotelling transform). Также над этим вопросом работали математики Косамби (1943 г.), Пугачёв (1953 г.) и Обухова (1954 г.).

Задача анализа главных компонент имеет своей целью аппроксимировать (приблизить) данные линейными многообразиями меньшей размерности; найти подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (то есть среднеквадратичное отклонение от среднего значения) максимален; найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально. В этом случае оперируют конечными множествами данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных.

Кроме того задачей анализа главных компонент может быть цель построить для данной многомерной случайной величины такое ортогональное преобразование координат, что в результате корреляции между отдельными координатами обратятся в ноль. Эта версия оперирует случайными величинами.

 <#"555998.files/image006.gif">

Метод главных компонент начинался с задачи наилучшей аппроксимации (приближения) конечного множества точек прямыми и плоскостями. Например, дано конечное множество векторов . Для каждого k = 0,1,...,n − 1 среди всех k-мерных линейных многообразий в найти такое , что сумма квадратов уклонений xi от Lk минимальна:

,

Всякое k-мерное линейное многообразие в может быть задано как множество линейных комбинаций , где параметры βi пробегают вещественную прямую , а  − ортонормированный набор векторов

,

где евклидова норма,  − евклидово скалярное произведение, или в координатной форме:

.

Решение задачи аппроксимации для k = 0,1,...,n − 1 даётся набором вложенных линейных многообразий

,

.

Эти линейные многообразия определяются ортонормированным набором векторов (векторами главных компонент) и вектором a0. Вектор a0 ищется, как решение задачи минимизации для L0:


то есть

.

В итоге получается выборочное среднее:


Французский математик Морис Фреше в 1948 году обратил внимание, что вариационное определение среднего, как точки, минимизирующей сумму квадратов расстояний до точек данных, очень удобно для построения статистики в произвольном метрическом пространстве, и построил обобщение классической статистики для общих пространств, получившее название обобщённого метода наименьших квадратов.

Векторы главных компонент могут быть найдены как решения однотипных задач оптимизации:

1) централизуем данные (вычитаем среднее):

Теперь ;

) находим первую главную компоненту как решение задачи;

.

Если решение не единственно, то выбираем одно из них.

) Вычитаем из данных проекцию на первую главную компоненту:

;

) находим вторую главную компоненту как решение задачи

.

Если решение не единственно, то выбираем одно из них.

k-1) Вычитаем проекцию на (k − 1)-ю главную компоненту (напомним, что проекции на предшествующие (k − 2) главные компоненты уже вычтены):

;

k) находим k-ю главную компоненту как решение задачи:

.

Если решение не единственно, то выбираем одно из них.

 <#"555998.files/image033.gif">, где среднее арифметическое значение xi равно нулю. Задача − найти такое отртогональное преобразование в новую систему координат, для которого были бы верны следующие условия:

.        <#"555998.files/image034.gif">

(поскольку данные центрированы, выборочная дисперсия здесь совпадает со средним квадратом уклонения от нуля).

Решение задачи о наилучшей аппроксимации даёт то же множество главных компонент , что и поиск ортогональных проекций с наибольшим рассеянием, по очень простой причине:


и первое слагаемое не зависит от ak.

Матрица преобразования данных к главным компонентам строится из векторов «A» главных компонент:


Здесь ai - ортонормированные векторы-столбцы главных компонент, расположенные в порядке убывания собственных значений, верхний индекс T означает транспонирование. Матрица A является ортогональной: AAT = 1.

После преобразования большая часть вариации данных будет сосредоточена в первых координатах, что даёт возможность отбросить оставшиеся и рассмотреть пространство уменьшенной размерности.

Самым старым методом отбора главных компонент является правило Кайзера, по которому значимы те главные компоненты, для которых


то есть λi превосходит среднее значение λ (среднюю выборочную дисперсию координат вектора данных). Правило Кайзера хорошо работает в простых случаях, когда есть несколько главных компонент с λi, намного превосходящими среднее значение, а остальные собственные числа меньше него. В более сложных случаях оно может давать слишком много значимых главных компонент. Если данные нормированы на единичную выборочную дисперсию по осям, то правило Кайзера приобретает особо простой вид: значимы только те главные компоненты, для которых λi > 1.

Одним из наиболее популярных эвристических подходов к оценке числа необходимых главных компонент является правило сломанной трости, когда набор нормированных на единичную сумму собственных чисел (, i = 1,...n) сравнивается с распределением длин обломков трости единичной длины, сломанной в n − 1-й случайно выбранной точке (точки разлома выбираются независимо и равнораспределены по длине трости). Если Li (i = 1,...n) - длины полученных кусков трости, занумерованные в порядке убывания длины: , тогда математическое ожидание Li:


Разберём пример, заключающийся в оценке числа главных компонент по правилу сломанной трости в размерности 5.

 <#"555998.files/image043.gif">

На рисунке выше приведён пример для 5-мерного случая:

1=(1+1/2+1/3+1/4+1/5)/5; l2=(1/2+1/3+1/4+1/5)/5; l3=(1/3+1/4+1/5)/5; 4=(1/4+1/5)/5; l5=(1/5)/5.

Для примера выбрано

=0.5; =0.3; =0.1; =0.06; =0.04.

По правилу сломанной трости в этом примере следует оставлять 2 главных компоненты:


Следует только иметь в ввиду, что правило сломанной трости имеет тенденцию занижать количество значимых главных компонент.

После проецирования на первые k главных компонент с удобно произвести нормировку на единичную (выборочную) дисперсию по осям. Дисперсия вдоль iй главной компоненты равна ), поэтому для нормировки надо разделить соответствующую координату на . Это преобразование не является ортогональным и не сохраняет скалярного произведения. Ковариационная матрица проекции данных после нормировки становится единичной, проекции на любые два ортогональных направления становятся независимыми величинами, а любой ортонормированный базис становится базисом главных компонент (напомним, что нормировка меняет отношение ортогональности векторов). Отображение из пространства исходных данных на первые k главных компонент вместе с нормировкой задается матрицей

.

Именно это преобразование чаще всего называется преобразованием Кархунена-Лоэва, то есть собственно методом главных компонент. Здесь ai - векторы-столбцы, а верхний индекс T означает транспонирование.

В статистике при использовании метода главных компонент используют несколько специальных терминов.

Матрица данных , где каждая строка - вектор предобработанных данных (центрированных и правильно нормированных), число строк - m (количество векторов данных), число столбцов - n (размерность пространства данных);

Матрица нагрузок (Loadings) , где каждый столбец - вектор главных компонент, число строк - n (размерность пространства данных), число столбцов - k (количество векторов главных компонент, выбранных для проецирования);

Матрица счетов (Scores)

,

где каждая строка - проекция вектора данных на k главных компонент; число строк - m (количество векторов данных), число столбцов - k (количество векторов главных компонент, выбранных для проецирования);

Матрица Z-счетов (Z-scores)

,

где каждая строка- проекция вектора данных на k главных компонент, нормированная на единичную выборочную дисперсию; число строк - m (количество векторов данных), число столбцов - k (количество векторов главных компонент, выбранных для проецирования);

Матрица ошибок (остатков) (Errors or residuals)

.

Основная формула:


Таким образом, Метод главных компонент, один из основных методов математической статистики. Основным предназначением его является разграничение между необходимостью исследования массивов данных при минимуме их использования.

2.3 Применение Метода главных компонент


Метод главных компонент применим всегда. Утверждение о том, что он применим только к нормально распределённым данным (или для распределений, близких к нормальным) многими математиками считается неверным, так как в исходной формулировке К. Пирсона ставится задача об аппроксимации конечного множества данных и отсутствует даже гипотеза об их статистическом порождении, не говоря уж о распределении.

 <#"555998.files/image061.gif">, определённых на одном вероятностном пространстве . То есть их ковариация (в теории вероятностей это мера линейной зависимости двух случайных величин) . Пусть . Обозначим Sn выборочное среднее первых n членов:

.

Тогда .

Усиленный закон больших чисел можно представить примером такого рода - «Пусть есть бесконечная последовательность независимых одинаково распределённых случайных величин , определённых на одном вероятностном пространстве . Пусть . Обозначим Sn выборочное среднее первых n членов:

.

Тогда почти наверное.

Общий смысл Закона больших чисел заключается в том, что совместное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая. На этом свойстве основаны методы оценки вероятности на основе анализа конечной выборки. Наглядным примером является прогноз результатов выборов на основе опроса выборки избирателей.

2.5 Ложь, наглая ложь, статистика и парадокс сэра Гиффена


«Ложь, наглая ложь и статистика» есть цитата из высказывания о том, что «существуют три вида лжи: ложь, наглая ложь и статистика», которое обыденно приписывается премьер-министру Великобритании Бенджамину Дизраэли (21.12.1804 г. - 19.04.1881 г.). Известность оно получило благодаря Марку Твену, обнародовавшему «Главы моей биографии» в журнале «Северо-Американское обозрение» («North American review») 05 июля 1907 г.: «Цифры обманчивы, - писал он, - я убедился в этом на собственном опыте; по этому поводу справедливо высказался Дизраэли: «Существует три вида лжи: ложь, наглая ложь и статистика». Однако этого высказывания в работах Дизраэли нет.

Сейчас известно, что впервые это высказывание было использована в письме, написанном 8 июня 1891 года и опубликованном 13 июня 1891 года в журнале «Народный обозреватель» («National Observer»): «Сэр, … очень остроумно замечено, что существует три вида лжи: первая - неправда, вторая - прямая ложь, и, наконец, самое страшное - это статистика».

Однако как упоминает экономист Манчестерской школы сэр Роберт Гиффен (sir Robert Giffen, 1837-1910 гг.), помощник редактора журнала The Economist, а в 1882-1884 г.г. Президент Британского Статистического Общества, высказывание «о статистике» лишь интерпретация фразы - «Есть старая шутка о том, что существует три вида лжецов: обычные обманщики, возмутительные лжецы и научные эксперты. Лишь позже стали говорить несколько иначе: есть три степени лжи: ложь, бессовестная ложь и статистика». Но до этого в журнале «Природа» (Nature) от 26 ноября 1885 г. было размещена заметка, содержавшая высказывание о том, что «…одному известному адвокату, в настоящее время - судье, пришло в голову разделить свидетелей на три группы: простые лжецы, проклятые лгуны, и эксперты».

Таким образом, статистика совершенно не при чём, а речь идёт об очередном заимствовании из права, то есть о перенесении греха юриспруденции на чистую математику.

К слову Роберт Гиффен автор «парадокса Гиффена о дешёвых и дорогих товарах». Суть его заключается в том, что при повышении цен на определённые виды товара (в основном товары первой необходимости) их потребление в ценовом выражении повышается за счёт экономии на других товарах.

Рис. 7. Парадокс Гиффена

Существуют несколько математических моделей, объясняющих существование товаров Гиффена.

Например, задан доход потребителя S. При ценах на товары потребитель выбирает потребление в соответствии с какими-то критериями. Если у какого-то товара i при заданных будет , этот товар и будет товаром Гиффена.

Примерами «товаров Гиффена» были картофель во время голода в Ирландии 1845-1849 гг. «Товарами Гиффена» являются также рис и макароны в Китае, бензин в США, спички в СССР. Ярким современным примером «товаров Гиффена» являются банковские «продукты» - кредиты. При повышении процентной ставки по кредиту, то есть повышению цены кредита, происходит увеличение доли расходов на обслуживание кредита за счёт сокращения других расходов.

Парадокс Гиффена прекрасно раскрывается простым советским анекдотом.

«Дитё обращается к папеньке:

Батюшка! В связи с многочисленными обращениями советских трудящихся с просьбой поднять цены на алкоголь, Коммунистическая Партия Советского Союза откликнулась на эти пожелания. Означает ли это, что Вы будете меньше пить?

Нет, чадо моё! Это означает, что Вы с маменькой будете меньше жрать!»

Практически Гиффен лишь математически изложил общеизвестные отношения, правомерно закрепив за ними своё имя.

Другим направлением, пришедшим в статистику из математики, является комбинаторика. Комбинаторика это раздел элементарной математики, связанный с изучением количества комбинаций, подчинённых тем или иным условиям, которые можно составить из заданного конечного множества объектов (буквы, цифры, какие-либо предметы и т.п.). Также под комбинаторикой понимают конкретный «комбинаторный анализ».

В силу невозможности отвлечься на столь важное направление придётся ограничиться для раскрытия темы этого предмета такой забавной историей.

«Студенты для пересдачи экзамена по комбинаторике прибыли вечером на дом к Профессору, который проживал в с супругой и юной дочерью в трёхспальной квартире.

После шумной и продуктивной сдачи экзамена студенты были уже не в силах покинуть жилище гостеприимного, но острожного Профессора, на что получили предложение заночевать в свободной комнате. Профессор желал разделить одну комнату с супругой, в другой юную дочь, а в третьей - обоих учащихся.

Сии юноши пусть и были утомлены экзаменами, но один из них проснувшись возжелал разделить ложе с юной дочерью Профессора. Обнаружив в одной из комнат одинокую голову над одеялом он юркнул к Профессорской дщери.

Профессор, обуреваемый мыслью о лишении девственности дщери студиозусами решил предпринять превентивные меры и обезопасить дщерь своим присутствием под койкой. Обнаружив в одной из комнат одинокую голову над одеялом он юркнул к одинокому студиозусу, который проснувшись также решил удовлетворить свою похоть с Профессорской дщерью. Обнаружив в одной из комнат одинокую голову над одеялом он юркнул к Профессорской супруге.

Утром Профессор проснулся один-одинёшенек и обнаружил одного учащегося комбинаторике спящим с дщерью, а другого с супругой. В сердцах он воскликнул: «Такой блядской комбинаторики у меня никогда не было!!!»

Итак, начав со спасения чести мундира Статистики мы выяснили, что Статистика оказался в знаменитом лживом ряду не совсем справедливо, так как она оказалась жертвой ещё одного анекдота из жизни следователей, в ходе которого изыскивалась потенциальная воровка. Жертвой подозрений была женщина, на которую соответственно было обращено обвинение. Однако в ходе следствия было установлено её железное алиби и обвинение пришлось снять. Однако «хоть украла и не она, но неприятный осадок остался». Точно также произошло и со Статистикой, которой приписали «подвиги» экспертного сообщества и издержек отправления правосудия.

Поэтому Статистике лучше держаться чистой математики.

Заключение

Итак, Статистика сегодня это фундаментальная базовая отрасль научных экономических знаний. На протяжении многих веков теоретические проблемы статистики разрабатывались сначала философами и политическими деятелями, затем галантерейщиками, астрономами и физиками, а ныне это область применения усилий экономистов и математиков.

Возникнув из потребностей практических задач государства, статистика заняла важное место в системе государственного управления. В настоящее время статистические методы применяются для анализа различных социально-экономических явлений; при исследовании рынка; аудиторских проверках; в управлении и прогнозировании; при оценке финансового состояния хозяйствующих субъектов; ценообразовании; страховании.

Статистика сегодня представляет собой практическую деятельность по сбору, обработке и анализу статистических данных.

Поэтому Статистика - это огромный информационно-справочный материал, характеризующий все стороны функционирования и развития того или иного хозяйствующего субъекта: индивидуального предпринимателя, фирмы, предприятия, отрасли, региона, национального хозяйства в целом.

Роль математики в современной статистики огромна. Столь же велико и количество методов математического анализа статистических данных.

Своеобразное положение статистки в системе наук определяет её органическая связь с научными дисциплинами, изучающими основные закономерности и качественные особенности в той или иной области явлений.

Литература

1.   Едронова В.Н., Едронова М.В. Общая теория статистики: Учебник - М.: Юристъ, 2001. - 511 с.

.     Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1983.

3.       Вальд А., Последовательный анализ, пер. с англ.- М.: Физматгиз, 1960.

4.   Ватутин В.А. и др. Теория вероятностей и математическая статистика в задачах: Учеб. пособие для вузов / В.А. Ватутин, Ивченко Г.И., Медведев Ю.И. и др. - 2-е изд., испр. - М.: Дрофа, 2003. - 328 с: ил.

5.       Вероятностные разделы математики / Под ред. Максимова Ю.Д.. - Спб.: «Иван Фёдоров», 2001. - С. 400. - 592 с. - ISBN 5-81940-050-X <http://ru.wikipedia.org/wiki/%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:BookSources/581940050X>

6.   Вероятность и математическая статистика. Энциклопедия/Гл. ред. Прохоров Ю. В. - М.: Изд-во «Большая Российская Энциклопедия», 1999.

.     Виленкин Н.Я., Потапов В.Г. Задачник-практикум по теории вероятностей с элементами комбинаторики и математической статистики. М.: Просвещение, 1979. - Моск. гос. заочн. пед. ин-т.

.     Войнович В., «Жизнь и необычайные приключения солдата Ивана Чонкина», - Москва, «Юность», 1988 г., №12, 1989 г., №1 и №2.

.     Гусаров В.М. Статистика: Учеб. Пособие для вузов. - М.: ЮНИТИ - ДАНА, 2002 - 463 с.

10.     Зиновьев А.Ю., Визуализация многомерных данных <http://pca.narod.ru/ZINANN.htm>, Красноярск, Изд. КГТУ, 2000 г.

.        Ниворожкина Л.П., Морозова 3.А., Герасимова И.А., Житников И.В. Основы статистики с элементами теории вероятностей для экономистов: Руководство для решения задач. - Ростов н/Д: Феникс, 1999. - 320 с.

12. Никитина Е.П., Фрейдлина В.Д., Ярхо А.В. Коллекция определений термина «статистика». - Москва: МГУ, 1972 г.

13.     --Орлов А. И. Прикладная статистика. Учебник.  М.: Экзамен, 2006.  671 с. <http://orlovs.pp.ru/stat.php>

.        Плошко Б.Г., Елисеева И.И. История статистики: Учеб. пособие. - Москва, Ленинград: Финансы и статистика, 1990.

.        Савюк Л.К. Правовая статистика: Учебник - М.: Юристъ, 2002. - 588 с.

.        Теория статистики: Учебник (Под ред. проф. Шмойловой Р.А. - 3-е изд., перераб. - М.: Финансы и статистика, 2002. - 560 с.

.        Харман Г., Современный факторный анализ. - М.: Статистика, 1972. - 486 с.

.        Ширяев А.Н. Статистический последовательный анализ. Оптимальные правила остановки - М.: Наука, 1976

19.     Gorban A.N., Kegl B., Wunsch D., Zinovyev A.Y. (Eds.), Principal Manifolds for Data Visualisation and Dimension Reduction <http://pca.narod.ru/contentsgkwz.htm>, Series: Lecture Notes in Computational Science and Engineering <http://www.springer.com/west/home/math/cse?SGWID=4-10045-69-173622682-0> 58, Springer, Berlin - Heidelberg - New York, 2007, XXIV, 340 p. 82 illus. ISBN 978-3-540-73749-0 <http://ru.wikipedia.org/wiki/%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:BookSources/9783540737490>.

20.     Диссертация T. Хасти: Hastie T., Principal Curves and Surfaces <http://www.slac.stanford.edu/pubs/slacreports/slac-r-276.html>, Ph.D Dissertation, Stanford Linear Accelerator Center, Stanford University, Stanford, California, US, November 1984. Сайт PCA <http://pca.narod.ru/HastieThesis.htm>.

.        Yin H. Learning Nonlinear Principal Manifolds by Self-Organising Maps <http://pca.narod.ru/contentsgkwz.htm>, In: Gorban A. N. et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0 <http://ru.wikipedia.org/wiki/%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:BookSources/9783540737490>

.        Hyvdrinen A, Karhunen J., and Oja E., Independent Component Analysis, A Volume in the Wiley Series on Adaptive and Learning Systems for Signal Processing, Communications, and Control. - John Wiley & Sons, Inc., 2001. - XVI+481 pp. ISBN 0-471-40540-X <http://ru.wikipedia.org/wiki/%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:BookSources/047140540X>

Похожие работы на - Математическая статистика и её частные методы

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!