Анализ интервального вариационного ряда 'Численность экономически активного населения по субъектам Российской Федерации в 2012 году'

  • Вид работы:
    Курсовая работа (т)
  • Предмет:
    Эктеория
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    235,29 Кб
  • Опубликовано:
    2014-07-14
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Анализ интервального вариационного ряда 'Численность экономически активного населения по субъектам Российской Федерации в 2012 году'

Содержание

Введение

1. Табличное и графическое представление вариационного ряда

1.1 Ранжирование исходных данных, определение наличия выбросов

1.2 Определение числа групп

1.3 Определение величины интервала

1.4 Графическое изображение вариационного ряда

1.5 Графическое изображение рядов распределения

2. Характеристика центральной тенденции распределения

3. Оценка вариации изучаемого признака

4. Характеристика структуры распределения

5. Характеристика формы распределения

6. Сглаживание эмпирического распределения

Заключение

Список использованной литературы

Введение

Статистическое наблюдение

Статистическим наблюдением является:

Массовое (оно охватывает большое число случаев) проявление исследуемого явления для получения правдивых статистических данных;

Планомерное (проводится по разработанному плану), включающее вопросы методологии, организации сбора и контроля достоверности информации;

Систематическое (проводится систематически, либо непрерывно, либо регулярно);

Научно организованное (для повышения достоверности данных), которое зависит от программы наблюдения, содержания анкет, качества подготовки инструкций наблюдения за явлениями и процессами социально-экономической жизни, которое заключается в сборе и регистрации отдельных признаков у каждой единицы совокупности. [1]

Для успешной подготовки и проведения статистического наблюдения необходимо решить программно-методологические, организационные вопросы, для реализации которых нужно составить организационный план статистического наблюдения.

Организационный план - это документ, в котором должны быть отражены важнейшие вопросы по организации и проведению предстоящих мероприятий. Он составляется для того, чтобы успешно проводить статистические наблюдения. В нем указываются: органы, проводящие наблюдение, время и сроки наблюдения, подготовительные работы, которые были проведены для дальнейшего наблюдения, порядок комплектования и обучения кадров, необходимых для проведения статистического наблюдения, порядок его проведения, порядок приема и сдачи материалов, получение и предоставление предварительных и окончательных итогов. Вопрос о времени проведения статистического наблюдения должен быть обязательно решен, включая выбор сезона, срока и критического момента наблюдения.

Для того чтобы выбрать сезон, нужно проследить, чтобы изучаемый объект пребывал в обычном для него состоянии.

Время начала и окончания сбора статистических данных называют периодом, или сроком.

Срок наблюдения определяется рядом факторов: он зависит от специфики и особенностей объекта наблюдения.

Критическим моментом статистического наблюдения называют момент времени, по состоянию на который фиксируются собранные данные, которые получены в процессе статистического наблюдения, например, выбирают момент окончания одних суток и начала других.

Организация, осуществляющая подготовку, проведение статистического наблюдения и несущая ответственность за свою работу, - это орган наблюдения. У органа наблюдения должны быть четко определены сферы деятельности, функции, права, круг обязанностей, за которые он несет ответственность.

Место, где происходит регистрация наблюдаемых фактов и заполнение статистических формуляров, называют местом статистического наблюдения.

В ходе проведения статистического наблюдения важной задачей является получение достоверных и объективных данных о состоянии обследуемых объектов. Существенное значение для проведения хорошего статистического наблюдения имеет определение кадрового состава.

Успешное проведение статистического наблюдения обеспечивается четкой структурой и разработанностью его организационного плана.

Ошибки статистического наблюдения

Важнейшей задачей статистического наблюдения является достоверность и точность собираемой статистической информации.

Любое статистическое наблюдение предполагает получение данных, которые будут полно и точно отражать действительность.

В процессе проведения статистического наблюдения могут возникать погрешности, которые приводят к снижению достоверности статистического наблюдения.

Основное требование, которое предъявляется к статистическому наблюдению - это точность статистических данных.

Точность - это уровень соответствия значения какого-либо признака или показателя, который был получен вследствие статистического наблюдения, действительному его значению. В процессе подготовки и проведения статистического исследования, чтобы предупредить возможность появления отклонений или разности между исчисленными показателями, нужно предусмотреть и осуществить ряд мероприятий. Если же такие отклонения возникли, их называют ошибками статистического наблюдения.

Материалы, собранные в результате наблюдения, подвергаются всесторонней проверке и контролю. Они проверяются с точки зрения полноты охвата всех единиц совокупности наблюдения и правильности заполнения документов контроля.

Ошибки статистического наблюдения - это ошибки репрезентативности и ошибки регистрации.

Ошибки репрезентативности показывают, в какой степени выборочная совокупность представляет генеральную совокупность. Эти ошибки возникают потому, что наблюдению подвергается только часть единиц изучаемой совокупности, и сведения эти не могут абсолютно точно отобразить свойства всей массы явлений совокупности.

Возникающие в результате неправильного установления фактов ошибки регистрации можно подразделить на:

случайные - это ошибки, которые могут дать искажения как в одну, так и в другую сторону;

систематические ошибки, возникающие вследствие нарушения принципов непреднамеренного отбора единиц изучаемой совокупности. Систематические ошибки опасны, потому что они влияют на полученные итоговые показатели;

преднамеренные ошибки возникают вследствие умышленного искажения фактов.

Для обеспечения достоверности данных статистического наблюдения предусматривают проверку их качества с точки зрения полноты охвата изучаемого объекта статистическим наблюдением, качества и др.

Проверка данных статистического наблюдения на достоверность - это проведение логического, арифметического и синтаксического контроля.

Содержание и значение статистической сводки

Сведения о каждой единице анализируемой совокупности, полученные в результате первой стадии статистического исследования, характеризуют статистическое наблюдение с различных его сторон, так как они обладают многочисленными признаками и свойствами, которые изменяются во времени и пространстве. Для получения сводной характеристики всего объекта при помощи обобщающих показателей нужно систематизировать и обобщить результаты, которые были получены в ходе статистического наблюдения. Это даст нам возможность выявить особенности и черты статистической совокупности в целом и отдельных ее составляющих, обнаружить закономерности изучаемых социально-экономических явлений и процессов. Данную систематизацию называют сводкой первичного статистического материала.

Второй этап статистической работы - статистическая сводка - это обработка первичных данных в целях получения обобщенных характеристик изучаемого явления или процесса по ряду существенных для него признаков для выявления типичных черт и закономерностей, присущих явлению или процессу в целом.

Статистическая сводка - это переход от единичных данных к сведениям о группах единиц и совокупности в целом.

Проведение сводки включает три этапа:

предварительный контроль - это проверка данных;

группировка данных по заданным признакам - это определение производных показателей;

оформление результатов сводки в виде статистических таблиц, они являются удобной формой для восприятия полученной информации.

Смысловая согласованность статистических сведений - это предварительный контроль.

В соответствии с программой статистической сводки для того, чтобы в дальнейшем предоставить полученную информацию в доступном для восприятия виде, используется статистическая группировка данных.

Полученные результаты группировки оформляются в виде группировочных таблиц, содержащих сводную характеристику исследуемой совокупности по одному или нескольким признакам, которые взаимосвязаны логикой анализа.

Различают сводку простую и сложную.

Виды сводок

Простая статистическая сводка - это операция по подсчету общих итоговых и групповых данных по совокупности единиц наблюдения и оформление этого материала в таблицах.

Простая статистическая сводка дает возможность определить число единиц изучаемой совокупности и объем изучаемых признаков, но тем самым простая сводка не дает представления о целостности состава изучаемой совокупности.

Если единицы совокупности разбивают на однородные группы, после этого подсчитывают итоги по каждой группе, а затем по всей совокупности в целом, такую статистическую сводку называют сложной.

Сложная сводка позволяет нам изучить состав совокупности и выявить влияние одних признаков на другие, т. е. раскрыть свойственные данной совокупности закономерности.

Сложная статистическая сводка - это комплекс операций, включающих распределение единиц наблюдения изучаемого социально-экономического явления или процесса на группы, составление системы показателей для характеристики типичных групп и подгрупп изучаемой совокупности явлений, подсчет числа единиц и итогов в каждой группе и подгруппах и оформление результатов этой работы в виде статистических таблиц.

На основе всестороннего теоретического анализа сущности и содержания изучаемых явлений и процессов проводится статистическая сводка.

Программой и планом проведения статистической сводки обеспечивается достоверность и обоснованность ее результатов.

Программа статистической сводки содержит перечень групп, на которые может быть разбита или разбивается совокупность единиц статистического наблюдения, а также систему показателей, характеризующих изучаемую совокупность явлений и процессов как в целом, так и отдельных ее частей.

От целей и задач исследования зависит программа статистической сводки.

Вместе с программой статистической сводки составляют план ее проведения. План должен содержать информацию о последовательности, сроках и технике проведения сводки, ее исполнителях, о порядке и правилах оформления ее результатов в виде таблиц.

Сущность и классификация группировок

Статистическая группировка - это один из основных этапов проведения статистического исследования.

Процесс образования однородных групп на основе разделения статистической совокупности на части или объединение изучаемых статистических единиц в совокупности по определенным для них признакам называют статистической группировкой. Важнейшим статистическим методом обобщения данных являются статистические группировки.

В литературе [2] выделяют следующие виды статистических группировок:

типологические;

структурные;

аналитические

Качественно однородные группы совокупностей, называют типологической группировкой.

Для построения типологической группировки необходимо воспользоваться количественными и качественными (атрибутивными) признаками.

Разделение однородной совокупности на определенные группы, которые в дальнейшем будут характеризовать структуру по определенному группировочному признаку, называют структурной группировкой.

Здесь также рассматриваются количественные и атрибутивные группировки.

Статистические ряды распределения

Статистические ряды распределения представляют собой упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку.

Различают атрибутивные и вариационные ряды распределения.

Атрибутивный - это ряд распределения, построенный по качественным признакам.

По количественному признаку строится вариационный ряд распределения. Он состоит из частоты (численности) отдельных вариантов или каждой группы вариационного ряда. Данные числа показывают, насколько часто встречаются различные варианты (значения признака) в ряду распределения. Сумма всех частот определяет численность всей совокупности.

В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды распределения. В дискретном вариационном ряде распределения группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

В интервальном вариационном ряде распределения группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения.

Вариационные ряды состоят из двух элементов: частоты и варианты.

Вариантой называют отдельное значение варьируемого признака, которое он принимает в ряду распределения.

Частота - это численность отдельных вариант или каждой группы вариационного ряда. Если частоты выражены в долях единицы или в процентах к итогу, то их называют частостями.

Плотность распределения - это отношение числа единиц совокупности к ширине интервала.

Анализ рядов распределения можно проводить на основе их графического изображения. Линейчатые и круговые диаграммы строятся для отображения структуры совокупности.

Применяются вместе с диаграммами и такие линии, как полигон, кумулята, огива, гистограмма.

Полигон - ломаная кривая, строится на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У - частоты.

Гладкая кривая, соединяющая точки - это эмпирическая плотность распределения.

Кумулята - ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У - накопленные частоты.

Для дискретных рядов на оси откладываются сами значения признака, а для интервальных - середины интервала.

На основе гистограмм можно строить диаграммы накопленных частот с последующим построением интегральной эмпирической функции распределения.

1. Табличное и графическое представление вариационного ряда

.1 Ранжирование исходных данных, определение наличия выбросов

Первым этапом статистического изучения вариации являются построение вариационного ряда - упорядоченного распределения единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.

Существуют три формы вариационного ряда:

ранжированный ряд;

дискретный ряд;

интервальный ряд.

Вариационный ряд часто называют рядом распределения.

Этот термин используется при изучении вариации как количественных, так и неколичественных признаков.

Ряд распределения представляет собой структурную группировку.

Ранжированный ряд - это перечень отдельных единиц совокупности в порядке возрастания (убывания) изучаемого признака.

Если численность единиц совокупности достаточно велика, ранжированный ряд становится громоздким, а его построение, даже с помощью ЭВМ, занимает длительное время. В таких случаях вариационный ряд строится с помощью группировки единиц совокупности по значениям изучаемого признака.

Если признак принимает небольшое число значений, строится дискретный вариационный ряд.

Дискретный вариационный ряд - это таблица, состоящая из двух строк или граф: конкретных значений варьирующего признака Хi и числа единиц совокупности с данным значением признака F частот (F - начальная буква англ. Слова frequency)

1.2 Определение числа групп

Число групп в дискретном вариационном ряду определяется числом реально существующих значений варьирующего признака.

Если же признак может принимать дискретные значения, то их число очень велико (например, поголовье скота на 1 января года в разных сельхозпредприятиях может составлять от нуля до десятков тысяч голов), тогда строится интервальный вариационный ряд.

Интервальный вариационный ряд строится и для изучения признаков, которые могут принимать любые, как целые, так и дробные, значения в области своего существования. Таковы, например, рентабельность реализованной продукции, себестоимость единицы продукции, доход на 1 жителя города, доля лиц с высшим образованием среди населения разных территорий и вообще все вторичные признаки, значения которых рассчитываются путем деления величины одного первичного признака на величину другого

Интервальный вариационный ряд представляет собой таблицу, (состоящую из двух граф (или строк) - интервалов признака, вариация которого изучается, и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа от общей численности совокупности (частостей).

При построении интервального вариационного ряда необходимо выбрать оптимальное число групп (интервалов признака) и установить длину интервала.

Поскольку при анализе вариационного ряда сравнивают частоты в разных интервалах, необходимо, чтобы величина интервала была постоянной. Оптимальное число групп выбирается так, чтобы в достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределения, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится йные скачки частот исказят форму распределения.

Чаще всего число групп в вариационном ряду устанавливают, придерживаясь формулы (1.1), рекомендованной американским статистиком Стерджессом (Sturgess):

 (1.1)

где k - число групп; n - численность совокупности.

Эта формула показывает, что число групп - функция объема данных.

Предположим, необходимо построить вариационный ряд распределения предприятий области по урожайности зерновых культур за какой-то год. Число сельхозпредприятий, имевших посевы зерновых культур, составило 143; наименьшее значение урожайности равно 10,7 ц/га, наибольшее - 53,1 ц/га.

Имеем:

k=1+3.32*lq*143=8,16

Так как число групп целое, следовательно, рекомендуется построить 8 или 9 групп.

1.3 Определение величины интервала

Зная число групп, рассчитывают величину интервала:

       (1.2)

В нашем примере величина интервала составляет:

а) при 8 группах= (53,1-10,7)/8 =5,3 ц/га

б) при 9 группах= (53,1-10,7)/9  =4,7 ц/га

Для построения ряда и анализа вариации значительно лучше иметь по возможности округленные значения величины интервала и его границ. Поэтому наилучшим решением будет построение вариационного ряда с 9 группами с интервалом, равным 5 ц/га.

Границы интервалов могут указываться разным образом: верхняя граница предыдущего интервала повторяет нижнюю границу следующего или не повторяет.

В последнем случае второй интервал будет обозначен как 15,1-20, третий как 20,1-25 и т.д., т.е. предполагается, что все значения урожайности обязательно округлены до одной десятой. Кроме того, возникает нежелательное осложнение с серединой интервала 15,1-20, которая, строго говоря, уже будет равна не 17,5, а 17,55; соответственно при замене округленного интервала 40-60 на 40,1-6,0 вместо округленного значения его середины 50 получим 50,5, Поэтому предпочтительнее оставить интервалы с повторяющейся округленной границей и договориться, что единицы совокупности, имеющие значение признака, равное границе интервала, включаются в тот интервал, где это точное значение впервые указывается. Так, хозяйство, имеющее урожайность, равную 15 ц/га, включается в первую группу, значение 20 ц/га -во вторую и т. д.

.4 Графическое изображение вариационного ряда

Существенную помощь в анализе вариационного ряда и его свойств оказывает графическое изображение.

Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные на оси абсцисс, - это интервалы значений варьирующего признака, а высоты столбиков - частоты, -соответствующие масштабу по оси ординат.

Данные таблиц показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже - крайние; малые и большие значения признака. Форма этого распределения близка к рассматриваемому в курсе математической статистики закону нормального распределения.

Великий русский математик А.М. Ляпунов (1857 - 1918) доказал, что нормальное распределение образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего влияния.

Случайное сочетание множества примерно равных факторов, влияющих на вариацию урожайности зерновых культур, как природных, так и агротехнических, экономических, создает близкое к нормальному закону распределения распределение хозяйств области по урожайности.

Если имеется дискретный вариационный ряд или используются середины интервалов, то графическое изображение такого вариационного ряда называется полигоном (от греч. Слова - многоугольник).

Отношение высоты полигона или диаграммы к их основанию рекомендуется в пропорции примерно 5:8.

.5 Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:

полигона

гистограммы

кумуляты

огивы

Полигон - при построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) - частоты или частости.

Полигон используется для дискретных вариационных рядов.

Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.

Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.

При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.

Гистограмма - Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

Кумулята - для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.

Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат - накопленные частоты или частности.

Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака - на оси ординат.

Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат - накопленные значения доли (в процентах) по объему признака.

Равномерному распределению признака соответствует на графике диагональ квадрата. При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.

Для практической работы со статистическими данными выбрана таблица «Численность экономически активного населения» в 2012 году из справочника «Регионы России» (таблица 1.1)

Таблица 1.1 Численность экономически активного населения Российской Федерации в 2012 году (тыс. человек)

№ региона

Кол-во человек

№ региона

Кол-во человек

№региона

Кол-во человек

№ региона

Кол-во человек

№ региона

Кол-во человек

№ региона

Кол-во человек

1

752

16

815

31

1206

46

1895

61

314

76

530

2

660

17

717

32

133

47

843

62

1827

77

488

3

792

18

5893

33

443

48

681

63

95

78

35

4

1148

19

382

34

143

49

1438

64

451

79

496

5

560

20

547

35

198

50

793

65

128

80

1054

6

538

21

680

36

311

51

1793

66

262

81

774

7

371

22

24

37

460

52

1101

67

1314

82

441

8

592

23

667

38

2470

53

711

68

1529

83

192

9

597

24

513

39

1300

54

1754

69

22

84

13

10

3603

25

897

40

537

55

1323

70

10

85

101

11

439

26

515

41

1356

56

682

71

1227

86

304

12

576

27

339

42

2132

57

478

72

59

87

87

13

529

28

373

43

1984

58

2417

73

1476

88

33

14

556

29

2645

44

362

59

968

74

1366



15

720

30

202

45

439

848

75

1022




Используя программу STATISTIKA проведем ранжирование статистических данных.

Выбросами, очевидно, будут Москва и Московская область, так как разность между экономически активным населением Москвы (5893 тыс. чел) и Москвовской области (3603 тыс. чел) гораздо больше, чем разность между экономически активным населением Санкт-Петербурга (2645 тыс. чел.) и Краснодарского края (2470 тыс. чел.)

Таким образом, ранжированный ряд будет выглядеть так, как представлено в таблице 1.2.

Таблица 1.2 Исходные данные, ранжированные по возрастанию значений признака (тыс. человек)

Номер региона

Количество человек

Номер региона

Количество человек

Номер региона

Количество человек

Номер региона

Количество человек

Номер региона

Количество человек

Номер региона

Количество человек

1

10

16

202

31

460

46

597

61

848

76

1476

2

13

17

262

32

478

47

660

62

897

77

1529

3

22

18

304

33

488

48

667

63

968

78

1754

4

24

19

311

34

496

49

680

64

1022

79

1793

5

33

20

314

35

513

50

681

65

1054

80

1827

6

35

21

339

36

515

51

682

66

1101

81

1895

7

59

22

362

37

529

52

711

67

1148

82

1984

8

87

23

371

38

530

53

717

68

1206

83

2132

9

95

24

373

39

537

54

720

69

1227

84

2417

10

101

25

382

40

538

55

752

70

1300

85

2470

11

128

26

439

41

547

56

774

71

1314

86

2645

12

133

27

439

42

556

57

792

72

1323

87

3603

13

143

28

441

43

560

58

793

73

1356

88

5893

14

192

29

443

44

576

59

815

74

1366



15

198

30

451

45

592

60

843

75

1438




Переходя к построению табличного представления вариационного ряда используем ППП, что упрощает задачу наблюдения и поэтапно применяя подборку шага составим три таблицы с шагом k=15, 10 и 7, руководствуясь, прежде всего тем, чтобы в конечном варианте таблицы отсутствовали малонаполненные и нулевые группы и получена была мономодальная таблица.

Главный недостаток таблицы с шагом k=15 (представленной на рисунке 1.1) наличие нулевых строк и нечётко определенная мономодальность. При этом встречаются малонаполненные и нулевые ячейки.

10

10

11,62791

11,6279

7

17

8,13953

19,7674

15

32

17,44186

37,2093

16

48

18,60465

55,8140

13

61

15,11628

70,9302

3

64

3,48837

74,4186

5

69

5,81395

80,2326

5

74

5,81395

86,0465

3

77

3,48837

89,5349

2

79

2,32558

91,8605

3

82

3,48837

95,3488

1

83

1,16279

96,5116

0

83

0,00000

96,5116

2

85

2,32558

98,8372

1

86

1,16279

100,0000

0

86

0,00000

100,0000

Рис. 1.1 Таблица распределения с числом интервалов k=15

В таблице с числом интервалов k=10 (представленной на рис. 1.2) уже отсутствуют нулевые строки, а так же увеличивается мономодальность:

13

13

15,11628

15,1163

16

29

18,60465

33,7209

25

54

29,06977

62,7907

10

64

11,62791

74,4186

8

72

9,30233

83,7209

5

77

5,81395

89,5349

4

81

4,65116

94,1860

2

83

2,32558

96,5116

2

85

2,32558

98,8372

1

86

1,16279

100,0000

0

86

0,00000

100,0000

Рис. 1.2 Таблица распределения с числом интевалов k=10

В таблице с числом интервалов k=8, (представленной на рис.1.3) по мнению автора наиболее подходит для статистического анализа:

15

15

17,44186

17,4419

28

43

32,55814

50,0000

19

62

22,09302

72,0930

10

72

11,62791

83,7209

5

77

5,81395

89,5349

5

82

5,81395

95,3488

2

84

2,32558

97,6744

2

86

2,32558

100,0000

0

86

0,00000

100,0000

Рис. 1.3 Таблица распределения с числом интервалов k=8

Таким образом, данные статистического наблюдения «Численность экономически активного населения Российской Федерации в 2012 году» (тыс. чел.) предварительно могут быть сведены так как это представлено в таблице 1.3:

Таблица 1.3 Численность экономически активного населения по субъектам Российской Федерации в 2012 году (тыс. человек)

Численность населения

Частоты

В %

В %, итого

До 198

15

15

17,44

17,44

От 198 до 575

28

43

32,56

50,00

От 575 до 951

19

62

22,09

72,09

От 951 до 1328

10

72

11,63

83,72

От 1328 до 1704

5

77

5,81

89,53

От 1704 до 2080

5

82

5,81

95,35

От 2080 до 2456

2

84

2,32

97,67

Свыше 2456

2

86

2,32

100,00

ИТОГО

86

86

100,0

100,00


При этом в данной таблице слабо выдержан её шаг (за счет того, что ППП применяет расчет с округлением до четвертого знака после запятой), при этом граница верхнего ряда начинается в области отрицательных значений.

Рассчитав по формуле (1.2) и округлив до целых значений, выясним его длину:

тыс.чел.

Задав указанное значение в программе, уточним таблицу.

В результате окончательная таблица будет выглядеть в соответствии с рис.1.4:

21

21

24,41860

24,4186

27

48

31,39535

55,8140

15

63

17,44186

73,2558

9

72

10,46512

83,7209

5

77

5,81395

89,5349

5

82

5,81395

95,3488

1

83

1,16279

96,5116

3

86

3,48837

100,0000

0

86

0,00000

100,0000

0

86

0,00000

100,0000

Рис.1.4 Таблица распределения с числом интервалов k=10 и шагом 330

В окончательном виде таблица «Численность экономически активного населения Российской Федерации в 2012 году» (тыс. чел.) примет вид (табл. 1.4):

Таблица 1.4 Численность экономически активного населения в Российской Федерации в 2012 году (тыс. человек)

Численность населения в субъектах РФ

Частоты

Коммулятивные частоты S

В %

В %, итого

От 10 до 340

21

21

24,42

24,42

От 340 до 670

27

48

31,40

55,81

От 670 до 1000

15

63

17,44

73,26

От 1000 до 1330

9

72

10,47

83,72

От 1330 до 1660

5

77

5,81

89,53

От 1660 до 1990

5

82

5,81

95,35

От 1990 до 2320

1

83

1,16

96,51

От 2320 до 2650

3

86

3,49

100,00

ИТОГО

86

86

100,0

100,00


После окончательного представления статистической таблицы, она подлежит анализу.

Традиционно для изображения вариационных рядов распределения в отечественной практике используются графики: гистограмма, огива, кумулята.

Рис. 1.5 Гистограмма распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с наложенной кривой нормального распределения с числом интервалов k=8.

Из данной гистограммы усматривается, что наибольшее часть населения России проживает в регионах с численностью населения от 330 до 660 тыс. человек.

Таким образом, можно сказать, что основная часть экономически активного населения проживает в регионах с численностью до проумиллиона человек.

При этом за счёт крупных агломераций - Санкт-Петербурга и Центральной части России в конце гистограммы виден незначительное увеличение количества жителей в крупных мегаполисах.

Рис. 1.6 Полигон распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с числом интервалов k=8.

Аналогично гистограмме, представленной на Рис.1.5 видно, что максимальное число субъектов Российской Федерации имеет численность до полумиллиона человек.

При этом за счёт Санкт-Петербурга и Центральной части Российской Федерации в конце полигона имеется небольшой всплеск увеличения количества субъектов Российской Федерации.

Следует отметить, что в случае рассмотрения полного состава первоначальных статистических данных (с учётом Москвы и Московской области) этот пик был бы более заострён.

Рис. 1.7. Кумулята распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с числом интервалов k=8 (абсолютные частоты).

Рассматривая кумуляты, представленные на Рис.1.7 и Рис.1.8 видно, что значительный прирост накопленных процентных частот (с 24,42% до 55,81%) обеспечивается выше признанным фактором, то есть за чёт значительного числа субъектов Федерации с численностью экономически активного населения от 340 до 670 тыс. чел. В других областях значений кумулята имеет более плавное распределение.

Рис. 1.8. Кумулята распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с числом интервалов k=8 (относительные частоты).

При этом, если бы кумулята строилась бы с учётом 100%-й выборки (с учетом выбросов) её конец был бы более заострен.

вариационный ряд асимметрия пирсон

2. Характеристика центральной тенденции распределения

Для определения средних и наиболее типичных значений совокупности С.Е. Казаринова [3] рекомендует показатели центра распределения.

Основные из них - математическое ожидание, среднее арифметическое, среднее геометрическое, среднее гармоническое, степенные средние, взвешенные средние, центр сгиба, медиана, мода.

Расчет средних величин производится разными способами, и, соответственно, применение их тоже зависит от исследуемой совокупности.

У симметричного среднего одномерного унимодального распределения математическое ожидание, медиана и мода одинаковы.

В математике и статистике среднее арифметическое (или просто среднее) набора чисел - это сумма всех чисел в этом наборе, делённая на их количество. Среднее арифметическое является наиболее общим и самым распространенным понятием средней величины.

Термин среднее арифметическое предпочитают, чтобы отличить его от других средних величин, таких как медиана и мода.

Частными случаями среднего арифметического являются генеральное среднее (генеральной совокупности) и выборочное среднее (выборки).

Среднее арифметическое рассчитывается по формуле:

  (2.1)

Хотя среднее арифметическое часто используется в качестве центральных тенденций, это понятие не относится к робастной статистике, что означает, что среднее арифметическое подвержено сильному влиянию «больших отклонений». Примечательно, что для распределений с большим коэффициентом ассиметрии среднее арифметическое может не соответствовать понятию «среднего», а значение среднего из робастной статистики (например, медиана) может лучше описывать центральную тенденцию.

Классическим примером является подсчёт среднего дохода. Например, отчет о «среднем» чистом доходе в Медине, штат Вашингтон, подсчитанное как среднее арифметическое всех ежегодных чистых доходов жителей, даст на удивление большое число из-за Билла Гейтса.

Если, например, рассмотреть выборку (1,2,2,2,3,9). Среднее арифметическое равно 3,17, но пять значений из шести ниже этого значения.

Другими характеристиками центральной тенденции являются мода и медиана.

Мода - это значение во множестве наблюдений, которое встречается наиболее часто. Иногда в совокупности встречается более, чем одна мода (например: 2,5,5,5,8,9,9,9,10; мода = 5 и 9). В этом случае говорят, что совокупность мультимодальна. Из структурных средних величин только мода обладает таким уникальным свойством. Как правило мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению.

Мода, как средняя величина, употребляется чаще для данных, имеющих нечисловую природу. При экспертной оценке с её помощью определяют наиболее типы продукта, что учитывается при прогнозе продаж или планировании их производства.

Медиана - 50-й процентиль, квинтель 0,5 возможное значение признака, который делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 «нижних» единиц ряда будут иметь значение признака не больше, чем медиана, а «верхние» 50% - не меньше, чем медиана. Медиана является важной характеристикой распределения случайной величины и так же как математическое ожидание, может быть использовано для центрирования распределения. Однако медиана более робастна и поэтому может быть более предпочтительна для распределений с т.н. тяжёлыми хвостами.

Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределенности, естественным образом доопределяется, в то время, как математическое ожидание может быть не определено (например, у распределения Коши).

Если предположить, что в одной комнате оказалось 20 человек - 19 бедняков и 1 миллиардер, которые положили на стол деньги: бедняки по 5 долларов, а богач 1 млрд., то в сумме получится 1000000095 долларов.

Среднее арифметическое в данном случае будет 50000004,75 долл.

Медиана же составит 5 долл.(полусумма десятого и одиннадцатого значений ранжированного вариационного ряда)

Таким образом, можно утверждать, что каждый положил на стол не более 5 долларов.

В данном случае расчет средней арифметической неподходящая характеристика, так как оно значительно превышает сумму наличных, имеющихся у среднего человека.

К недостаткам данной характеристики является то, что при наличии чётного количества случаев и два средних значения различаются, то медианой может служить любое число между ними (например, в выборке {1,2,3,4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в случае чаше всего используют среднее арифметическое двух средних значений и применяют формулы:

если n - чётное    (2.1а)

 если n - нечётное  (2.1б)

Воспользовавшись программой STATISTICA, рассчитываем среднее арифметическое, моду и медиану статистической таблицы «Численность экономически активного населения в 2012 году» (тыс. чел.):

Таблица 2.1

Наименование показателя

Средняя арифметическая

Мода

Медиана

Значение показателя

755,7558

439,0

568,000


Таким образом, среднеарифметическая в отдельно взятом субъекте Российской Федерации составляет 755 тыс. человек, при этом при расчете совокупности учитывались как малозаселенных районов в местностях крайнего Севера и Дальнего Востока так и крупные агломерации. Данное обстоятельство превышает значение, полученное в ходе графического анализа вариационного ряда.

В связи с тем, что в исходном статистическом наблюдении встречаются два субъекта Федерации с численностью 439 тыс. чел., то модой и является данная величина (в противном случае выборка была бы полимодальной).

Медианой является величина 568 тыс. чел.

Указанные значения лежат в плоскости ранее рассмотренного графического изображения вариационного ряда.

3. Оценка вариации изучаемого признака

Вариация - различие значений какого-либо признака у разных единиц совокупности за один и тот же промежуток времени. Причиной возникновения вариации являются различные условия существования разных единиц совокупности. Вариация - необходимое условие существования и развития массовых явлений. Определение вариации необходимо при организации выборочного наблюдения, статистическом моделировании и планировании экспертных опросов. По степени вариации можно судить об однородности совокупности, устойчивости значений признака, типичности средней, о взаимосвязи между какими-либо признаками.

Различают абсолютные и относительные показатели вариации. К абсолютным относят: размах вариации, среднее линейное отклонение, среднеквадратическое отклонение, дисперсию, среднее квартальное расстояние.

Относительные показатели: относительный размах вариации (коэффициент осцилляции), относительное отклонение по модулю (линейный коэффициент вариации), коэффициент вариации, относительное квартальное расстояние.

Размах вариации - это разность между максимальным и минимальным значениями признака.

Он показывает пределы, в которых изменяется величина признака в изучаемой совокупности.

Пример

Опыт работы у пяти претендентов на предшествующей работе составляет: 2, 3, 4, 7 и 9 лет.

В данном случае размах вариации = 9 - 2 = 7 лет.

Для обобщенной характеристики различий в значениях признака вычисляют средние показатели вариации, основанные на учете отклонений от средней арифметической. За отклонение от средней принимается разность:

(Xi - X)      (3.1)

При этом во избежание превращения в нуль суммы отклонений вариантов признака от средней (нулевое свойство средней) приходится либо не учитывать знаки отклонения, то есть брать эту сумму по модулю, либо возводить значения отклонений в квадрат.

Дисперсия (дисперсия случайной величины) - мера разброса данной случайной величины, то есть её отклонение от математического ожидания. В статистике часто употребляется квадратный корень из дисперсии, называемый среднеквадратичным отклонением, стандартным отклонением или стандартным разбросом. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.

Из неравенства Чебышева следует, что случайная величина удаляется от её математического ожидания не более, чем k стандартных отклонений с вероятностью 1/k2/

Так, например, как минимум в 75% случаев случайная величина удаляется от её среднего не более, чем на два стандартных отклонения, а примерно в 89%- не более, чем на три.

Величина дисперсии по сгруппированным данным определяется:

  (3.1)

где, xi - середина i-го интервала; x -средняя арифметическая величина признака в изучаемой совокупности; Fi - абсолютные частоты i-го интервала.

Коэффициент вариации - мера относительного разброса случайной величины; показывает, какую долю среднего значения этой величины составляет её средний разброс. В отличии от среднего квадратического или стандартного отклонения измеряет не абсолютную , а относительную меру разброса признака в статистической совокупности. Исчисляется в процентах. Вычисляется только для количественных данных.

      (3.2)

Используя программу STATISTICA, рассчитываем размах вариации, дисперсию, среднее квадратическое отклонение. Коэффициент вариации программа STATISTICA не рассчитывает, что отражено в таблице 3.1.

Таблица 3.1

Наименование показателя

Размах вариации

Дисперсия

Среднее квадратическое отклонение

Значение показателя

2635,000

369995,4

608,2725


Размах вариации получен путем определения разницы между наибольшим значением статистической выборки (2645) и его наименьшим значением.

Разброс случайной величины (её дисперсия) говорит о значительном разбросе показателей вариации и необходимости исключения самых больших и самых маленьких значений.

Это же подтверждает и показатель среднеквадратического отклонения.

Данные полученные в ППП STATISTICA полностью соответствуют расчетным данным (в соответствии с методическими указаниями ниже будет приведена сравнительная таблица расчётов по ППП и ручных расчётов). При этом даже уже на этом этапе наглядно видно, что размах вариации рассчитан правильно.

4. Характеристика структуры распределения

При изучении вариации применяются такие характеристики вариационного ряда, которые описывают количественно его структуру, строение. Такова, например, медиана- величина варьирующего признака, делящая совокупность на две равные части - со значениями признака меньше медианы и со значениями признака больше медианы

Медиана не зависит от значений признака на краях ранжированного ряда. Поэтому часто медиану используют как более надежный показатель типичного значения признака, нежели арифметическая средняя, если ряд значений неоднороден, включает резкие отклонения от средней. Вряд ли среднюю можно считать типичной величиной.

При четном числе единиц совокупности за медийную принимают арифметическую среднюю величину из двух центральных вариант, например при десяти значениях признака - среднюю из пятого и шестого значений в ранжированном ряду.

В интервальном вариационном ряду для нахождения медианы применяется формула:

   (4.1)

где Хме - начальное значение медианного интервала;Ме - величина медианного интервала;

∑f - сумма частот ряда (численность ряда);ме-1 - сумма накопленных частот в интервалах, предшествующих медианному;Ме - частота медианного интервала.

В дискретном вариационном ряду медианой следует считать значение признака в той группе, в которой накопленная частота; превышает половину численности совокупности.

Квартили распределения

Аналогично медиане вычисляются значения признака, делящие совокупность на четыре равные по числу единиц части. Эти величины называются квартилями и обозначаются заглавной латинской' буквой Q с подписным значком номера квартиля. Ясно, что Q2 совпадает с Me. Для первого и третьего квартилей приведём формулы:

 для первого квартиля (4.2)

для третьего квартиля (4.3)

Значения признака, делящие ряд на пять равных частей, называют квинтилями, на десять частей - децилями, на сто частей - перцентилями. Поскольку эти характеристики применяются лишь при необходимости подробного изучения структуры вариационного ряда, они обычно не приводятся.

Особенности применения моды в интервальном вариационном ряду:

) если все значения вариационного ряда имеют одинаковую частоту, то говорят, что этот вариационный ряд не имеет моды;

) если две соседних варианты имеют одинаковую доминирующую частоту, то мода вычисляется как среднее арифметическое этих вариант;

) если две несоседние варианты имеют одинаковую доминирующую частоту, то такой вариационный ряд называется бимодальным;

) если таких вариант более двух, то ряд полимодальный.

Определение модального интервала в случае интервального вариационного ряда:

) с равными интервалами модальный интервал определяется по наибольшей частоте;

) при неравных интервалах - по наибольшей плотности.

Формула определения моды при равных интервалах внутри модального интервала:

 (4.4)

где Хмо - минимальная граница модального интервала;Мо - величина модального интервала;Мо - частота модального интервала;Мо-1 - частота интервала, предшествующего модальному;Мо+1 - частота интервала, следующего за модальным.

Покажем расчет моды на примере, приведенном в таблице 2.

Используя программу STATISTICA рассчитаем (Lower quartile) - нижний (первый) квартиль - Q1, который равен 362,0000 и(Upper quartile) - верхний (третий) квартиль -Q3, который равен 1054,0000

В самом деле, из статистической таблицы (1.4) «Численность экономически активного населения в 2012 году» (тыс. чел.) видно, что эти значения находятся в первой и четвертой четвертях значений статистических данных.

Одновременно рассчитываем медиану и моду интервальном вариационном ряду, руководствуясь формулами (4.1 и 4.4):

Для этого определяем сначала интервал, в котором она находится (медианный интервал). Таким интервалом будет такой, комулятивная частота которого равна или превышает половину суммы частот.

Начальное значение медиального интервала в соответствии с таблицей 1.4) «Численность экономически активного населения в 2012 году» (тыс. чел.) составляет интервал от 340 до 670 тыс. чел.; сумма частот данного ряда составляет - 27; величина медиального интервала 330; сумма частот ряда - 86 (половина сумма частот - 43); сумма частот ряда, предшествующих медиальному - 21.

При определении значения медианы предполагают, что значение единиц в границах интервала распределяется равномерно. Следовательно, если 27 единиц, находящихся в этом интервале, распределяются равномерно в интервале, равном 330, то 3 единицам (43-40) будет соответствовать следующая его величина:

* 3/27 = 36,7

Прибавив полученную величину к минимальной границе медианного интервала, получим искомое значение медианы:

Ме = 340 +36,7 = 376,7 тыс. чел.

Поскольку в данном случае, значение полученное из статистических формул, решено эмпирически, а программа STATISTICA использует конкретные данные, то можно считать, что задача решена правильно.

Подставляя в формулу необходимые данные, решаем:

Ме = 340 + 330* (86/2 - 40)/27= 376,7 тыс. чел.,

что полностью соответствует полученному ранее значению.

Аналогично рассчитывается мода интервального вариационного ряда.

Чтобы найти моду, первоначально определим модальный интервал. Из таблицы (1.4)«Численность экономически активного населения в 2012 году» (тыс. чел.) видно, что наибольшая частота соответствует интервалу, где варианта лежит в пределах от 340 до 670 тыс. чел. (нижняя граница модального интервала 340 тыс. чел.)

Величина модального интервала равна 330; частота модального интервала равна 27; частота интервала, предшествующего модальному - 21; частота интервала, следующего за модальным - 15.

Подставляя в формулу, расчета моды в интервальном вариационном ряду получим:

Мо = 340 + 330 *(27 - 21)/((27 - 21) + (27 - 15))=

+330*6/6+6=340+2040/12= 510 тыс.чел.

В связи с много вариантностью таблицы «Численность экономически активного населения в 2012 году» (тыс. чел.) и большим наличием данных в этой строке мода несколько различается от данных, полученных с помощью ППП STATISTICA .

Это дополнительно свидетельствует о том, что статистическую обработку показателей лучше выполнять с помощью прикладных средств с первоначальным объёмом данных, чем сведенных в таблицу.

5. Характеристика формы распределения

Асимметрия - или коэффициент асимметрии (термин был впервые введен Пирсоном, 1895) является мерой несимметричности распределения, то есть числовым значением, характеризующим степени несимметричности распределения данной случайной величины.

Например, если асимметрия (показывающая отклонение распределения от симметричного) существенно отличается от 0, то распределение несимметрично, в то время как нормальное распределение абсолютно симметрично.

Итак, у симметричного распределения асимметрия равна 0.

Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то его асимметрия отрицательна. Коэффициент асимметрии рассчитывается по формуле:

    (5.1)

где   (5.1а)

где, -центральный момент третьего порядка;

-средний квадрат отклонений в кубе.

Если , то асимметрия значительная.

Если , то As незначительная.

Если As<0, то As - левосторонняя. При этом >Ме>Мо.

Если As>0, то As - правосторонняя.

Коэффициент асимметрии изменяется от -3 до +3.

Для однородных совокупностей характерны одновершинные кривые, много вершинная кривая говорит о неоднородности совокупности и необходимости перегруппировки.

Выяснение общего характера распределения предполагает оценку его однородности.

Преобразовав (Таб.1.4) рассчитаем асимметрию данной выборки (Таб.5.1):

Таблица 5.1





10

340

175

21

-4113390702,50

340

670

505

27

-425712816,64

670

1000

835

15

7464379,57

1000

1300

1165

9

616864970,21

1300

1660

1495

5

2019918197,33

1660

1990

1825

5

6112244434,84

1990

2320

2155

1

2739558294,75

2320

2650

2485

3

15512801588,43

k



86

22469748345,99


При этом  равен 755,7558.

Из таблицы находим центральный момент третьего порядка () равный 261276143,56

Возведя среднее квадратическое отклонение (СКО = 608,2725) в куб (СКО = ) и применив формулу (5.1) получаем значение асимметрии равное 1,161.

Эксцесс - (термин был впервые введен Пирсоном, 1905) или точнее, коэффициент эксцесса измеряет «пикообразность» распределения. Если эксцесс (показывающий «остроту пика» распределения) существенно отличен от 0, то распределение имеет или более закругленный пик, чем нормальное, или, напротив, имеет более острый пик (возможно, имеется несколько пиков). Обычно, если эксцесс положителен, то пик заострен, если отрицательный, то пик закруглен. Эксцесс нормального распределения равен 0.

Используя формулу:

       5.2)

И преобразовав (Таб.6.1) рассчитаем эксцесс.

Таблица 5.2





10

340

175

21

2388875508145,11

340

670

505

27

106749957906,35

670

1000

835

15

591508787,13

1000

1300

1165

9

252448411241,92

1300

1660

1495

5

1493212811854,14

1660

1990

1825

5

6535481910936,26

1990

2320

2155

1

3833311054490,20

2320

2650

2485

3

26825422172547,80

k



86

41436093335908,90


При этом  равен 755,7558

СКО =

Рассчитав в Microsoft Excel эксцесс, получим:

Ех1 = 0,520 для Таб. 1.4

Ех2 = - 0,050 для Таб. 6.1

Таким образом, можно говорить, что правосторонняя асимметрия с длинным правым хвостом, поскольку значение показателей лнжит в пределах значений от -3 до +3 можно говорить, что она подчиняется нормальному распределению.

Одной из часто встречающихся статистических проблем является проверка гипотез относительно математического ожидания исследуемых выборок. Существует целый ряд статистических тестов, называемых t-тестами Стьюдента, проверяющих различные гипотезы относительно математического ожидания. тест для одной выборки

Этот тест используется для проверки гипотезы о том, что математическое ожидание случайной величины X, представленной выборкой xS , имеет заданное значение μ. Тест требует, чтобы переданная в него выборка являлась выборкой нормальной случайной величины.

В процессе своей работы тест вычисляет t-статистику

Если величина X распределена нормально, то статистика t будет иметь распределение Стьюдента с N-1 степенями свободы. Это позволяет нам использовать распределение Стьюдента для определения уровня значимости, соответствующего полученному значению t-статистики.

Замечание.

В случае если X не является нормальной случайной величиной, то величина t будет иметь другое, неизвестное распределение, и, строго говоря, t-тест Стьюдента нельзя применять. Однако в соответствии с центральной предельной теоремой при росте размера выборки распределение t будет стремиться к распределению Стьюдента. Таким образом, если размер выборки достаточно велик, то мы можем использовать t-тест, даже если требование нормальности распределения не выполняется. Однако не существует простого способа определить, какое N достаточно велико. В каждом конкретном случае есть своя граница, зависящая от того, насколько исследуемое распределение отклоняется от нормального. Некоторые источники приводят в качестве «достаточно большого N» 30, но даже этот размер выборки может оказаться недостаточен. Альтернативой в этом случае может являться непараметрический тест - критерий знаков <C:\Documents and Settings\Admin\Local Settings\Temp\Rar$DI15.218\signtest.php> или W-критерий Уилкоксона <C:\Documents and Settings\Admin\Local Settings\Temp\Rar$DI15.218\wilcoxonsignedrank.php>.

При необходимости сравнения только двух групп можно использовать частный случай дисперсионного анализа - критерий Стьюдента. Если при проведении t-анализа имеются только средние значения, величина стандартного отклонения и численностью групп можно пойти по пути изучения возможности R.

Ниже приведем сравнение статистических показателей рассчитанных различными способами (табл.5.3)

Таблица 5.3

Название показателя

Значение в ППП STATISTIKA

Значения ручного расчета по сгруппированным данным

1

Средняя арифметическая

755,7558

779,6

2

Медиана

568,0000

578,8

3

Мода

439,0000

448,0

4

Дисперсия

369995,4

389243,3

5

Верхний квартиль

362,0000

387,0

6

Нижний квартиль

1054,0000

1069,0

7

Размах вариации

2635,0000

2635,0

8

Среднее квадратическое отклонение

608,2725

612,275


6. Сглаживание эмпирического распределения

Проверка гипотезы о законе распределения

Сравнивая полученные величины теоретических частот f' c эмпирическими (фактическими) частотами f, убеждаемся, что их расхождения могут быть весьма невелики.

В данное распределение близко к нормальному.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия.

Для оценки близости эмпирических и теоретических частот применяются критерий согласия Пирсона, критерий согласия Романовского, критерий согласия Колмогорова.

Наиболее распространенным является критерий согласия Пирсона,, который можно представить как сумму отношений квадратов расхождений между f' и f к теоретическим частотам по формуле 6.1:

   (6.1)

Вычисленное значение критерия необходимо сравнить с табличным (критическим) значением . Табличное значение определяется по специальной таблице, оно зависит от принятой вероятности Р и числа степеней свободы k (при этом k = m - 3, где m - число групп в ряду распределения для нормального распределения). При расчете критерия согласия Пирсона должно соблюдаться следующее условие: достаточно большим должно быть число наблюдений (n 50), при этом если в некоторых интервалах теоретические частоты < 5, то интервалы объединяют для условия > 5.

Если , то расхождения между эмпирическими и теоретическими частотами распределения могут быть случайными и предположение о близости эмпирического распределения к нормальному не может быть отвергнуто.

Используя статистическую таблицу 1.4 (стр.19) и методические указания произведем расчет и анализ значений критерия согласия Пирсона, объединив некоторые интервалы с частотами < 5 предыдущих интервальных рядов:

Таблица 6.1 Таблица для расчёта сглаживания эмпирического распределения.








1

10

340

175

21

-0,95476

-20,05

-59,5298

-108,938

2

340

670

505

27

-0,41224

-11,1305

-42,4894

-113,647

3

670

1000

835

15

0,130277

1,954162

4,144309

28,43563

4

1000

1300

1150

9

0,648137

5,833237

7,422538

0,335247

5

1300

1660

1480

5

1,190657

5,953287

4,208498

0,14886

6

1660

1990

1825

5

1,757837

8,789187

6,213252

0,23691

7

1990

2650

2320

4

2,571617

10,28647

5,817369

0,567753

k




86



-74,2132

-192,86


 рассчитаем в Microsoft Excel по формуле (6.2)

      (6.2)

Где x - значение изучаемого признака;

 - среднее арифметическое (в нашем случае 755,7558);

 - среднее квадратическое (в нашем случае 608,2725)

Аналогично рассчитываем  по формуле(6.3):

         6.3)

где N - объем совокупности; h - величина интервала

Если все эмпирические частоты равны соответствующим теоретическим частотам, то χ2 равно нулю. Очевидно, что чем больше отличаются эмпирические и теоретические частоты, тем χ2 больше; если расхождение несущественно, то χ2 должно быть малым. Имеются специальные таблицы критических значений χ2 при 5%-ном и 1%-ном уровнях значимости. Критические значения зависят от числа степеней свободы (d.f. - degrees of freedom) и уровня значимости.

Число степеней свободы рассчитывается так: если эмпирический ряд распределения имеет k категорий, то k эмпирических частот f1, f2, …, fk должны быть связаны следующим соотношением:


Если параметры теоретического распределения известны, то только k - 1 частот могут принимать произвольные значения, т. Е. свободно варьировать, а последняя частота может быть найдена из указанного соотношения. Поэтому говорят, что система из k частот благодаря наличию одной связи теряет одну «степень свободы» и имеет только k - 1 степеней свободы. Кроме того, если при нахождении теоретических частот р параметров теоретического распределения неизвестны, то они должны быть найдены по данным эмпирического ряда. Это накладывает на эмпирические частоты еще р связей, благодаря чему система теряет еще р степеней свободы. Таким образом, число свободно варьируемых частот (а значит, и число степеней свободы) становится равным:

d.f. = (k - 1) - р = k - (р + 1).

Полученное значение критерия χ2 сравнивается с табличным при числе степеней свободы, равном числу групп (с условием Ф. Йейтса), за минусом трех - по числу фиксированных параметров в формуле нормального закона распределения и с учетом равенства сумм теоретических и фактических частот.

Сумма теоретических частот нормального распределения меньше суммы фактических частот, так как нормальный закон не ограничен рамками фактических минимума и максимума.

Ясно, что гипотеза о соответствии распределения хозяйств по урожайности нормальному закону не может быть отклонена.

Какое практическое значение может иметь произведенная проверка гипотезы? Во-первых, соответствие нормальному закону позволяет прогнозировать, какое число хозяйств (или доля совокупности) попадает в тот или иной интервал значений признака. Во-вторых, нормальное распределение возникает при действии на вариацию изучаемого показателя множества независимых факторов. Из этого следует, что нельзя существенно снизить вариацию урожайности, воздействуя только на один-два управляемых фактора, скажем удобрения или энергозатраты.

С помощью критерия χ2 можно проверять не только гипотезу о согласии эмпирического распределения с нормальным законом, но и с любым другим известным законом распределения - равномерным распределением, распределением Пуассона и т. Д. Например, суд рассматривает жалобу посетителей казино на то, что, по их мнению, игральная кость, которой там пользуются, фальшива, некоторые числа очков, якобы, выпадают чаще, чем другие, и этим пользуются крупье, обирающие игроков.

Суд назначает экспертизу игральной кости: эксперт делает 600 бросков и записывает число выпавших единиц, двоек, троек и т. Д.

Полученное эмпирическое распределение сравнивается с теоретическим, т. Е. равномерным: в правильной кости вероятность выпадения каждого числа очков должна быть равна 1/6, при 600 бросках это даст по 100 выпадений каждого числа очков. С помощью критерия χ2 проверяется нулевая гипотеза о том, что различия эмпирического и теоретического распределений случайны, т. Е. не являются систематическим результатом фальсификации формы кости или положения центра тяжести в ней; H0 : fфакт = fтеор

Используя методические указания и программу STATISTICA, произведем сглаживание эмпирического распределения путём последовательного построения нормального, логнормального и прямоугольного типов распределения.

В результате получим следующие таблицы (Таб.6.2 - Таб.6.4)

Проверка гипотезы о нормальном распределении переменной Var1.

Проверка гипотезы о прямоугольном распределении переменной Var1

Проверка гипотезы о логарифмически нормальном распределении переменной Var1.

Проиллюстрируем полученные данные, сгладив эмпирическое распределение переменной Var1 нормальным распределением а соответствии с рисунками (Рис.6.1. - Рис.6.3.)

Таблица 6.2

Upper  Boundare

Variable: Var1, Distribution: Normal (Spreadsheet41) Chi-Square = 12,19147, df = 3 (adjusted) , p = 0,00676


Observed Frequency

Cumulative Observed

Percent Observed

Cumul.% Observed

Expected Frequency

Cumulative Expected

Percent Expected

Cumul. % Expected

Observed Expected

<=339.375

21

21

24.41860

24.4186

21.22654

21.22654

24.68202

24.6820

-0.22654

668.750

27

48

31.39535

55.8140

16.88266

38.10920

19.63100

44.3130

10.11734

998.125

15

63

17.44186

73.2558

18.20812

56.31732

21.17223

82.6373

-3.20812

1327.50

9

72

10.46512

83.7209

14.75117

71.06849

17.15252

82.6378

-5.75117

1656.875

5

77

5.81395

89.5349

8.97647

80.04496

10.43776

93.0755

-3.97647

1986.25

5

82

5.81395

95.3488

4.10260

84.14756

4.77046

97.8460

0.89740

2315.625

1

83

1.16279

96.5116

1.40805

85.55561

1.63727

99.4833

-0.40805

< infinity

3

86

3.48837

100.000

0.44439

86.00000

0.51673

100.000

2.55561


Таблица 6.3

Upper Boundare

Variable: Var1, Distribution: Rectangular (Spreadsheet44) Chi-Square = 56,88372, df = 5, p = 0,00000


Observed Frequency

Cumulative Observed

Percent Observed

Cumul.% Observed

Expected Frequency

Cumulative Expected

Percent Expected

Cumul. % Expected

Observed Expected

<=339.375

21

21

24.41860

24.4186

10,77040

10,77040

12,52372

12,5237

10,22960

668.7500

27

48

31.39535

55.8140

10,77040

21,54080

12,52372

25,0474

16,22960

998.1250

15

63

17.44186

73.2558

10,77040

32,31120

12,52372

37,5712

4,22960

1327.500

9

72

10.46512

83.7209

10,77040

43,08159

12,52372

50,0949

1656.875

5

77

5.81395

89.5349

10,77040

53,85199

12,52372

62,6186

-5,77040

1986.250

5

82

5.81395

95.3488

10,77040

64,62239

12,52372

75,1423

-5,77040

2315.625

1

83

1.16279

96.5116

10,77040

75,39279

12,52372

87,6660

-9,77040

< infinity

3

86

3.48837

100.0000

10.60721

86.00000

12,33397

100,000

-7,60721

Таблица 6.4.

Upper Boundare

Variable: Var1, Distribution: Rectangular (Spreadsheet44) Chi-Square = 56,88372, df = 5, p = 0,00000


Observed Frequency

Cumulative Observed

Percent Observed

Cumul.% Observed

Expected Frequency

Cumulative Expected

Percent Expected

Cumul. % Expected

Observed Expected

<=339.3750

21

21

24.41860

24.4186

33,00682

33,00682

38,38002

38,3800

-12,0068

668.75000

27

48

31.39535

55.8140

19,44743

52,45425

22,61329

60,9933

7,5526

998.12500

15

63

17.44186

73.2558

10,48496

62,93920

12,19181

73,1851

4,5150

1327.50000

9

72

10.46512

83.7209

6,30037

69,23957

7,32601

80,5111

2,6996

1656.87500

5

77

5.81395

89.5349

4,08683

73,32640

4,75213

85,2633

0,9132

1986.25000

5

82

5.81395

95.3488

2,80099

76,12739

3,25697

88,5202

2,1990

2315.62500

1

83

1.16279

96.5116

2,00097

78,12836

2,32671

90,8469

-1,0010

< infinity

3

86

3.48837

100.0000

7,87164

86.00000

9,15307

100,0000

-4,8716



Рис. 6.1

Рис. 6.2

Рис. 6.3

Заключение

В рассмотренной таблице интервального вариационного ряда «Численность экономически активного населения по субъектам Российской Федерации в 2012 году» определена среднестатистическая численность населения в субъектах России, при этом выбросами оказались Москва и Московская область.

Наибольшая часть населения России проживает в субъектах Федерации с численностью от 275 до 540 тыс. чел.

Мода таблицы составляет 439 тыс. чел., медиана 568 тыс. чел., при этом мода в таблице возникла по причине наличия в составе России 2 регионов с одинаковым количеством жителей (в противно случае таблица была бы полимодальной).

Среднее арифметическое составляет 755,7558 тыс. чел., что дополнительно свидетельствует о факте проживания основного населения России в относительно небольших по численности субъектах Федерации.

Проведенная характеристика форм распределения с расчетом коэффициентов асимметрии и эксцесса показал, что имеет место нормальное распределение с правосторонней асимметрией.

Это же было проверено критериями согласия Пирсона.

Список использованной литературы

1. Боровиков В.П., STATISTICA. Искусство анализа данных на компьютере: для профессионалов / В.П. Боровиков. - 2-е изд. - СПб. : - 2011. - 688 с.

. Венецкий И.Г., Основные математико-статистические понятия и формулы в экономическом анализе. Справочник / И.Г. Венецкий, В.И. Венецкая. - 2-е изд., перераб. и доп. - М.: Статистика, 1979 - 477 с.

. Ефимова М.Р., Общая теория статистики: учеб. / М.Р. Ефимова, Е.В. Петрова, В.Н. Румянцев. - М.: ИНФРА-М, 2002. - 416 с.

Похожие работы на - Анализ интервального вариационного ряда 'Численность экономически активного населения по субъектам Российской Федерации в 2012 году'

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!