Месяцы
|
Туристы
|
Месяцы
|
Туристы
|
Месяцы
|
Туристы
|
31.01.2003
|
90,4
|
30.09.2004
|
80,9
|
31.05.2006
|
92,2
|
28.02.2003
|
95,5
|
31.10.2004
|
83,8
|
30.06.2006
|
78,9
|
31.03.2003
|
87,3
|
30.11.2004
|
94,2
|
31.07.2006
|
93,6
|
30.04.2003
|
80,3
|
31.12.2004
|
97,5
|
31.08.2006
|
107,6
|
31.05.2003
|
55,8
|
31.01.2005
|
110,6
|
30.09.2006
|
98,5
|
30.06.2003
|
46,6
|
28.02.2005
|
106,1
|
31.10.2006
|
98,8
|
31.07.2003
|
63,4
|
31.03.2005
|
108,5
|
30.11.2006
|
108,1
|
31.08.2003
|
84,6
|
30.04.2005
|
102,8
|
31.12.2006
|
118,5
|
30.09.2003
|
72,1
|
31.05.2005
|
80,1
|
31.01.2007
|
128,2
|
31.10.2003
|
76,4
|
30.06.2005
|
28.02.2007
|
118,9
|
30.11.2003
|
87,3
|
31.07.2005
|
83,6
|
31.03.2007
|
126,5
|
31.12.2003
|
87
|
31.08.2005
|
99,9
|
30.04.2007
|
121,6
|
31.01.2004
|
100,5
|
30.09.2005
|
89,7
|
31.05.2007
|
99,7
|
29.02.2004
|
100,8
|
31.10.2005
|
91,3
|
30.06.2007
|
86,4
|
31.03.2004
|
97,9
|
30.11.2005
|
101,2
|
31.07.2007
|
101,1
|
30.04.2004
|
91,5
|
31.12.2005
|
108
|
31.08.2007
|
115,1
|
31.05.2004
|
68
|
31.01.2006
|
120,7
|
30.09.2007
|
106
|
30.06.2004
|
57,4
|
28.02.2006
|
111,4
|
31.10.2007
|
106,2
|
31.07.2004
|
73,5
|
31.03.2006
|
119,1
|
30.11.2007
|
115,6
|
31.08.2004
|
92,3
|
30.04.2006
|
114,1
|
31.12.2007
|
125,9
|
Цель задачи.
Проанализировать количество туристов, которые посещают Италию
ежемесячно. Также, сделать предварительные прогнозы на 3-6 месяцев и создать
модель для будущих прогнозов.
Описательные
статистики. (Определения, формулы, значения)
Среднее арифметическое выборки (mean) - это сумма всех
данных, деленная на количество данных.
Стандартная ошибка среднего (SE mean)
характеризует колебания среднего значения. Величина - оценка теоретической дисперсии х:
Для выборки из n наблюдений
выборочная дисперсия определяется как среднеквадратичное отклонение в выборке:
Медиана - это точка, вокруг которой располагается одинаковое
количество элементов выборки.
За указанный период среднее значение туристов было равно
95,46 тысяч человек в месяц; стандартная ошибка среднего равна 2,37; среднее
квадратичное отклонение равно 18,34; дисперсия равна 336,17; медиана равна
97,70; разница между минимальным и максимальным значением равна 81,60.
Доверительные
интервалы для среднего, медианы, стандартного отклонения с заданным уровнем
доверия (формулы, значения). Выводы (в терминах задачи)
Доверительным интервалом называют интервал который показывает неизвестный параметр с заданной надежностью γ.
Доверительный интервал медианы, среднего, стандартного
отклонения с 95% уровнем доверия приводится для количества туристов, и,
опираясь на график, мы можем сделать следующие выводы: среднее число посещающих
страну с 95% уверенностью колеблется в пределах от 90,725 до 100, 198; медиана
с 95% уверенностью будет находиться в пределах от 91,238 до 101,107;
стандартное отклонение с 95% гарантией будет лежать в пределах от 15,541 до
22,363.
1. График. Предварительные выводы по ОС и
графику.
По данному графику видно, что для количества туристов в
Италии имеется тренд, наблюдается общая тенденция к возрастанию посещающих
достопримечательности, находящиеся в стране. Также по данному графику можно
говорить о сезонности с периодом в 1 год: максимум достигается в феврале
месяце, а минимум в июле месяце каждого года, что конечно странно для туризма.
Но по собранным данным, понятно, что в феврале в Италии проходит более 5
карнавалов ежегодно. Возможно, этим и объясняется рост туристов на
данный период.
2. Автокорреляционная функция. (Определение,
формула, график, заключение).
Автокорреляция - корреляционная связь между значениями одного
и того же случайного процесса X (t) в моменты времени t1 и t2. Функция, характеризующая эту связь, называется
автокорреляционной функцией.
По анализу автокорреляционной функции можно сказать, что есть
сезонность. Временной ряд не стационарен.
После анализа данной автокорреляционной функции, заметно, что
значения автокорреляции в начале значительно отличны от нуля, а потом
постепенно приближаются к нулю. Каждые 12 лагов достигается максимальные
показатели корреляции, что доказывает наличие сезонности, так как начиная
сначала АКФ, заметно падение и рост. Так как первый и второй, а также
двенадцатые лаги выходят из доверительного интервала, и значительно отличны от
нуля, значит для этой модели необходимо построить модель авторегрессии и модель
ARIMA.
3. Анализ линейной модели:
· Название модели. Уравнение тренда.
Значение R2.
· Сезонная компонента (значение и график).
(Если есть сезонность во ВР)
· Значение
MAD,MSE, MAPE, MPE
· График тренда
· Выбор типа тренда по R2 после работы с
параболической моделью.
Additive Model
Уравнение тренда: Yt = 72,7958 +
0,743143*t
R^2= 0,979136
сезонный временной ряд
Decomposition - Component Analysis for
Туриcты
Линейно мультипликативная модель
Multiplicative Model
Data Туриcты
Уравнение тренда: Yt = 72,2651 + 0,760331*t
R^2= 0,961811
Time Series Decomposition Plot for Туриcты
4. Анализ параболической модели:
· Название
модели. Значение R2.
· Сезонная компонента (значение и график).
(Если есть сезонность во ВР)
· Значение
MAD,MSE, MAPE, MPE
· График тренда
· Выбор типа
тренда по R2
Аддитивная параболическая модель.
Trend Analysis for Туриcты
Уравнение тренда:
Yt = 73,9564 + 0,734098*t - 0,000719185*t**2
Series Decomposition for RESI2
R^2=0,977121
Time Series Decomposition Plot for RESI2
Decomposition - Component Analysis for
RESI2
Мультипликативная параболическая модель
Data Туриcты. Уравнение тренда:
Yt = 73,9564 + 0,734098*t -
0,000719185*t**2
От полученных FITS5,
рассчитываем S*E
используя наши FITS5 и показатели Туристы.
X (t) =T (t) *S (t) *E (t) => X (t) /T (t) =S (t) *E (t)
Time Series Decomposition for S*E
Multiplicative Model
Использую полученные FITS6 (S*E) и само S*E, подсчитаем
конечные остатки-E (r).
По этим остаткам находим коэффициент детерминации.
S*E
|
RESI6_se
|
E (r)
|
1,21034
|
1, 19186
|
0,018476
|
1,0155
|
1,26621
|
1,11283
|
0,153388
|
1,13784
|
1,14639
|
1,15489
|
-0,0085
|
0,99264
|
1,04447
|
1,0878
|
-0,04333
|
0,96016
|
.
|
…
|
…
|
…
|
R^2= 0,996968
Вывод. После построения нескольких моделей, выявлено то, что
модель ПМ является наиболее лучшей с коэффициентом детерминации - 0,996968.
Модель:
= (73,9564 + 0,734098*t - 0,000719185*t^2) *S*E
(r)
где Сезонность:
………
5. Анализ остатков. АКФ остатков.
У нас в Автокорреляционной функции столбцы выходит за пределы
красной линии, что означает остатки не являются Белым Шумом. Поэтому проводим
Авторег. остатков через ARIMA.
Autocorrelation Function: E (r)
Авторегрессия для E
(r)
Первого порядка.
ARIMA Model: E (r)
Относительное изменение в каждой из лагов не превышает
0,0010.
В графике видно, в 12 лаге есть некое отклонение и возможно
существуют факторы, которые повлияли на исходные изменения.
E (t) =0,489377+0,5109*E (t-1) +W (t)
6. Общее уравнение модели тренда. Прогноз на
3 шага вперед.
Финальная модель:
(t) = (73,9564 + 0,734098*t - 0,000719185*t^2) *S
(t) * (0,489377+0,5109*E (t-1) +W (t))
Прогноз на 3 месяца:
По модели
Вывод
по модели
Как уже говорилось, модель имеет тенденцию к снижению и
сезонность, которая характеризуется перепадами и прыжками, каждые полгода.
После анализа графика также стало ясно о наличии цикличности в рассматриваемый
период. AKФ показала, что зависимость следующих показателей сильно зависит
от предыдущих.
При проведенных анализах в 6 и 7 пунктах, выявлена наилучшая
модель в виде ПМ. При выборе учитывался Коэффициент детерминации ПМ с 0,9969
в отличии от других. В дальнейшем мы выбрали ПМ в качестве основы финальной
модели.
После проведения авторегрессии 1 порядка достигнут результат
с наилучшим прогнозом. Составлена финальная модель.