Как сделать прогноз в eviews

Обновлено: 06.07.2024

1 Моделирование процессов типа ARIMA(p, d, q) Эконометрический пакет EViews позволяет довольно легко моделировать случайные процессы типа ARIMAp,d,q, поскольку в пакете запрограммированы специальные команды, позволяющие оценивать соответствующие модели. Получить оценку любой модели можно при помощи следующих опций Главного меню окна EViews: Objec/New objec/equaion или Quick/Esimae equaion Тогда появится окно, в котором можно задать соответствующую спецификацию модели (Рис. 1) Рис. 1. Окно уравнения Рассмотрим подробнее возможности пакета EViews для моделирования временных рядов. Для оценки коэффициентов модели продолжаем использовать LS метод наименьших квадратов. Авторегрессионные модели первого порядка AR(1). Оценить такую модель в пакете EViews можно несколькими способами. Например, у Вас есть некий временной ряд 1, и Вы хотите оценить для него авторегрессионую модель первого порядка. Тогда (первый способ) наберите в окне уравнения 1 c 1(-1) В результате появится окно уравнения EViews, в котором отображены результаты оценивания модели (Рис. ). 1

2 Моделирование процессов типа ARIMA(p, d, q) Рис.. Модель с лаговой переменной Также в пакете EViews содержатся встроенные функции ar(1), ar(),, ar(p), позволяющие оценивать авторегрессионные модели, записанные следующим образом: (**) u, где u 1u 1 u ' 0 p p Используя эти функции (второй способ), наберите в окне уравнения 1 c ar(1) Оценки,, 1 p и,, 1 p в моделях (*) и (**) совпадают (Рис. 3). А вот 0 и будут отличаться. Это связано с тем, что коэффициенты модели (*) оцениваются с помощью обычного МНК, а в модели (**) с помощью итерационного МНК. Запись: Convergence achieved afer 3 ieraions (Рис. 3) означает, что коэффициенты были рассчитаны за 3 итерации. Выпишем как выглядит модель, представленная на Рис. : (*) А на Рис. 3 1 (**) u, где u u. Запишем уравнение (**) для момента 1: u, тогда u , подставляя в u получаем ( ) ( ) 5, (**) преобразуется так ' 0

3 Рис. 3. Модель с авторегрессионной составляющей В полученной таблице появилась новая строка с характеристическими корнями авторегрессионной модели (Invered AR Roos). Необходимо знать, что характеристические корни бывают действительные и комплексные. Абсолютное значение всех AR корней должно быть меньше 1. Только при выполнении этого условия модель является стационарной. Подробней про характеристические корни можно посмотреть в учебниках по временным рядам, а также в руководстве пользователя по Eviews. Авторегрессионные модели порядка р AR(p) В теории временных рядов под авторегрессионной моделью порядка р обычно понимается модель вида:, где (*) p p свойствами белого шума *). - случайный член, обладающий Т.е. запись ARp подразумевает, что в модели присутствуют все авторегрессионные члены до p включительно. В отличие от теории, спецификация модели в Eviews требует, чтобы был упомянут каждый член авторегрессии по отдельности, т.е. задание модели в виде *) Белый шум временной ряд с нулевым математическим ожиданием, постоянной дисперсией и некоррелированными уровнями. 3

4 Моделирование процессов типа ARIMA(p, d, q) c ar(3) означает ˆ 0 3 3, а для включения всех автогрегрессионных членов нужно писать c ar(1) ar() ar(3). Статистики, характеризующие качество модели В стандартном окне уравнения EViews обязательно приведены значения следующих коэффициентов: Коэффициент детерминации R (R-squared). R 1 ( ˆ ) ( ), где выборочное среднее зависимой переменной Коэффициент детерминации показывает насколько построенная модель отличается от наилучшей константы. Если в модели присутствует свободный член (константа), то значения коэффициента детерминации изменяются от 0 до 1. В этом случае он может быть интерпретирован как доля дисперсии зависимой переменной., объясняемая при помощи включенных в модель независимых и лаговых переменных, в том виде, в котором они присутствуют в модели. В противном случае коэффициент детерминации может быть отрицательным. Скорректированный коэффициент детерминации R 1 adj 1 (1 R ) k, R adj (Adjused R-squared). где Т длина временного ряда; k число оцениваемых параметров модели. Поскольку обычный коэффициент детерминации R не уменьшается при включении в оцениваемую модель дополнительных лагов, то он не может служить хорошей мерой качества модели. При расчете скорректированного коэффициента детерминации вводится штраф за дополнительные регрессоры (лаговые переменные), поэтому значения скорректированного коэффициента детерминации не превышают соответствующих значений обычного коэффициента детерминации. R adj может уменьшаться при включении в модель дополнительных переменных, а также может быть отрицательными, если модель плохо специфицирована. 4

5 Стандартная ошибка регрессии s.e.regr. (S.E. of regression). s.e.regr.= 1 ˆ k относительно построенной модели.. (S.E. of regression)^ показывает дисперсию временного ряда, Сумма квадратов остатков регрессии SSR (Sum squared resid). Данный показатель приводится в окне регрессии для удобства пользователя, поскольку используется для расчетов многочисленных статистических характеристик модели. ( ˆ ) ˆ 1 1. SSR Логарифм функции правдоподобия l (Log likelihood). l 1 log( ) log 1 ˆ, вспомогательный коэффициент. Используется при расчете критериев Акаике, Шварца и Хеннана-Куинна (в Eviews 7). Статистика Дарбина-Уотсона DW (Durbin-Wason sa). Позволяет определить (для любых моделей, кроме авторегрессионных) наличие автокорреляции остатков первого порядка. DW ( ˆ ˆ ) 1 ˆ 1, где DW расчетное значение статистики. Для принятия решения об автокорреляции DW необходимо сравнить с табличным значением DW ;:k. Выводы по критерию Дарбина-Уотсона надежны для больших выборок. Среднее значение ˆ (Mean dependen var). Приведено для удобства пользователя. 1 Стандартное отклонение зависимой переменной ˆ (S.D. dependen var). Приведено для удобства пользователя. 5

6 Моделирование процессов типа ARIMA(p, d, q) ˆ 1 ( ˆ ) 1 Информационный критерий Акаике AIC (Akaike info crierion). l k AIC, где l логарифм функции правдоподобия. Информационный критерий Акаике, также как и информационный критерий Шварца, используется для выбора лучшей модели из некоторого набора альтернативных моделей чем меньше значение критерия, тем лучше модель. Информационный критерий Шварца BIC или SC (Schwarz crierion). log( ) BIC l k Информационный критерий Шварца всегда выбирает лучшую модель с числом параметров, не превышающим число параметров в модели, которая была выбрана по критерию Акаике. Для больших выборок критерий Шварца предпочтительней. F-статистика (F-saisic). При помощи F-статистики в предположении, что остатки модели распределены нормально, проверяется гипотеза о незначимости регрессии в целом, т.е. проверяется нулевая гипотеза о том, что коэффициенты при всех экзогенных (независимых и лаговых) переменных, включенных в модель, кроме свободного члена, равны нулю. F R ( k 1) (1 R ) ( k), где F расчетное значение F-статистики. Его можно сравнить с табличным k 1 F ; k, чтобы принять или отвергнуть нулевую гипотезу на уровне значимости. P-значение (Prob(F-saisic)). Значимость F-статистики - это вероятность того, что для произвольной выборки из той же генеральной совокупности, что и наша выборка, будет получено значение F-статистики больше, либо равное расчетному (расположенное дальше от 1, чем F расчетное). Другими совами, вероятность получения такого расчетного значения F- статистики при условии верности нулевой гипотезы. 6

7 Если P-значение меньше, чем уровень значимости, на котором проверяется нулевая гипотеза, то гипотезу отвергают. Помните, что регрессия может быть значимой, даже если каждый коэффициент в отдельности не значим. Модели скользящего среднего порядка q MAq Оценка моделей скользящего среднего осуществляется при помощи специальных функций ma(1), ma(), встроенных в программу EViews. Например, если Вам нужно оценить модель вида , то в окне уравнения необходимо набрать c ma(1) ma() ma(3) Заметим, что аналогично авторегрессионным моделям необходимо включать в спецификацию уравнения все нужные исследователю порядки скользящего среднего ma(q), содержащиеся в регрессионном уравнении. Результат оценки некоторого процесса скользящего среднего третьего порядка MA(3) приведен на Рис. 4. Эту модель можно выписать в виде ˆ e e 0.17 e, где за e 3 обозначена Рис. 4. Модель скользящего среднего MA(3) 7

9 составляющую первого порядка достаточно в спецификации модели указать член ar(1) или ma(1), второго порядка ar(4) или ma(4) и т.д. Получится модель вида Рис. 5. Модель ARMA с аддитивной периодической составляющей Попробуем выписать полученную модель, округляя значения коэффициентов до сотых. Поскольку AR и MA составляющие моделируют "остаток" временного ряда, т.е. то, что остается после выделения систематической составляющей, например тренда, то сначала придется разложить исходный ряд на константу и вспомогательный ряд: 1 c u, где с выполняет роль 0, а u 1u 1 4u Таким образом модель перепишется в виде u u (*). к 1 : Поскольку исходные данные мы имеем по ряду 1, то перейдем в выражении (*) от u ( ) 0.36 ( )

10 Моделирование процессов типа ARIMA(p, d, q) Раскрыв скобки и перейдя к прогнозу (поскольку неизвестны), мы получим ˆ Заметим, что в модель включены лаговые переменные с лагом 1 и 4 (авторегрессионная часть), а также случайные отклонения с лагом 1 и 1 (часть скользящего среднего). Из этого следует, что имеется 4 AR-корня характеристического многочлена и 1 MA-корней. Теперь построим модель с мультипликативной сезонной составляющей. Для этого в Eviews предусмотрены функции sar() и sma(), например для скользящей средней первого порядка sma(1)и т.д. Рис. 6. Модель ARMA с мультипликативной периодической составляющей Повторим алгоритм, с помощью которого удалось выписать модель с аддитивной составляющей, опять округляя значения коэффициентов до сотых. 10

11 Сначала запишем вспомогательную модель: u. Уже по этой модели видно, что она на самом деле не является мультипликативной. Что же отличает ее от предыдущей? Выпишем ее вместе со вспомогательной переменной u 0.7 u ( 0.86) ( 0.91) (**) (11) Описание мультипликативной ARMA модели можно посмотреть в руководстве пользователя по Eviews. Здесь же нашей целью является иллюстрация процесса преобразования модели в Eviews в явный вид, пользуясь которым можно строить прогнозы. Заменив в (**) , раскрыв скобки и перейдя к прогнозу, мы получим: ˆ u на Чтобы закончить с этой темой приведем окно еще одной модели. Ваша задача попробовать самостоятельно получить по ней прогноз. Рис. 7. Модель ARMA для самостоятельного преобразования ˆ

12 Моделирование процессов типа ARIMA(p, d, q) Мы видим, что модели получились очень разными. Стоит иметь в виду, что напрямую их сравнивать не стоит, поскольку последняя построена по другой выборке, нежели предыдущие две. Нестационарность временного ряда и модель ARIMA(p, d, q) При обнаружении нестационарности исходного временного ряда следует определить является ли ряд трендово стационарным, стационарным в разностях или его нельзя свести к стационарному. Это можно сделать а) зрительно; б) с помощью теории и здравого смысла; в) с помощью тестов, например Дики-Фуллера; г) беря разности и рассматривая коррелограмму К сожалению однозначного и лучшего алгоритмов не существует. Выделить тренд можно, построив линейную или нелинейную модель относительно моментов времени. Для рядов, стационарных в разностях, в EViews встроены специальные функции, позволяющие компактно записывать разности различных порядков: d() используется для обозначения разности первого порядка временного ряда т.е. эквивалентна разности 1 или в обозначениях EViews ( 1) ;, d(,n) используется для обозначения разности n порядка временного ряда, т.е. n (попробуйте выписать разность второго порядка); d(,n,s) используется для обозначения разности порядка n, вычисленной для сезонной разности порядка s для ряда. Например запись d(,1,4) будет означать следующее преобразование 1 ( 4 ) ( 4) ( 4) ( 1 5) dlog() и dlog(, n, s) используются для обозначения разностей логарифмов исходного временного ряда, т.е. разности будут браться от преобразованного временного ряда log( ). (Рис. 8). Оценим модель временного ряда, используя функцию взятия разностей 1-го порядка 1

13 Рис. 8. Модель разностей 1-го порядка Полученная модель может быть переписана таким образом: 1 1 c 1 u, u u 1 1 После преобразования модель предстанет в таком виде ( ), раскрывая скобки и переходя к прогнозу получаем ˆ

14 Приложение Приложение С помощью теории Бокса-Дженкинса могут быть построены модели стационарных или сводящихся к стационарным временных рядов. Ниже изложены методы построения модели временного ряда без тренда. Методы выделения и удаления тренда можно прочитать в большинстве учебников по временным рядам. Рассмотрим построение прогноза на один временной период. Имеется временной ряд. Надо узнать значение в следующий момент времени. Обозначим за ˆ прогноз значения в момент времени, т.е. ˆ. Начнем с модели для стационарного ряда без сезонной составляющей. Рассмотрим модель вида ARMA ( p, 0, q ). Аббревиатура состоит из двух частей. Первая часть AR (англ. auoregression) подразумевает регрессию переменной на, т.е. саму на себя. Под авторегрессионной моделью порядка p понимается зависимость от p предыдущих наблюдений, т.е. ˆ a a a. a. Вторая часть MA (англ. moving-average) означает модель p p скользящего среднего 1, в которой представляется как функция от прошлых ошибок, т.е. разности между реальным значением и смоделированным: ˆ. Модель скользящего среднего порядка q выглядит так ˆ b0 b1 1 b. bq q. Модель для стационарного ряда без сезонной составляющей ARMA ( p, 0, q ), т.е. модель авторегрессии скользящего среднего, представляет из себя разность : ˆ a a a. a p p b b. b 1 1 q q авторегрессионной модели и модели скользящего среднего., где коэффициент a 0 - это общий свободный член Двигаясь в сторону усложнения модели, посмотрим на ARMA модель для стационарного ряда с сезонной составляющей. Эта модель будет выглядеть как ARMA ( p, 0, 1 Не путать с моделями сглаживания скользящим средним. В интерпретации Бокса-Дженкинса это разность. В Eviews принята запись в виде суммы. В любой форме записи знак перед каждым слагаемым определяется знаком коэффициента. 14

15 q ) ( k, 0, l ). Рассмотрим случай d периодов в году, например для ежемесячных наблюдений d 1, для еженедельных d 5, для ежеквартальных? ˆ a a a. a p p b b. b 1 1 q q A A. A 1 d d k kd B B. B 1 d d l ld Первая и третья строки в этой формуле отвечают за авторегрессионную составляющую временного ряда, причем первая моделирует поведение тренда, а третья периодичность (сезонность). Аналогично вторая и четвертая строки представляют скользящее среднее от прошлых ошибок. Хочется пояснить смысл такого вида модели на примере следующего временного ряда. Предположим мы несколько лет наблюдаем за АЗС. - это объем продаж бензина АИ-9 за неделю в литрах. Целью построения модели является прогноз на ближайший месяц, а также на год, поскольку нужно пролонгировать договор с нефтебазой. Поскольку требуются два прогноза: краткосрочный и долгосрочный, то в первом случае стоит подобрать модель как можно ближе описывающую наши данные, во втором поточнее улавливающую общие тенденции. Пытаясь построить прогноз, мы предполагаем, что продажи бензина не должны меняться скачком. Если на прошлой неделе было продано N л, то и на этой неделе будет какое-то похожее значение, т.е. вроде бы наибольшее влияние на "сегодня" имеет "вчера" и "позавчера". Но вероятно стоит вспомнить, что многие не ездят на машине зимой. Или что часть людей уезжают за город на все лето. И тогда возникает необходимость узнать сколько было продано бензина ровно год назад, т.е. в момент времени Нестационарные временные ряды 1, , ,3563 1,001-0,71133,3443-7, , , , ,99479, ,1114 0, ,8579-3, , ,3146-4,1611-0,777 0, , , , , , , , ,7301, ,7574 d. стационарный ряд нестационарный ряд 15

16 Приложение Что же делать, если исходный временной ряд был нестационарным? Модель Бокса- Дженкинса определена только для стационарных временных рядов. Поэтому исходный ряд преобразуют, так чтобы он стал стационарным (если это возможно). Для этого применяется метод взятия разностей. Последовательно рассмотрим случаи нестационарности в части описания тренда, а затем и в части периодической (сезонной) составляющей. Введем следующее обозначение: пусть 1. Если для всех моментов времени вычесть из 1, мы получим новый временной ряд, называющийся рядом первых разностей. Если состоящий из имело смысл абсолютных величин какого-то показателя, то новый ряд,, будет иметь смысл приростов (изменений) этого показателя. Если новый временной ряд окажется стационарным, для него возможно построение модели методом Бокса-Дженкинса. В противном случае, нужно сделать ряд вторых разностей и т.д. Поскольку процедура взятия разностей достаточно трудоемкая, на практике часто ограничиваются рядом первых разностей. Такая модель будет называться уже ARIMA (буква I от англ. inegraion), она записывается как ARIMA ( p, 1, q ) ( k, 0, l ) и если в году d периодов, то: ˆ a a. a 1 1 p p b b. b 1 1 q q A A. A 1 d d k kd B B. B 1 d d l ld Модель осталась такой же как и в предыдущем пункте, только теперь она записана не для исходного временного ряда, а для ряда из первых разностей. При этом константа a 0 исчезла, поскольку она присутствовала и в ˆ ˆ 1. и в 1. Под ˆ будем понимать Теперь для завершения разбора моделей такого типа, нам необходимо понять, что делать в случае нестационарности периодической составляющей ряда. Обозначим за d разность между и в d, т.е. преобразуем исходный временной ряд таким образом, что он будет состоять из d - приростов показателя за год. Исходный ряд может быть нестационарен как в части тренда, так и в периодической части одновременно и по отдельности. В случае нестационарности только в периодической части модель запишется как ARIMA ( p, 0, q ) ( k, 1, l ) и если в году d периодов, то: 16

17 ˆ ˆ a a. a. d d 1 d 1 d p d p b1 1 b. bq q, где под ˆ d мы будем понимать разность A A. A 1 d d d d k d kd B B. B 1 d d l ld Если нестационарны обе части, то ARIMA ( p, 1, q ) ( k, 1, l ) выглядит так: ˆ a a. a d 1 d 1 d p d p b b. b 1 1 q q A A. A 1 d d d d k d kd B B. B 1 d d l ld Теперь следует понять, что прогноз требовался для часть равенства и перенести все слагаемые, кроме ˆ, в правую часть. Поскольку исходные данные имеются тоже для, поэтому следует раскрыть левую, а не для, то придется либо возвращаться к исходным обозначениям в правой части, раскрывая все, либо переходить от данных исходного временного ряда к преобразованным данным из разностей. Литература: 1. Доугерти К. Введение в эконометрику. М: ИНФРА-М, Турунцева М.Ю. Анализ временных рядов. М: МИЭФ ГУ-ВШЭ, Eviews Users guide, Eviews Users guide, Eviews Users guide, Википедия 17


После того как с помощью соответствующей коррелограммы (см. табл. 3.1) мы пришли к выводу, что для получения оптимального прогноза по курсу доллара следует построить модель авторегрессии второго порядка AR(2), то следующим нашим шагом должно стать нахождение ее параметров. Правда, для этого развернутое уравнение авторегрессии AR(2), представленное в формуле (3.10), необходимо немного упростить. С этой целью из этой формулы следует убрать остатки, которые появятся только после решения данного уравнения. Кроме того, чтобы убрать у коэффициентов факторных переменных подстрочные индексы (цифры) обозначим их различными буквами. В результате формула (3.9) приобретет более удобный для решения вид (3.13):

ГдеY t-1 – курс доллара США с лагом в один месяц; Y t-2– курс доллара США с лагом в два месяца; c – свободный член (константа).

Далее создадим в Excel три столбца: во-первых, с зависимой переменной USDOLLAR – ежемесячный курс доллара США; во-вторых, с двумя независимыми переменными USDOLLAR(-1) – курс доллара США с лагом один месяц и USDOLLAR (-2) ‑ курс доллара США с лагом два месяца. При этом загруженная база данных по американской валюте у нас охватывает период с июня 1992 г. по апрель 2010 г.

Рис. 3.2. Установка опций в окне РЕГРЕССИЯ

USDOLLAR = 0,2260+1,2980 USDOLLAR(-1) -0,3047 USDOLLAR(-2)

Где USDOLLAR ‑ зависимая переменная курс доллара США; USDOLLAR(-1) ‑ независимая переменная курс доллара США с лагом один месяц; USDOLLAR(-2) ‑ независимая переменную курс доллара США с лагом в два месяца; 0,2260 ‑ свободный член (константа).

При этом экономическая интерпретация данного уравнения авторегрессии второго порядка следующая: во-первых, в период с июня 1992 по апрель 2010 г. при исходном уровне 0,2260 руб. рост на один рубль курса доллара в текущем месяце приводил к повышению прогнозируемого курса доллара в будущем месяце в среднем на 1,2980 руб.; во-вторых, одновременно с этим рост курса доллара в прошлом месяце приводил к снижению прогнозируемого кура доллара в будущем месяце в среднем на 0,3047 руб.

1.1. Поскольку коэффициент детерминации R2для данного уравнения регрессии оказался равен 0,9977, то отсюда можно сделать вывод, что оно в 99,77% случаях в состоянии объяснить ежемесячные колебания курса доллара.

1.2. Значимость F равна 1,3E-245или =0, а, следовательно, уравнение регрессии статистически значимо как при 95% уровне надежности, так и при 99% уровне надежности.

2.1. P-Значение для коэффициента свободного члена уравнения равно 0,037226, а следовательно этот коэффициент статистически значим лишь при 95% уровне надежности, но не значим при 99% уровне надежности, поскольку он больше 0,01. P-Значение для двух коэффициентов регрессии равно 0, а, следовательно, эти коэффициенты статистически значимы как при 95% уровне надежности, так и при 99% уровне надежности.

3.5. Решения в EViews уравнения авторегрессии второго порядка AR(2)

Шаг 1. Импорт данных из Excel и создание рабочего файла в EViews

Шаг 2. Выбор опций в EViews для решения уравнения регрессии.

После импорта данных в Excel выбираем в командной строке EViews опции Object/New OBJECT, а затем в появившемся окне new OBJECT(новый объект) выбираем опцию EQUATION(уравнение) ‑ см. рис. 3.3.

Рис. 3.3. Опция EQUATION в окне New OBJECT программы EViews

Далее в EViews появляется новое окно ‑ EQUATION ESTIMATION(ОЦЕНКА УРАВНЕНИЯ), которое мы должны заполнить следующим образом (см. рис. 3.4.).

Следует иметь в виду, что в опции ESTIMATION SETTINGS (ПАРАМЕТРЫ ОЦЕНИВАЕМОЙ МОДЕЛИ) в мини-окне METHOD (МЕТОД РЕШЕНИЯ) по умолчанию появляется опция LS – LEAST SQUARES (NLC AND ARMA), которая переводится как МЕТОД НАИМЕНЬШИХ КВАДРАТОВ (НЕЛИНЕЙНЫЙ МНК И ARMA). Поскольку данное уравнение авторегрессии мы решаем с помощью метода наименьших квадратов, то эту опцию мы оставляем. Хотя при необходимости в EViews можно использовать несколько других методов решения уравнений, на которых мы сейчас не будем останавливаться.

Шаг 3. Выбор параметров оцениваемой статистической модели

В опции ESTIMATION SETTINGS (ПАРАМЕТРЫ ОЦЕНИВАЕМОЙ МОДЕЛИ) есть еще одно мини-окно SAMPLE (ВЫБОРКА), в котором по умолчанию указывается либо общее количество наблюдений, либо период наблюдения. В данном случае в мини-окне SAMPLE появилась надпись: 1992M06 2010M05, что означает, что наша выборка содержит ежемесячные данные за период с июня 1992 г. по май 2010 год.

Особенно внимательным следует быть при заполнении мини-окна EQUATION SPECIFICATION (СПЕЦИФИКАЦИЯ УРАВНЕНИЯ), в котором нужно написать латиницей название зависимой переменной (ее в списке всегда пишут первой слева) и независимых переменных, а также – в случае необходимости – константу (свободный член уравнения), обозначаемую латинской буквой C.

В нашем случае мини-окно EQUATION SPECIFICATION заполняется следующим образом (3.14):

USDOLLAR USDOLLAR(-1) USDOLLAR(-2) C

где USDOLLAR ‑ зависимая переменная курс доллара США; USDOLLAR(-1) ‑ независимая переменная курс доллара США с лагом один месяц; USDOLLAR(-2) ‑ независимая переменную курс доллара США с лагом в два месяца; С ‑ свободный член (константа).

Мини-окно EQUATION SPECIFICATION легко заполнить, если воспользоваться уравнением авторегрессии (3.13.). При этом нужно сделать следующее: во-первых, убрать буквенные обозначения коэффициентов регрессии, но оставить константу С; во-вторых, вместо Yt поставить соответствующее название зависимой переменной ‑ USDOLLAR, а для факторных (независимых) переменных Y t-1 и Y t-2 в скобках еще и добавить соответствующую цифру лага со знаком минус.

Если вспомнить, что формула USDOLLAR USDOLLAR(-1) USDOLLAR(-2) C фактически означает уравнение авторегрессии второго порядка со свободным членом, то мини-окно EQUATION SPECIFICATION можно заполнить другой, более краткой, но вполне равнозначной формулой:

USDOLLAR AR(1) AR(2) C (3.15)

Где USDOLLAR‑ зависимая переменная; AR(1)‑ авторегрессия первого порядка или USDOLLAR(-1); AR(2) ‑ авторегрессия второго порядка или USDOLLAR(-2) и С ‑ константа (свободный член уравнений).

Рис. 3.4. Заполнение окна EQUATION ESTIMATION

Шаг 4. Вывод в EViews параметров уравнения авторегрессии

Итак, все опции, необходимые для решения уравнения авторегрессии, установлены. Далее щелкаем кнопку OK в окне EQUATION ESTIMATION. В результате чего получаем данные с параметрами уравнения авторегрессии, которые мы поместили в табл. 3.3. При этом не стоит удивляться тому, что после соответствующей корректировки количество наблюдений у нас сократилось с 215 до 213. Это обусловлено тем, что при создании факторных переменных с лагом один и два месяца мы потеряли два наблюдения. В результате теперь наша скорректированная выборка охватывает период не с июня 1992 г., а с августа 1992 г. по апрель 2010 г.

Для того чтобы нашему читателю можно было легче понять содержащиеся в табл. 3.3 англоязычные термины, мы решили дать их вместе с параллельным переводом в скобках. Если сравнить табл. 3.3 с выводом итогов, полученным после решения этого же уравнения авторегрессии в Excel (см. табл. 3.2), то можно прийти к выводу о тождественности большей части информации, имеющейся в обеих таблицах. Следует также заметить, что как в программе Excel, так и в EViews, мы смогли получить коэффициенты уравнения регрессии с одинаковым уровнем точности.

3.6. Интерпретация параметров уравнения авторегрессии в EViews

О том, какой статистический смысл имеют те или иные параметры уравнения регрессии при выводе итогов в Excel, , уже говорилось в главе 1 нашей книги. Однако при выводе итогов в EViews мы получаем новую информацию о других важных параметрах уравнения регрессии, которых нет при выводе итогов в Excel. Для того чтобы обратить внимание читателя на эти дополнительные параметры мы решили выделить их жирным шрифтом в табл. 3.3. Далее мы познакомимся со статистическим смыслом этих еще не изученных нами дополнительных параметров уравнения регрессии.

1. В таблице 3.3 среди пока неизвестных нам параметров уравнения регрессии можно назвать такой важный показатель, как Log likelihood (Логарифм максимального правдоподобия), который используется в качестве критерия для отбора наиболее адекватных уравнений регрессии. Чем выше логарифм максимального правдоподобия, тем более адекватным считается данное уравнение регрессии. При этом логарифм максимального правдоподобия находится по следующей формуле (3.16):

2. Следующим еще неизученным нами параметром уравнения регрессии является Durbin-Watson stat (Критерий Дарбина – Уотсона), который является своего рода тестом на наличие автокорреляции в остатках. Как мы уже говорили, при наличии автокорреляции в остатках оценки коэффициентов уравнения регрессии нельзя назвать состоятельными и эффективными. При этом критерий Дарбина – Уотсона находится следующим образом (3.17):

Где n – количество наблюдений; еt – отклонение (остатки) прогноза от фактического курса доллара; еt-1 ‑ отклонение (остатки) прогноза от фактического курса доллара c лагом в один месяц. В нашем случае критерий Дарбина – Уотсона находится следующим образом:

Правда, критерий Дарбина – Уотсона нельзя использовать для тестирования уравнений авторегресии на наличие автокорреляции в остатках, поскольку в данном случае он теряет свою мощность. Это объясняется тем, что применение данного критерия предполагает строгое соблюдение предпосылки о разделении переменных на зависимую (результативную) и независимую (факторную) переменную. В уравнениях авторегрессии, как известно, в правой части уравнения имеются лаговые значения результативной переменной, а, следовательно, вышеуказанная предпосылка не соблюдается. В этом случае фактическое значение критерия Дарбина – Уотсона приблизительно равно 2, как при наличии, так и при отсутствии автокорреляции в остатках. Тем не менее в обычных уравнениях регрессии данный критерий весьма полезен для тестировании остатков на наличие автокорреляции.

3. Следующий параметр уравнения регрессии, на наш взгляд, не представляет каких-либо трудностей для его понимания ‑ Mean dependent var(Среднее Значение зависимой переменной). При этом среднее значение зависимой переменной рассчитывается по довольно простой формуле (3.18):

Где n – количество наблюдений; Yt – зависимая переменная ежемесячный курс доллара.

В нашем случае среднее значение (вернее сказать, среднее хронологическое, поскольку мы берем период за 213 месяцев) зависимой переменной мы находим следующим образом:

4. Еще один показатель, характеризующий зависимую переменную данного уравнения регрессии ‑ S.D. dependent var (Стандартное отклонение зависимой переменной). При этом стандартное отклонение зависимой переменной находится так (3.19):

Где LL ‑ логарифм максимального правдоподобия; T – количество наблюдений; k – общее количество лагов в уравнении авторегрессии.

В нашем случае информационный критерий Акаика равен

AIC = -2×256,1815: 213 × 2 × 3: 213 =2,4336.

В свою очередь информационный критерий Шварца рассчитывается по формуле

SC = -2LL: T + (k ln T):T. (3.21)

Относительно нашего уравнения регрессии информационный критерий Шварца имеет

SC = -2 × 256,1815: 213 + (3 ln 213):213 =2,4809.

Обычно оцениваемая статистическая модель лучше соответствует фактическим данным при более высоком порядке p и q в модели ARMA(p, q). При этом платой за это кажущееся повышение точности является вполне очевидная потеря в простоте статистической модели и в экономии включенных в него параметров. Поэтому для достижения компромисса между точностью уравнения регрессии и экономией его параметров, пользуются информационными критериями Акаика и Шварца.

Причем, при выборе из двух уравнений регрессии обычно предпочтение отдается той статистической модели, у которой меньше значения этих информационных критериев. Следует также заметить, что информационный критерий Шварца по сравнению критерием Акаика отбирает уравнения регрессии с более экономичными параметрами.

Таблица 3.3. Вывод итогов в EViews и принятие решения о статистической значимости уравнения регрессии и значимости его коэффициентов

Как мы уже говорили, в уравнениях авторегрессии при тестировании остатков на наличие автокорреляции критерий Дарбина-Уотсона теряет свою мощность. Поэтому в этих случаях приходится пользоваться иными критериями. Например, тем, кто работает в Excel, с этой целью проще воспользоваться критерием h Дарбина или как его еще называют h – статистикой Дарбина. Его расчет выполняется по следующей формуле (3.22):

Где D ‑ критерий Дарбина-Уотсона; n – количество наблюдений; V – квадрат стандартной ошибки при лаговой факторной переменной Yt-1.

Например, в нашем случае критерий h Дарбина находится следующим образом:

При увеличении объёма выборки распределение h-статистики стремится к нормальному с нулевым математическим ожиданием и дисперсией, равной 1. Поэтому гипотеза об отсутствии автокорреляции в остатках отвергается, если фактическое значение h-статистики оказывается больше, чем критическое значение нормального распределения. Для проверки по критерию h Дарбина гипотезы о наличии автокорреляции в остатках проще воспользоваться следующим правилом.

1. Если h =1,96, то нулевая гипотеза об отсутствии положительной автокорреляции в остатках отклоняется.

2. Если h=-1,96, то нулевая гипотеза об отсутствии отрицательной автокорреляции в остатках отклоняется.

3. Если -1,96 1,96, то нет основания отклонять нулевую гипотезу об отсутствии автокорреляции в остатках.

Поскольку в данном случае критерий h Дарбина получился равным -1,00368, то у нас нет основания отклонять нулевую гипотезу об отсутствии автокорреляции в остатках.

Следует иметь в виду, что у использования критерия h Дарбина есть определенная специфика. Во-первых, данный критерий нельзя применять, если произведение nV 1. Во-вторых, h –статистику Дарбина можно использовать лишь для больших выборок (n равно или более 30 наблюдений). В-третьих, критерий h Дарбина зависит только от V (квадрата стандартной ошибки) при лаговой факторной переменной Yt-1 и не зависит от числа лагов, используемых в уравнении авторегрессии.

В EViews для проверки статистических моделей на наличие автокорелляции в остатках целесообразно использовать LM– тест Бройша‑ Годфри (Breusch-Godfrey Serial Correlation LM Test), который в отличие от h –статистики Дарбина, может быть применим не только для авторегрессии первого порядка, но и для авторегрессии более высоких порядков.

Суть данного теста заключается в построении уравнения регрессии остатков с заранее заданной величиной лага, решение которого позволяет сделать вывод о наличии или отсутствии автокорреляции в остатках (3.23):

При этом выдвигается нулевая гипотеза, что коэффициенты при остатках e: p1= p2= … pm=0, то есть автокорреляция в остатках с различным лагом отсутствует. Вполне естественно, что альтернативной гипотезой в данном случае является гипотеза о том, что они не равны нулю. По итогам решения уравнения регрессии (3.23) нулевая гипотеза либо принимается, либо отклоняется.

Поскольку LM– тест Бройша‑ Годфри проверяет остатки на автокорреляцию, то мы его проводим уже после того как решили основное уравнение авторегрессии, а следовательно нашли остатки, полученные на основе данной статистической модели.

Шаг 1 Практическая реализация LM– теста Бройша‑ Годфри

В EViews реализации LM– теста Бройша‑ Годфри довольно проста. С этой целью необходимо в командной строке (1 Command) или в строке уравнение (3 EQUATION) выбрать следующие опции: View/Residual Tests/Serial Correlation LM Test… После чего появляется мини-окно LAG SPECIFICATION, в котором можно задать интересующую нас величину лага (см. рис. 3.5). В данном случае мы задаем величину лага=2, что обусловлено структурой лаговых переменных, включенных в уравнение авторегрессии ‑ см. формулу (3.13). В общем виде величина задаваемого лага для модели ARMA (p,q) = max(p,q), что для нашего случая приобретает следующий вид: ARMA (2,0) = max(2,0)=2.

Рис. 3.5. Мини-окно LAG SPECIFICATION, в котором задается величина лага

Шаг 2 Интерпретация результатов тестирования

В результате мы получаем следующие данные по результатам проведения LM– теста Бройша‑Годфри, которые занесем в табл. 3.4. EViews сообщает две тестовые статистики (см. две верхние строки в таблице 3.4, выделенные жирным шрифтом) При этом для оценки результатов тестирования в качестве основного используется критерий Obs*R-squared(Наблюдения*R2), который мы не только выделили жирным шрифтом, но и подчеркнули. Для нашего случая Obs*R-squared=0,024005*213=5,112998. Правда, если мы попробуем сами провести это вычисление, то из-за округления из-за округления R2 у нас получится некоторое расхождение с цифрой, выданной EViews.

При этом предполагается, что LM тестовая статистика (критерий Obs*R-squared) асимптотически распределена как χ 2 (хи-квадрат-распределение), о котором мы уже говорили выше. Поэтому значимость Obs*R-squared определяется с помощью табличного χ2 крит.

Таблица 3.4. Результаты LM– теста Бройша‑Годфри на выявление автокорреляции в остатках

В том случае, когда значимость (Probability) Obs*R-squared у нас оказывается 0,05, то нулевая гипотеза об отсутствии автокорреляции в остатках отклоняется. Если же Obs*R-squared 0,05, то нулевую гипотезу об отсутствии автокорреляции в остатках нельзя отклонить. Поскольку в нашем случае значимость Obs*R-squared=0,077576, то нулевая гипотеза об отсутствии автокорреляции в остатках не может быть отклонена с95% уровнем надежности.

В EViews приводится в качестве дополнительного F-критерий (F-statistic), который представляет собой тест на определение совокупной значимости всех лаговых остатков. Как мы уже убедились ранее, при построении уравнения авторегрессии у нас происходит уменьшение временного ряда данных, что ведет к пропуску, в том числе и части лаговых остатков. Согласно предложению, выдвинутому в 1993 году Давидсоном и Маккинном, в этом случае отсутствующие остатки следует приравнивать к нулю. По их мнению, это дает лучшую статистику, чем в случае пропуска этих остатков. Однако, по мнению большинства исследователей, в этом случае распределение F-статистики становится не совсем точным. Тем не менее EViews дает F-критерий для справочных целей.

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Стоит отметить, что построение ARIMA модели требует гораздо больших затрат по сравнению с Prophet: нужно исследовать исходный ряд, привести его к стационарному, подобрать начальные приближения и потратить немало времени на подбор гипер-параметров алгоритма

Очень сомневаюсь, что Prophet где-то бьет Ариму(нормально выполненную Ариму)

Описание затрат относилось к программированию на языке python (насколько я знаю, в R все также). Кроме большего числа телодвижений, построение ARIMA моделей все-таки требует каких-то знаний.

Возможно, в Eviews эта задача полностью решена и прогноз строиться автоматически одной кнопкой за несколько минут. К сожалению, я не встречалась с этой программой.

Eviews — это то, что создано непосредственно для прогнозирования временных рядов. Но даже если это Питон, в чем проблема взять first difference, чтобы привести к стационарности?

Это просто банальная разница между сегодняшним и вчерашним значением (в случае, когда речь идет о чем-то простом, вроде анализа количества постов), это сложно реализовать в питоне?)

Смешно смотреть на минусы без комментариев. У меня если что — прикладная статистика, эконометрика и немного работы в одной крупной американской компании по анализу бигдаты. Если кто-то не согласен, и готов аргументировать свою точку мнения — с удовольствием выслушаю.

Зачем вообще нужна стационарность? Если посмотреть на любой временной ряд (практически), то его среднее — не является адекватной, ибо пересекает значения ряда всего несколько раз. Гораздо лучше работать с growth rate (темпами роста), тогда решается проблема средней.

Арима, при условии, что мы выровняли временной ряд, и очистили его от сезонности — лучше справится с задачей, чем Prophet

В этом разделе вы найдете решенные задач по разным разделам эконометрики и статистики, выполненные с применением пакета Eviews. Большая часть работ снабжена подробным текстовым отчетом.

Если вам нужна помощь в выполнении контрольных и расчетных работ по эконометрике, обращайтесь: эконометрика на заказ

Решение эконометрики в Eviews

Задача 1. Рассмотрите файл EAEF302.WF1. Задачей является изучение вопроса о том, как продолжительность рабочего контракта в годах (т.е. срок пребывания в должности у нынешнего работодателя) TENURE влияет на текущий почасовой заработок EARN (в долл. США).
Необходимо построить различные линейные и нелинейные регрессии:
LS EARN C TENURE
LS LOG(EARN) C LOG(TENURE)
LS LOG(EARN) C TENURE
LS EARN C LOG(TENURE)
1) Дайте интерпретацию коэффициентам каждой из регрессий. Оцените качество регрессий, используя различные методы (метод проверки гипотез с работой по p-value и по критическим значениям, доверительным интервалам). Не нужно каждую регрессию проверять всеми методами, достаточно опробовать различные методы и убедиться, что Вы их понимаете и можете применить.
2) Проведите сравнение пар регрессий, используйте преобразование Зарембки, где необходимо. В итоге, какую спецификацию Вы порекомендуете использовать для дальнейшего анализа и почему?

Задача 2. Владелец сети универсамов решил изучить, как количество видеокамер наблюдения влияет на размеры потерь от продаж. Статистика, собранная по итогам года в разных отделениях сети, представлена на 1ом листе (camera) файла EXCEL Cameras_Offices. Здесь:
CAMERA- число установленных видеокамер
LOST – потери от краж, тыс. руб.
На основе имеющейся статистики исследуйте линейную и логарифмически-линейную формы зависимости. Какую из них вы предпочтете? Почему?
Спрогнозируйте потери универсама при 8 и 25 установленных видеокамер наблюдения.

Задача 3. На 2ом листе (offices) файла EXCEL Camera_Offices приведена статистика, собранная по офисам, предлагавшимся к продаже в Москве, а именно, стоимость 1 м2 офиса в зависимости от его местоположения (удаленности от центра). Здесь:
P – цена за 1 м2
DIST - расстояние от центра, км
Установите, влияет ли удаленность от центра на стоимость офисного помещения. Постройте различные линейные и нелинейные регрессии. В этом задании не надо представлять таблицы и графики по всем рассмотренным моделям – представьте результаты только для финальной, выбранной Вами прогнозной модели для расчета 1 м2 офиса в зависимости от его местоположения. Кратко обоснуйте Ваш выбор. По этой модели рассчитайте стоимость 1 м2 офиса, расположенного в 8 км от центра города.

Читайте также: