Методы исследований Обзоры методов исследования

Статистический анализ: определение важности экономического события

Александр Журавлев 01 февраля 2021 264 0

1. Введение


В данном обзоре приводится эконометрический анализ, целью которого является выявление веса макроэкономических показателей безработицы в США в изменениях в валютной паре USD/CHF и их статистической значимости.


Каждую неделю в четверг в 14:30 GMT (летом) и 13:30 GMT (зимой) Министерство труда США публикует данные по трем показателям:


-Общее число лиц, получающих пособия по безработице в США


-Число первичных заявок на получение пособий по безработице в США


-Среднее число заявок на пособие по безработице в США за 4 недели


На сайте investing.com данные события разделены по степени важности (низкая, высокая и низкая соответственно). В обзоре предоставлены расчеты, которые ставят данную классификацию под вопрос и демонстрируют, что показатель общего числа лиц, получающих пособия, является наиболее значимым среди трех приведенных.


2. Метод и расчеты


Для выявления степени влияния была использована выборка котировок с 3 июня 2015 года по 1 января 2020 года во временном промежутке с 14:00 (13:00 по зимнему времени) по 17:00(16:00). Всего – 1185 дней. Так как сами показатели публикуются в 14:30 (13:30), имеет смысл рассмотреть поведение валютной пары на промежутке за полчаса до их публикации и в течение двух с половиной часов после.


Данный временной промежуток был выбран с целью показать краткосрочные изменения на рынке, так как эффект от публикации показателей наиболее вероятно имеет краткосрочный эффект, который со временем будет угасать. К примеру, американский экономист Ричард Талер (2013) утверждает, что инвесторы часто чрезмерно реагируют на новую информацию, что в последствии влияет на инвестиционные решения. Кроме того, экономист Джордж Акерлоф (2009) отмечает, что ожидания на рынке также могут повлиять на то, каким образом происходит инвестирование. Таким образом, есть причины полагать, что наиболее значимый эффект показателей на валютную пару будет прослеживаться в узком временном диапазоне незадолго до выпуска показателей по безработице и непосредственно после него.


2.1. Измерение доходности


В рамках первичного анализа было решено измерить доходность валютной пары по отношению к каждому из публикуемых показателей за 1 час, 2 часа и 3 часа в заданном временном промежутке.


Доходность считалась следующим образом:


Если показатель падал (фактическое значение ниже предыдущего), то доходность считалась по покупке:

I = ((цена закрытия- цена открытия)/цена открытия)*100


Если показатель рос (фактическое значение выше предыдущего), то доходность считалась по продаже:

I = ((цена открытия - цена закрытия)/цена открытия)*100


Ниже приведена таблица с расчетами средней доходности за те дни, когда происходила публикация показателей:


Событие
Доходность (1 час)
Доходность (2 часа)
Доходность (3 часа)
Общее число лиц, получающих пособия по безработице в США
-0.0155213557
-0.003729971
-0.0232215179
Число первичных заявок на получение пособий по безработице в США
0.0007198104
0.013888649
-0.0001473279
Среднее число заявок на пособие по безработице в США за 4 недели
0.0099718196
0.008319738
0.0143483143


На основании таблицы можно увидеть, что после публикации показателя об общем количестве пособий доходность в среднем была негативной, и самая большая доходность наблюдалась в период за полчаса до публикации до полутора часов после.


Число первичных заявок ассоциировалось с низкой доходностью в первый час, однако доходность за два часа возрастала до 0.0139. Доходность за три часа была близка к нулю.


Показатель среднего числа заявок ассоциировался с более высокой доходностью за три часа, в то время как соответствующие значения за 1 час и 2 часа были относительно невелики.


При рассмотрении таблицы можно увидеть, что доходности не следуют какой-либо закономерности. Следовательно, на основании данных расчетов трудно вывести четкую причинно-следственную связь. Более того, так как расчет доходности зависит от значения макроэкономических показателей, данный метод не позволяет наглядно сравнить, насколько значимым является факт публикации показателей в контексте рассматриваемой валютной пары.


2.2. Измерение волатильности


Также в контексте вопроса интересным стало рассмотрение изменения волатильности валютной пары в зависимости от публикации показателей по безработице, так как волатильность может быть измерена независимо от того, были ли опубликованы макроэкономические показатели.


Волатильность рассчитывалась по следующей формуле:

V = ((макс. цена - мин. цена)/средн.цена)*100


В данном обзоре представлены расчеты волатильности за 1 час.

Вышеприведенные графики показывают степень волатильности валютной пары на временном промежутке за 30 минут до ожидаемой публикации данных по безработице и 30 минут после в период с 04.06.2015 по 01.01.2020. Красная линия показывает волатильность в те дни, когда данные не публиковались, в то время как бирюзовая линия показывает волатильность в дни публикации показателей.


Как можно заметить по обоим графикам, волатильность валютной пары в среднем была выше в дни публикации показателей, и данный тренд прослеживался на протяжении всего рассматриваемого периода. Данное наблюдение дает основания полагать, что публикация показателей оказывает влияние на степень волатильности валютной пары USD/CHF. Для выявления данной закономерности в дальнейшем был проведен ряд статистических тестов (см. далее).


Также можно отметить, что волатильность в обеих группах снижалась с течением времени. Причина такой динамики остается неясна, но она четко прослеживается на графиках.


3. Эконометрические тесты

3.1. Тест разницы средних значений (t-test)


Дабы продемонстрировать статистическую значимость разницы между двумя группами наблюдений, было решено провести тест разницы средних значений (t student test).


Для проведения данного теста берутся средние показатели по обеим группам наблюдений и затем проверяется, является ли разница между ними статистически значимой. Как в любом эконометрическом тесте, t тест имеет нулевую (H0) и альтернативную (H1) гипотезу. В данном тесте, гипотезы звучат следующим образом:


H0: Среднее значение волатильности в дни публикации показателей не отличается от среднего значения волатильности в дни, когда публикация не проводилась.


H1: Среднее значение волатильности в дни публикации показателей отличается от среднего значения волатильности в дни, когда публикация не проводилась (односторонняя гипотеза)


Для тестирования гипотез тест вычисляет p статистику. p статистика показывает степень статистической значимости полученной разницы. Иными словами, она показывает, насколько сильна доказательная база для того, чтобы принять альтернативную гипотезу. Данный параметр вычисляется путем получения t статистики, которая затем стандартизируется на основании размера выборки и сопоставляется с соответствующей р статистикой. Формула для t статистики выглядит следующим образом:

В результате проведенного теста были полученные следующие данные:


Средневыборочное волатильности (дни с публикацией)
Средневыборочное волатильности (дни без публикации):
Разница средневыборочных:
0.09287651
0.07307620
0.01980031
t= -5.6557
p= 0.0000003572
95% доверительный интервал для разницы:
0.01291124 : 0.02668937


На основании данных показателей можно сделать следующие выводы:


1) p статистика 0.0000003572 дает весомые основания для отвержения нулевой гипотезы в пользу альтернативной [1]. Иными словами, тест дает достаточные основания полагать, что два средневыборочных отличаются.


2) Показатель доверительного интервала указывает на то, что значение средневыборочного волатильностей в дни публикации макроэкономических показателей превышает аналогичный показатель для дней без публикации [2].


Тем не менее, t тест требует, чтобы обе выборки попадали под следующие условия:


1) Обе выборки должны иметь нормальное или околонормальное распределение


2) Обе выборки должны иметь одинаковые значения дисперсии


Если данные условия не соблюдены, то тест может показать значимый результат, но результат будет ложным.


Перед проведением теста были сравнены распределения обеих выборок. Обе группы наблюдений имели схожее околонормальное распределение после того, как в тестовой группе было удалено аномально высокое наблюдение (оно видно на Графике 1, декабрь 2015). Хоть дисперсия обеих групп и была схожа, было принято решение провести более консервативный тест с подгонкой под разные дисперсии. Таким образом, оба условия были выполнены, что дает основания для принятия результатов теста как верных.


3.2. Тест значимости корреляции


T тест дал основания полагать, что волатильность статистически значимо отличается между двумя группами. Тем не менее, остается открытым вопрос о том, какие показатели обуславливают данную разницу.


В качестве первичного теста было решено составить корреляционную матрицу Пирсона для выявления степени взаимоотношения волатильности и трех макроэкономических индикаторов.


Среднее число заявок на пособие по безработице в США за 4 недели
Число первичных заявок на получение пособий по безработице в США
Общее число лиц, получающих пособия по безработице в США
Волатильность за 1 час
Среднее число заявок на пособие по безработице в США за 4 недели (разница, %)
1.00000000
0.36509478
0.09013731
-0.07349012
Число первичных заявок на получение пособий по безработице в США (разница, %)
0.36509478
1.00000000
0.10470774
-0.01658233
Общее число лиц, получающих пособия по безработице в США (разница, %)
0.09013731
0.10470774
1.00000000
-0.13593426
Волатильность за 1 час
-0.07349012
-0.01658233
- 0.13593426
1.00000000


На основании данных из таблицы можно увидеть, что волатильность имеет слабую негативную корреляцию со всеми тремя показателями. Тем не менее, разница в общем числе получаемых пособий имеет самую сильную связь с волатильностью при коэффициенте корреляции в -0.136.


Так как корреляция находится на основании выборки, полученный показатель может отличаться от истинного значения (т.е., для всех возможных наблюдений), т.к. коэффициенты могут быть получены случайным путем. Статистическую значимость полученных коэффициентов можно проверить с помощью теста значимости корреляции, результаты которого представлены в следующей таблице.


Показатель
Общее число лиц, получающих пособия по безработице в США (разница, %)/Волатильность
Среднее число заявок на пособие по безработице в США за 4 недели (разница, %)/ Волатильность
Число первичных заявок на получение пособий по безработице в США (разница, %)/ Волатильность
Значение p:
0.02952
0.3286
0.8981
Уровень значимости
Значимый на уровне 5%
Не значимый
Не значимый


Из полученных расчетов следует, что единственным статистически значимым коэффициентом является показатель корреляции между общим числом пособий по безработице и волатильностью. Значимость данной корреляции дает основания для проведения регрессионного анализа.


3.3. Регрессионный тест


В отличие от корреляции, метод линейной регрессии позволяет увидеть не только значимость переменных в контексте изменения зависимой переменной, но также определить степень их влияния на интересующий нас показатель.


Для построения линейной регрессионной модели, составим гипотезу. На основании корреляционного теста, можно предположить следующее:


H1:Рост в процентной разнице общего количества получаемых пособий по безработице уменьшает волатильность валютной пары USD/CHF в период за полчаса до публикации показателей до получаса после.


Данная гипотеза будет сравниваться с нулевой гипотезой:


H0:Изменения в процентной разнице общего количества получаемых пособий по безработице не имеют влияния на волатильность валютной пары USD/CHF в период за полчаса до публикации показателей до получаса после.


В качестве зависимой переменной возьмем волатильность валютной пары USD/CHF за один час. В качестве зависимых переменных возьмем процентное изменение в трех показателях безработицы в США по отношению к предыдущему опубликованному значению. Таким образом, регрессионная модель имеет следующий вид:

Регрессионная модель используется для предугадывания значения зависимой переменной в зависимости от показателей независимых переменных, но при правильной спецификации она способна предугадывать лишь средние значения. То есть, иногда фактические показатели будут отличаться от результатов модели. Именно поэтому в модель включен элемент ошибки, который обуславливает расхождения между показателями моделей и реальным поведением зависимой переменной.


Хорошо построенная модель не обязательно минимизирует показатель ε. Главная задача – это построить модель так, чтобы ε не менялся систематически с показаниями зависимой переменной. Иными словами, ε должен иметь совершенно произвольный эффект на результат регрессии. Если между ε и зависимой переменной существует постоянная связь, то построенная модель не включает в себя потенциально важную переменную, обуславливающую изменения в зависимой переменной.


Так как рассматриваемые показатели являются единственными факторами, которые систематически меняются в указанный временной период, то можно предположить, что регрессионная ошибка будет нести произвольный характер и зависеть от множества других факторов, не коррелирующих со временем выпуска макроэкономических данных. Иными словами, ε будет иметь произвольный характер.


Первичный регрессионный тест выдал следующие результаты:


Переменная
Показатель коэффициента
Стандартная ошибка
p статистика
Константа
0.0769386
0.0011978
2e-16***
Среднее число заявок на пособие по безработице в США за 4 недели (разница, %)
-0.0023881
0.0016948
0.15908
Число первичных заявок на получение пособий по безработице в США (разница, %)
0.0003235
0.0005243
0.53736
Общее число лиц, получающих пособия по безработице в США (разница, %)
-0.0041879
0.0015247
0.00611***
R2=0.008435
F = 3.346
Обозначение значимости
*** = 0.1%
** =1%
*=5%


На основании данных результатов можно сделать вывод, что единственным значимым фактором, определяющим волатильность, является общее количество получаемых пособий. Полученный коэффициент показывает, что при росте показателя на 1% по сравнению с предыдущим периодом волатильность в среднем падает на 0.004%. Все остальные показатели не являются статистически значимыми. Таким образом, тест дает основания для принятия альтернативной гипотезы.


Стоит также обратить внимание на показатель R2 равный 0.008435. В контексте регрессии он показывает, какой процент изменений в зависимой переменной показывает построенная модель. В данном случае модель объясняет всего 0.84% вариации. Тем не менее, это не отменяет значимости полученного коэффициента и лишь показывает, что большая часть вариативности в волатильности обуславливается множеством других факторов, происходящих на не предугадываемой основе.


3.4. Проверка регрессии


Регрессионная модель строится на ряде предположений, среди которых важными являются отсутствие коллинеарности и гетероскедастичности.


Коллинеарность возникает, когда две и более переменных в регрессии имеют тесную связь друг с другом. Так как три рассматриваемых показателя измеряют показатели безработицы и могут быть связаны, в построенной модели возникает риск коллинеарности, что в последствии может сказаться на правильности получаемых ею показателей. Таблица 2 показала, что среднее количество заявок на пособие и количество первичных пособий имеют относительно сильную корреляцию в 0.365.


Гетерескедастичность появляется тогда, когда дисперсия ошибок регрессии отличается для каждого показателя независимой переменной. В таком случае результаты модели также могут оказаться неточными. Тест Бреуша-Пагана показал, что исходная модель действительно подвержена влиянию гетероскедастичности.


С целью исправить данные погрешности, была создана улучшенная версия модели. В ней была исключена переменная первичных пособий по безработице и стандартные ошибки показателей были высчитаны с учетом гетероскедастичности.


Переменная
Показатель коэффициента
Стандартная ошибка
p статистика
Константа
0.0.0769446
0.0011933
2e-16***
Число средних заявок на получение пособий по безработице в США (разница, %)
-0.0020125
0.0018793
0.28442
Общее число лиц, получающих пособия по безработице в США (разница, %)
-0.0041161
0.0018804
0.02879*
R2=0.008116
F = 4.831
Обозначение значимости
*** = 0.1%
** =1%
*=5%


Итоговая модель лишь подтверждает выводы, сделанные ранее. Хоть показатель статистической значимости для разницы общего количества пособий упал, он остается статистически значимым на уровне 5% и составляет -0.004. Таким образом, рост общего количества пособий на 1% в среднем приводит к падению волатильности на 0.004%, в то время как два других показателя не оказывают статистически значимого эффекта.


4. Выводы


На основании проведенного исследования было выявлено, что доходность сделок по валютной паре USD/CHF в периоды публикации показателей по безработице в США не следует какой-либо статистической закономерности.


В то же время, было установлено, что волатильность имеет статистически значимую взаимосвязь с показателем общего количества выдаваемых пособий и не зависит от изменений в среднем количестве пособий за 4 недели и количества первичных заявок. Данные результаты сильно отличаются от классификации данных показателей на сайте investing.com, указывая на бо́льшую роль показателя общего количества пособий.


Тем не менее, остается вероятность того, что полученные результаты сильно зависимы от рассматриваемой выборки. Возможно, проведение схожего анализа за более широкий период покажет другую картину.


Резюмируя вышесказанное, сравним оценки важности этих событий, предоставляемые разными календарями:


Экономический показатель
Важность события от investing.com
Важность события от fxstreet
Наша оценка
Среднее число заявок на пособие по безработице в США за 4 недели
1
2
1
Число первичных заявок на получение пособий по безработице в США
3
2
1
Общее число лиц, получающих пособия по безработице в США
1
2
3


В блоке из этих трех событий нужно ориентироваться на «Общее число лиц, получающих пособия по безработице в США» при выборе направления сделки.


5. Техническая справка.


Все котировки были взяты через API с сервера UTIP с индексом периодичности 51 (т.е., с шагом в 15 минут).

Подготовка данных к анализу, визуализация и сам анализ проводились в R studio.

Для совмещения данных был использован пакет xts, дабы обеспечить более удобную фильтрацию дат по часам и дням.

Последующая фильтрация проводилась с группой пакетов tidyverse, включая пакеты dplyr и lubridate.

Для визуализации был использован пакет ggplot2.

Для проведения регрессионного анализа были задействованы пакеты moderndive, lmtest (для выявления гетероскедастичности) и sandwich (для устранения гетероскедастичности).


Литература:

Акерлоф, Джордж (2009). Animal Spirits.

Талер, Ричард (2013). Новая поведенческая экономика.


Комментарии:

[1] Чем ниже p, тем весомее доказательство в сторону принятия альтернативной гипотезы. В эконометрике значения р ниже 0.05 принято считать статистически значимыми.


[2] Доверительный интервал в 95% показывает спектр показателей разницы, в котором с вероятностью 95% лежит истинная популяционная разница между двумя группами.

Комментарии

Написать комментарий

Отправить
Правила комментирования
Только авторизованные пользователи могут оставлять комментарии. Войдите, пожалуйста.
Только пользователи с подтвержденным email могут оставлять комментарии. Для активации перейдите по ссылке в письме, которое было отправлено на Вашу электронную почту. Отправить письмо для активации повторно.

Подпишитесь на нашу рассылку и будьте в курсе всех новостей!