Uploaded by erhow.miha

тезисы

advertisement
ВЛИЯНИЕ ЭМОЦИОНАЛЬНОЙ НАГУЗКИ НОВОСТНОГО ТЕКСТА
НА ИЗМЕНЕНИЕ ДОХОДНОСТИ АКЦИЙ НА ПРИМЕРЕ
КОМПАНИИ APPLE Co.
Лозинская Агата Максимовна
К.э.н., доцент Департамента экономики и финансов НИУ ВШЭ-Пермь,
[email protected]
Ершов Михаил Олегович
НИУ ВШЭ-Пермь, образовательная программа бакалавриата «Экономика»,
[email protected]
В данной работе исследуется влияние эмоциональной тональности
новостного текста об компании на изменение доходности по ее акциям. Для
анализа эмоциональности текста проводится sentiment analysis, основанный на
модели мешка слов. Используется SVM классификатор для решения задачи
разделения
новостей
по
классам. В
результате
построенный
SVM
классификатор показал объясняющую способность большую, чем у наивного
классификатора,
что
свидетельствует
о
наличие
краткосрочной
неэффективности американского фондового рынка. Анализ проводился на
примере данных о копании Apple за 2017г. — 2019 г.
Ключевые слова: анализ тональности текста, метод опорных векторов,
американский фондовый рынок, доходность акций.
Чтобы оценить эмоциональную нагрузку новостей, был проведен анализ
тональности текста. Для выделения тональности текста использовалась
модель мешка слов, основанная на словаре МакДональда и Лоугрэна.
Выделялось
количество
«положительных»,
«негативных»
и
«неопределенных» слов в тексте. Затем определялась частотность трех
вышеуказанных типов слов в новостном тексте, под которой понималось
отношение числа слов с вышеуказанными эмоциональными тональностями к
общему числу слов. В случае публикации нескольких новостей в один день,
вышеуказанные показатели усреднялись. Источником текстовой информации
в текущем исследовании являлась информационная база Thomson Reuters. Для
анализа в данной работе были выбраны следующие категории новостей:
слияние и поглощения, выход компании на новые рынки, интервью или
комментарии
генеральных
директоров
или
иных
лиц,
занимающих
руководящие посты в компаниях, аналитические комментарии к годовым
отчетам, и аналитические обзоры сделанные внутренними авторами Thomson
Reuters, решения общего собрания акционеров компании, публикации отчетов
рейтинговых агентств по изменению кредитного рейтинга долговых бумаг
компании. В выборку вошли новости за период 01.01.2017г. — 08.02.2019 г.
Для решения проблемы классификации новостей был построен
классификатор, основанный на методе опорных векторов (Support Vector
Machine, SVM). В качестве регрессоров SVM модели выступали показатели
частотности
слов,
несущих
«положительную»,
«негативную»
или
«неопределённую» эмоциональную нагрузку. Исследуемой переменной была
фиктивная переменная, которая принимала значение «1» при положительном
дневном изменении доходности акции, «0» при отрицательной. Доходность
акции измерялась как дневное процентное изменение ее рыночного курса,
дивидендная доходность при этом не учитывалась.
Заметим, что во всей выборке не наблюдалось нулевое изменение
доходностей акций. При нахождении оптимальных параметров модели: С и ϭ
была
проведена
десятикратная
кросс-валидация.
Наилучшая
модель
определялось по максимальной точности (accuracy), под которой понималось
доля правильно классифицированных
объектов.
SVM
классификатор
оценивался ядерной аппроксимирующей функцией Гаусса. Выборка была
разделена на обучающую и на тестирующую часть. Модель обучалась на 75%
от всей выборки, а тестировалась на оставшихся 25%. Такое соотношение
тестирующей и обучающей части выборки обеспечивало большие значения
формальных метрик качества по сравнению с делением выборки на
обучающую и тестирую части в равных пропорциях.
На
тестирующей
выборке
классификатор
показал
значение
гиперпраметра ядра ϭ= 1.26. Размер штрафа за неверно классифицированный
объект С составил 0.5
Далее классификатор выводился на тестирующую выборку, где на
прогнозных значениях объясняемой переменной проверялось устойчивость
классификации. На рисунке 1 представлена кривая рабочей характеристики
приёмника (Receiver Operating Characteristic, ROC), построенная на данных
тестирующей выборки.
Рис.1 ROC кривая для SVM классификатора.
Формальной мерой качества классификатора является показатель
площади под ROC кривой (Area Under Curve, AUC). Данный классификатор
показал площадь под ROC кривой равную 0.59, что немногим больше, чем
показатель AUC у «наивного» классификатора, делящего выборку случайным
образом. AUC для такого классификатора равен 0.5.
SVM классификатор имел крайне низкую объясняющую силу. Это
может быть объяснено тем, что данное исследование направлено на поиск
ценовых аномалий рынка акций, при этом анализ происходил на
американском фондовом рынке. Американский фондовый рынок является
одним из самых старых во всем мире. Согласно ряду эмпирических статей,
фондовые рынки с возрастом становятся более эффективными. То есть на них
сложнее получать доходность выше среднерыночной (Chong, Cheng, 2010).
Следует отметить, что показатель AUC для SVM классификатора был
отличным от величины AUC для «наивного» классификатора, Исходя из этого
можно заключить, что, несмотря на общий уровень эффективности
американского рынка, инвесторы в краткосрочном периоде склонны
принимать
решения,
основываясь
на
новостных
публикациях,
что
противоречит гипотезе об эффективности рынка, согласно которой вся
публичная информация находиться в цене и принятия инвестиционного
решения на основе новостей неэффективны (Володин, Головченко, 2014).
Библиографический список
1. Володин С. Н., Головченко А. Э. Применимость технического анализа в
различных рыночных ситуациях //Аудит и финансовый анализ. 2014. №.
5. С. 99-105.
2. Chong T. T. L., Cheng S. H. S., Wong E. N. Y. A comparison of stock market
efficiency of the BRIC countries // Technology and Investment. 2010. Vol. 1.
№ 04. P. 235— 238.
3. Thomson
Reuters URL: https://www.reuters.com (дата обращения
08.02.2019).
THE EFFECT OF THE STOCK’S NEWS EMOTIONAKL CONENT ON
STOCK RETURNS ON THE EXAMPLE OF APPLE Co.
Lozinskaya Agata Maksimovna
Ph.D., Associate Professor of the Department of Economics and Finance, HSEPerm, [email protected]
Ershov Mikhail Olegovich
HSE-Perm, bachelor's program Economics, [email protected]
This article examines the effect of the emotional content of a news text about the
company on the returns of its shares. For the analysis of the emotional content were
made sentiment analysis, based on the "bag of words" model. The SVM classifier is
used to solve the problem of dividing news into classes of "good" and "bad" news.
As a result, the SVM classifier showed an explanatory capacity greater than the naive
classifier, which indicates the presence of the short-term inefficiency of the
American stock market. Analysis of the share held on the American market for the
time period 2017 — 2019years.
Key words: sentiment analysis, support vector machine, American stock market,
stock returns.