چکیده:
آربیتراژ آماری، استراتژی رایج سرمایهگذاری در بازارهای ناکاراست که نسبت به بازار خنثی بوده و بدون نیاز به سرمایه اولیه از هر دو جهت بازار کسب سود میکند. این تحقیق برآن است تا ضمن طراحی مدلهای مناسب برای آربیتراژ آماری سهام با استفاده از الگوریتم شبکههای عصبی عمیق، جنگلهای تصادفی، درخت با شیب تقویت شده و ترکیب ساده این مدلها، به تحلیل و بررسی بازده و ریسک مدلهای طراحی شده بپردازد. بدین منظور از اطلاعات همه شرکتهای عضو بورس اوراق بهادار تهران از 1385 تا 1396 برای ایجاد سیگنالهای معاملاتی استفاده شده است. طراحی مدلهای تحقیق و کدنویسیهای مربوطه و همچنین آزمون فرضیات تحقیق که با t-test مورد تحلیل قرار گرفته در نرمافزار R انجام شده است. یافتههای تحقیق نشاندهنده آن است که بیشترین مقدار بازده 24/4 درصد در هر روز برای k=5 است (بدون هزینه معاملات) که متعلق به مدل ترکیبی ساده (ENS) است. همچنین کمترین میزان ارزش در معرض ریسک (45/4%-) و کمترین مقدار ریزش مورد انتظار(57/5%-) برای k=20 متعلق به مدل شبکه عصبی عمیق(DNN) و بالاترین مقدار نسبت بازده به انحراف معیار 072/1 است که متعلق به مدل RAF به ازاءk=20 میباشد. علاوه برآن نتایج تحقیق نشان میدهند بازدههای اخیر سهم قدرت پیشبینیکنندگی بالاتری در مقایسه با بازدههای قبلتر دارند.
Statistical arbitrage is a common investing strategy in inefficient markets which is market neutral and profits from both sides of the market without the need for initial capital. This research aims at designing suitable models for stock statistical arbitrage using deep neural network, random forest, gradient-boosted trees and equal-weighted ensemble of these methods whilst analyzes the returns and risks of the designed models. For this purpose, the information of all listed companies in Tehran Stock Exchange from 1385 until 1396 has been used to generate trading signals. The design of the research models and required coding also the testing of the research hypotheses which is analyzed by t-test were performed in R software. The research findings show that the highest daily return is 4.24% for k = 5 (prior transaction costs) which is for the simple equal-weighted ensemble (ENS). Also deep neural network (DNN) has the lowest value at risk (- 4.45%) and the lowest expected shortfall (- 5.57%) for k = 20. The highest value of the return to standard deviation ratio is 1.072 which belongs to the RAF model for k = 20. Moreover, research results show that recent returns have higher predictive power than previous returns.