基于多模態(tài)深度強(qiáng)化學(xué)習(xí)的投資組合優(yōu)化
?簡(jiǎn)介
本文開發(fā)強(qiáng)化學(xué)習(xí)代理以支持投資組合管理和優(yōu)化,結(jié)合股票定價(jià)數(shù)據(jù)和替代數(shù)據(jù)(如SEC文件和新聞?lì)^條)。強(qiáng)化學(xué)習(xí)適合在線環(huán)境,能夠?qū)崟r(shí)反饋和響應(yīng),提升決策效果。替代數(shù)據(jù)編碼進(jìn)狀態(tài)矩陣,幫助代理更好地調(diào)整投資組合權(quán)重。強(qiáng)化學(xué)習(xí)模型基于馬爾可夫決策過(guò)程,能夠靈活定義不同的獎(jiǎng)勵(lì)函數(shù)以滿足投資者偏好。主要算法為深度強(qiáng)化學(xué)習(xí),利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最優(yōu)策略,目標(biāo)是最大化未來(lái)預(yù)期獎(jiǎng)勵(lì)。強(qiáng)調(diào)在狀態(tài)空間、獎(jiǎng)勵(lì)函數(shù)和深度學(xué)習(xí)模型訓(xùn)練系統(tǒng)上進(jìn)行優(yōu)化。
相關(guān)工作
論文[1] 通過(guò)回顧近期收益和市場(chǎng)指標(biāo),使用簡(jiǎn)單算法選擇投資組合權(quán)重,以最大化差異化夏普比率,并與標(biāo)準(zhǔn)均值-方差優(yōu)化進(jìn)行比較。論文[2] 將強(qiáng)化學(xué)習(xí)應(yīng)用于技術(shù)指標(biāo)和股票協(xié)方差矩陣,使用3D卷積和張量分解提取特征,采用DDPG方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)策略并進(jìn)行回測(cè)。論文[3] 通過(guò)LSTM預(yù)測(cè)價(jià)格變動(dòng),結(jié)合新聞嵌入和HAN進(jìn)行狀態(tài)空間增強(qiáng),使用DPG策略訓(xùn)練并與多個(gè)基準(zhǔn)投資組合比較,解決環(huán)境不確定性和稀疏性問(wèn)題。論文[4] 討論如何在RL模型中合理納入交易成本,并提供相關(guān)實(shí)現(xiàn)的GitHub。論文[5] 探索新聞情緒指標(biāo),應(yīng)用多種學(xué)習(xí)排序算法構(gòu)建表現(xiàn)強(qiáng)勁的自動(dòng)交易系統(tǒng)。論文[6] 利用多智能體強(qiáng)化學(xué)習(xí),通過(guò)懲罰智能體間的相關(guān)性,生成多個(gè)正交高效投資組合。
數(shù)據(jù)
收集、存儲(chǔ)和預(yù)處理價(jià)格數(shù)據(jù)及替代數(shù)據(jù)用于交易策略。使用WRDS的CRSP數(shù)據(jù),下載2010-2020年S&P100指數(shù)股票的基本價(jià)格數(shù)據(jù)(收盤價(jià)、最高價(jià)、最低價(jià)、成交量等)。下載S&P500的市值加權(quán)和等權(quán)重指數(shù)數(shù)據(jù)作為基準(zhǔn)比較。強(qiáng)化學(xué)習(xí)代理將使用歷史公司價(jià)格數(shù)據(jù),反映市場(chǎng)對(duì)公司的價(jià)值。計(jì)劃使用新聞標(biāo)題和SEC文件作為替代數(shù)據(jù),增強(qiáng)決策過(guò)程和投資組合策略。
SEC備案數(shù)據(jù)
SEC文件提供公司財(cái)務(wù)健康和外部風(fēng)險(xiǎn)因素的信息,按統(tǒng)一格式定期提交。這些文件可為公司運(yùn)營(yíng)提供未來(lái)展望,可能未立即反映在股價(jià)中。使用Loughran-McDonald情感詞典計(jì)算情感分?jǐn)?shù),并采用指數(shù)衰減法向未來(lái)日期前推。從EDGAR數(shù)據(jù)庫(kù)下載S&P100過(guò)去30年的10-K和10-Q文件,存儲(chǔ)約115GB。解析器提取10-K的第7/7A項(xiàng)和10-Q的第2項(xiàng),重點(diǎn)在管理層討論和分析(MD&A)部分,涉及市場(chǎng)風(fēng)險(xiǎn)及其管理。
SEC數(shù)據(jù)處理和創(chuàng)建張量
解析和清理SEC文件HTML文檔以提取原始文本,使用正則表達(dá)式提取10-Q中的Item 1A、7/7A和Item 2。構(gòu)建數(shù)據(jù)框,包含公司代碼、文件日期、提取的部分名稱和文本。嘗試使用FinBERT情感評(píng)分,但因數(shù)據(jù)集規(guī)模和格式問(wèn)題,采用修改后的方法創(chuàng)建情感張量。使用Loughran-McDonald情感字典提取正面、負(fù)面和中性詞,計(jì)算其比例并應(yīng)用于情感概率。SEC文件按年度或季度記錄,存在報(bào)告日期間隔,使用指數(shù)衰減填補(bǔ)這些間隔,γ參數(shù)調(diào)優(yōu)至≈0.8。
SEC文件數(shù)據(jù)集統(tǒng)計(jì)
數(shù)據(jù)集包含99個(gè)S&P 100成分股的9000多份SEC文件,使用的子集約6100份。每年僅有4份文件,采用衰減前向填充法填補(bǔ)缺失日期。由于公司增減及新上市公司,文件數(shù)量不均。情感評(píng)分分布呈現(xiàn)明顯的正偏態(tài),表明公司傾向于發(fā)布積極的業(yè)績(jī)和前景信息。在金融危機(jī)或市場(chǎng)不佳時(shí),部分公司的情感評(píng)分出現(xiàn)下降,例如2013年某些科技公司。
新聞標(biāo)題數(shù)據(jù)
公司特定新聞反映投資者情緒變化,影響股價(jià)。正面新聞(如收購(gòu))可推高股價(jià),負(fù)面新聞(如領(lǐng)導(dǎo)變動(dòng))可能導(dǎo)致股價(jià)下跌。實(shí)時(shí)情緒信息有助于交易代理超越基準(zhǔn)表現(xiàn)。數(shù)據(jù)獲取和情緒評(píng)分方法詳見文檔的相關(guān)部分。
每日財(cái)經(jīng)頭條數(shù)據(jù)集
數(shù)據(jù)集包含6000多只股票的每日金融新聞,下載自Kaggle,時(shí)間范圍為2009至2020年。主要有兩個(gè)文件:raw_analyst_ratings.csv(來(lái)自Benzinga的分析師評(píng)級(jí)數(shù)據(jù))和raw_partner_headlines.csv(來(lái)自其他小型合作出版商的頭條數(shù)據(jù))。每行數(shù)據(jù)包括標(biāo)題、文章鏈接、出版商、發(fā)布時(shí)間和股票代碼。將兩個(gè)文件的頭條數(shù)據(jù)合并,形成一個(gè)統(tǒng)一的數(shù)據(jù)集,涵蓋所有S&P 100股票的新聞?lì)^條。
新聞數(shù)據(jù)處理和創(chuàng)建張量
使用預(yù)訓(xùn)練的FinBERT對(duì)2010-2020年間S&P 100公司的新聞標(biāo)題進(jìn)行情感分析,生成正面、負(fù)面和中性情感概率。開發(fā)了一個(gè)新函數(shù),通過(guò)正負(fù)情感概率的比率和中性情感概率來(lái)提取單一情感嵌入,使用tanh進(jìn)行歸一化,得分范圍在-1到1之間。
針對(duì)新聞數(shù)據(jù)的不規(guī)則報(bào)告日期和數(shù)據(jù)缺口,采用指數(shù)衰減方法調(diào)整情感分?jǐn)?shù),衰減因子γ調(diào)優(yōu)至約0.8。創(chuàng)建了一個(gè)名為“NewsHeadlines”的自定義數(shù)據(jù)集類,使用PyTorch處理新聞標(biāo)題數(shù)據(jù),并實(shí)現(xiàn)批量預(yù)處理和迭代功能。通過(guò)Dataloader對(duì)象將數(shù)據(jù)集分批輸入FinBERT,使用softmax激活函數(shù)將原始logits轉(zhuǎn)換為概率向量,并保存每批的輸出張量。
新聞數(shù)據(jù)集統(tǒng)計(jì)
數(shù)據(jù)集包含84個(gè)S&P 100的股票代碼,70,872條新聞情感嵌入數(shù)據(jù)。中位數(shù)股票在905個(gè)交易日內(nèi)有新聞報(bào)道,16個(gè)股票缺乏情感數(shù)據(jù),數(shù)據(jù)覆蓋不全。新聞情感分?jǐn)?shù)呈雙峰分布,主要為負(fù)面或正面,部分中性,顯示出足夠的情感強(qiáng)度可影響強(qiáng)化學(xué)習(xí)代理的決策。將實(shí)施并改進(jìn)多篇文獻(xiàn)中的方法,開發(fā)利用多個(gè)時(shí)間段的強(qiáng)化學(xué)習(xí)系統(tǒng),最終架構(gòu)與文獻(xiàn)[3]和[4]相似。
方法
馬爾可夫決策過(guò)程問(wèn)題公式化
狀態(tài) S* 是一個(gè) U × H × C 的 3D 張量,包含歷史價(jià)格數(shù)據(jù),U 為股票數(shù)量,H 為歷史天數(shù),C 為價(jià)格類型(收盤/最高/最低)。新聞信息 δ 通過(guò)預(yù)訓(xùn)練編碼器處理后,作為額外通道添加到 S*,形成完整狀態(tài)張量 S = (S*, δ)。狀態(tài) S 的每一行代表一個(gè)股票,包含過(guò)去幾天的價(jià)格和替代數(shù)據(jù),簡(jiǎn)單拼接價(jià)格數(shù)據(jù)和新聞嵌入不會(huì)影響學(xué)習(xí)效果。獎(jiǎng)勵(lì)函數(shù) R 將實(shí)驗(yàn)使用兩種方法:基于投資組合價(jià)值變化的利潤(rùn)獎(jiǎng)勵(lì)和近似夏普比率的差異夏普比率。動(dòng)作空間 A 是一個(gè)長(zhǎng)度為 m + 1 的向量,表示下一個(gè)時(shí)間段的投資組合,權(quán)重和為 1,支持短線交易和杠桿限制。項(xiàng)目旨在實(shí)現(xiàn)并復(fù)制文獻(xiàn) [3] 的方法,修改狀態(tài) S 和獎(jiǎng)勵(lì) R,探索替代數(shù)據(jù)源、特征提取方法和獎(jiǎng)勵(lì)函數(shù)的組合,以優(yōu)化 S&P100 股票的表現(xiàn)。
策略比較
最終模型架構(gòu)與多種基準(zhǔn)金融投資組合選擇模型進(jìn)行比較,包括:
- 簡(jiǎn)單均權(quán)投資組合
- 簡(jiǎn)單買入持有投資組合
- 持有歷史夏普比率最高的資產(chǎn)
還將測(cè)試更先進(jìn)的基準(zhǔn)策略:OLMAR和WMAMR
比較指標(biāo)包括:
- 累計(jì)回報(bào)
- 夏普比率
- Sortino比率
- 回撤
實(shí)驗(yàn)部分參考文獻(xiàn)提供了方法論比較的依據(jù)。
特殊配置
RL代理在投資組合優(yōu)化中根據(jù)已知信息生成最優(yōu)投資組合權(quán)重。動(dòng)作空間A為所有可能的投資組合權(quán)重,滿足權(quán)重之和為1。狀態(tài)空間S包含代理在做出投資決策時(shí)可用的所有信息,如歷史價(jià)格、策略表現(xiàn)和新聞情緒指標(biāo)。狀態(tài)轉(zhuǎn)移函數(shù)T為確定性,基于代理提供的權(quán)重更新投資組合并生成下一個(gè)狀態(tài)。獎(jiǎng)勵(lì)函數(shù)R旨在鼓勵(lì)代理生成良好的投資組合權(quán)重,可能的形式包括純利潤(rùn)或差異夏普比率。
差動(dòng)夏普比
Differential Sharpe Ratio用于評(píng)估強(qiáng)化學(xué)習(xí)代理,基于傳統(tǒng)Sharpe Ratio的概念。傳統(tǒng)Sharpe Ratio定義為預(yù)期超額收益與波動(dòng)率的比率,主要用于策略分析。
強(qiáng)化學(xué)習(xí)代理需要在每個(gè)時(shí)間步獲得獎(jiǎng)勵(lì),傳統(tǒng)Sharpe Ratio在結(jié)束時(shí)計(jì)算,無(wú)法直接應(yīng)用。Differential Sharpe Ratio通過(guò)近似總Sharpe Ratio的變化來(lái)解決此問(wèn)題,利用時(shí)刻t的收益R_t更新期望和方差的估計(jì)。更新公式為:
A_t和B_t為收益的第一和第二矩的估計(jì)。Sharpe Ratio的近似為S_t = A_t / (B_k - A_t),忽略無(wú)風(fēng)險(xiǎn)利率。通過(guò)泰勒展開,得出S_t的更新公式,表明Differential Sharpe Ratio為比例導(dǎo)數(shù)。
交易成本
在考慮交易成本的情況下,投資組合的價(jià)值和收益計(jì)算需要調(diào)整。設(shè)定有效的投資組合權(quán)重 ( w_t' ) 和交易成本因子 ( \mu_t )。
交易成本影響投資組合的最終價(jià)值,需通過(guò)迭代計(jì)算確定 ( \mu_t ) 的固定點(diǎn)。賣出和買入資產(chǎn)的交易成本分別由傭金率 ( c_s ) 和 ( c_p ) 決定。通過(guò)平衡賣出和買入資產(chǎn)的資金流動(dòng),建立方程以求解 ( \mu_t )。
EIIE政策
本文提出了“相同獨(dú)立評(píng)估者的集成”(EIIE)框架,用于資產(chǎn)的政策評(píng)估。通過(guò)單一評(píng)估函數(shù)生成資產(chǎn)的潛在增長(zhǎng)分?jǐn)?shù),使用Softmax計(jì)算投資組合權(quán)重。定義了特征提取函數(shù)fα和權(quán)重更新函數(shù)gβ,gβ采用多層感知機(jī)(MLP)結(jié)構(gòu)。fα可以是卷積神經(jīng)網(wǎng)絡(luò)(CNN)或遞歸神經(jīng)網(wǎng)絡(luò)(RNN/LSTM),并支持多通道數(shù)據(jù)輸入。該框架在加密貨幣市場(chǎng)的表現(xiàn)優(yōu)于所有基準(zhǔn)策略,易于整合額外數(shù)據(jù)源(如新聞情感)。
實(shí)證結(jié)果
實(shí)驗(yàn)測(cè)試了不同的替代數(shù)據(jù)使用、獎(jiǎng)勵(lì)函數(shù)和策略類型組合。訓(xùn)練期為2010年初至2017年底,測(cè)試期為2018年初至2019年底。選擇這10年是因?yàn)閿?shù)據(jù)源的最大交集。所有策略在訓(xùn)練和測(cè)試期間均進(jìn)行了評(píng)估,測(cè)試時(shí)從$1開始,計(jì)算投資組合價(jià)值。交易成本設(shè)定為1%。本節(jié)僅展示比較匯總表,因其更易于解讀。
基準(zhǔn)投資組合
基準(zhǔn)策略包括:Naive Equal、Equal Buy-and-Hold、Best Historical Sharpe、OLMAR、WMAMR和S&P500。大多數(shù)基準(zhǔn)策略在盈利能力上不及S&P500指數(shù)。Equal Buy-and-Hold在凈利潤(rùn)、Sharpe Ratio和Sortino Ratio上表現(xiàn)最佳。OLMAR和WMAMR策略均落后于市場(chǎng)。Best Historical Sharpe策略表現(xiàn)不佳,波動(dòng)性高,Sharpe Ratio顯著低于S&P500。所有策略在2018年底至2019年初的市場(chǎng)下跌中經(jīng)歷了相似的最大回撤。
RL投資組合:歷史價(jià)格數(shù)據(jù)
實(shí)驗(yàn)使用了CNN EIIE、RNN EIIE和標(biāo)準(zhǔn)MLP神經(jīng)網(wǎng)絡(luò),輸入為過(guò)去幾周的股票價(jià)格張量,測(cè)試了差異夏普比率獎(jiǎng)勵(lì)和利潤(rùn)獎(jiǎng)勵(lì)。使用差異夏普比率獎(jiǎng)勵(lì)的策略表現(xiàn)平平,顯著低于S&P指數(shù),表明該獎(jiǎng)勵(lì)難以優(yōu)化,CNN表現(xiàn)優(yōu)于RNN和MLP。利潤(rùn)獎(jiǎng)勵(lì)下,CNN和RNN表現(xiàn)合理,CNN略優(yōu)于S&P指數(shù),而MLP顯著惡化,表明利潤(rùn)獎(jiǎng)勵(lì)易于學(xué)習(xí),小型EIIE模型更穩(wěn)健,MLP模型則過(guò)擬合。統(tǒng)計(jì)分析和圖表結(jié)果顯示了上述趨勢(shì)。
RL投資組合:價(jià)格+ SEC數(shù)據(jù)
增加了SEC情緒評(píng)分通道,提升了模型性能。使用Differential Sharpe Ratio獎(jiǎng)勵(lì)的結(jié)果整體表現(xiàn)強(qiáng)勁,但未超越S&P指數(shù)。Differential Sharpe Ratio獎(jiǎng)勵(lì)難度大,限制了最佳表現(xiàn),但減少了過(guò)擬合風(fēng)險(xiǎn)。CNN和RNN EIIE策略表現(xiàn)出色,而MLP策略表現(xiàn)不佳,可能因過(guò)于復(fù)雜導(dǎo)致過(guò)擬合。CNN和RNN策略在使用Differential Sharpe Ratio時(shí)是實(shí)驗(yàn)中的強(qiáng)有力競(jìng)爭(zhēng)者。
RL投資組合:價(jià)格+ SEC +新聞數(shù)據(jù)
新聞數(shù)據(jù)不如SEC數(shù)據(jù)規(guī)律,且不一致性影響模型表現(xiàn)。結(jié)合價(jià)格、SEC和新聞情感數(shù)據(jù)能顯著提升結(jié)果。使用Differential Sharpe Ratio獎(jiǎng)勵(lì)的模型表現(xiàn)較差,CNN和RNN優(yōu)于MLP,但仍然平庸。使用Profit獎(jiǎng)勵(lì)時(shí),模型表現(xiàn)顯著提升,CNN EIIE模型為最佳。MLP模型存在嚴(yán)重過(guò)擬合問(wèn)題。
對(duì)比
SEC+News CNN EIIE策略(利潤(rùn)獎(jiǎng)勵(lì))在凈利潤(rùn)、夏普比率和索提諾比率上表現(xiàn)最佳。SEC+News RNN策略(利潤(rùn)獎(jiǎng)勵(lì))具有最低的最大回撤。所有訓(xùn)練策略均優(yōu)于OLMAR和WMAMR基準(zhǔn)。
總結(jié)
利潤(rùn)獎(jiǎng)勵(lì)函數(shù)與差異夏普比率在學(xué)習(xí)復(fù)雜性上存在差異,前者導(dǎo)致更優(yōu)的投資組合表現(xiàn)。CNN EIIE和RNN EIIE在利潤(rùn)獎(jiǎng)勵(lì)下表現(xiàn)更佳,而MLP政策網(wǎng)絡(luò)則顯著過(guò)擬合。整合新聞數(shù)據(jù)時(shí),模型學(xué)習(xí)差異夏普比率獎(jiǎng)勵(lì)的能力減弱,因數(shù)據(jù)稀疏和不一致。整合SEC文件數(shù)據(jù)后,兩個(gè)獎(jiǎng)勵(lì)函數(shù)的表現(xiàn)均顯著提升,SEC數(shù)據(jù)的規(guī)律性促進(jìn)了學(xué)習(xí)。新聞數(shù)據(jù)與SEC數(shù)據(jù)結(jié)合使用時(shí),能進(jìn)一步提升表現(xiàn),但不規(guī)則性對(duì)難度較大的獎(jiǎng)勵(lì)影響顯著。同時(shí)整合新聞和SEC數(shù)據(jù)可實(shí)現(xiàn)最佳表現(xiàn),顯示出全面數(shù)據(jù)集的潛力。改善數(shù)據(jù)質(zhì)量之外,還可通過(guò)測(cè)試不同特征提取器和正則化技術(shù)來(lái)提升收益。不同的情感嵌入函數(shù)可能更準(zhǔn)確或更適合代理使用。
本文轉(zhuǎn)載自 ??靈度智能??,作者: 靈度智能
