自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化

發(fā)布于 2025-1-20 10:35
瀏覽
0收藏

投資組合優(yōu)化是金融中的核心挑戰(zhàn),涉及資金在多個(gè)資產(chǎn)間的動(dòng)態(tài)配置,傳統(tǒng)方法存在假設(shè)限制和適應(yīng)性不足的問(wèn)題。本研究探討深度強(qiáng)化學(xué)習(xí)在投資組合優(yōu)化中的應(yīng)用。結(jié)果表明,深度強(qiáng)化學(xué)習(xí)(DRL)模型在投資組合優(yōu)化中表現(xiàn)優(yōu)異,年化平均回報(bào)率為19.56%,夏普比率為1.5550,顯示出卓越的風(fēng)險(xiǎn)調(diào)整回報(bào)。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

論文地址:https://arxiv.org/pdf/2412.18563

摘要

人工智能正在改變金融投資決策,深度強(qiáng)化學(xué)習(xí)(DRL)在機(jī)器人顧問(wèn)服務(wù)中展現(xiàn)出應(yīng)用潛力。傳統(tǒng)投資組合優(yōu)化方法在動(dòng)態(tài)資產(chǎn)權(quán)重調(diào)整中面臨挑戰(zhàn)。

本文提出一種動(dòng)態(tài)優(yōu)化模型,利用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)更有效的資產(chǎn)配置。創(chuàng)新點(diǎn):

  • 提出專為Actor-Critic算法設(shè)計(jì)的夏普比率獎(jiǎng)勵(lì)函數(shù),通過(guò)隨機(jī)采樣和強(qiáng)化學(xué)習(xí)優(yōu)化投資組合表現(xiàn)。
  • 設(shè)計(jì)符合資產(chǎn)優(yōu)化目標(biāo)的深度神經(jīng)網(wǎng)絡(luò)。

通過(guò)對(duì)CSI300指數(shù)成分股的實(shí)證評(píng)估,與傳統(tǒng)方法(均值-方差優(yōu)化、風(fēng)險(xiǎn)平價(jià)策略)進(jìn)行比較?;販y(cè)結(jié)果顯示該動(dòng)態(tài)優(yōu)化模型在資產(chǎn)配置中有效,提升了風(fēng)險(xiǎn)降低、風(fēng)險(xiǎn)回報(bào)指標(biāo)和整體表現(xiàn)。

簡(jiǎn)介

人工智能(AI)在自然語(yǔ)言處理領(lǐng)域取得顯著進(jìn)展,ChatGPT通過(guò)“人類反饋強(qiáng)化學(xué)習(xí)”(RLHF)提升了語(yǔ)言理解和生成能力。RLHF結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),顯著提高了AI系統(tǒng)的性能和對(duì)齊。深度強(qiáng)化學(xué)習(xí)(DRL)在自然語(yǔ)言處理、游戲AI和機(jī)器人控制等領(lǐng)域表現(xiàn)出色,但在金融領(lǐng)域的應(yīng)用仍處于探索階段,尤其是在投資組合優(yōu)化方面。

投資組合優(yōu)化是金融中的核心挑戰(zhàn),涉及資金在多個(gè)資產(chǎn)間的動(dòng)態(tài)配置,傳統(tǒng)方法存在假設(shè)限制和適應(yīng)性不足的問(wèn)題。本研究探討深度強(qiáng)化學(xué)習(xí)在投資組合優(yōu)化中的應(yīng)用,開(kāi)發(fā)新獎(jiǎng)勵(lì)函數(shù)和深度神經(jīng)網(wǎng)絡(luò)架構(gòu),旨在構(gòu)建智能動(dòng)態(tài)資產(chǎn)配置模型,推動(dòng)金融領(lǐng)域的AI應(yīng)用。

相關(guān)工作

馬科維茨建立了現(xiàn)代投資組合理論,推動(dòng)了投資組合優(yōu)化的定量分析方法。塞繆爾森認(rèn)為馬科維茨模型適用于單期投資,但對(duì)多期資產(chǎn)配置不足,提出了財(cái)富規(guī)劃的效用函數(shù)。后續(xù)研究者(如凱利、默頓等)擴(kuò)展了效用函數(shù)在資產(chǎn)配置優(yōu)化中的應(yīng)用,但存在選擇函數(shù)的主觀性和普適性未驗(yàn)證的局限。黑利特曼模型引入主觀元素,假設(shè)市場(chǎng)存在隱含均衡收益,但對(duì)主觀預(yù)期的置信水平缺乏統(tǒng)一標(biāo)準(zhǔn)。查恩斯等人提出的數(shù)據(jù)包絡(luò)分析(DEA)為資產(chǎn)配置優(yōu)化提供了非參數(shù)分析框架??驴伺撂乩锟藢⒛M退火算法應(yīng)用于投資組合優(yōu)化,阿爾諾等人則使用遺傳算法來(lái)最小化投資風(fēng)險(xiǎn)。這些模型普遍將投資組合權(quán)重調(diào)整視為靜態(tài),未考慮時(shí)間維度及資產(chǎn)配置隨交易活動(dòng)的演變。

經(jīng)典資產(chǎn)配置模型(如Markowitz框架)通過(guò)將資產(chǎn)權(quán)重與預(yù)期收益相乘來(lái)計(jì)算投資組合收益,但在動(dòng)態(tài)交易環(huán)境中,應(yīng)使用實(shí)際收益而非預(yù)期收益。投資組合的終期收益應(yīng)基于前期資產(chǎn)權(quán)重與當(dāng)前期資產(chǎn)實(shí)際收益的乘積,許多金融優(yōu)化模型(如條件風(fēng)險(xiǎn)價(jià)值模型、風(fēng)險(xiǎn)平價(jià)模型等)忽視資產(chǎn)權(quán)重的時(shí)間演變,導(dǎo)致模型在實(shí)際交易中的有效性受損。傳統(tǒng)金融計(jì)量分析方法及復(fù)雜算法(如DEA、模擬退火、遺傳算法)未能充分捕捉投資組合權(quán)重動(dòng)態(tài)調(diào)整,難以實(shí)現(xiàn)最佳資產(chǎn)配置策略。深度強(qiáng)化學(xué)習(xí)(DRL)通過(guò)深度神經(jīng)網(wǎng)絡(luò)提升了傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)的目標(biāo)函數(shù)近似能力,早期RL主要使用策略梯度(PG)和Q學(xué)習(xí)算法。Moody等人首次應(yīng)用PG算法于單資產(chǎn)管理,后續(xù)研究多集中于單風(fēng)險(xiǎn)資產(chǎn)管理,如Dempster等的外匯交易模型。Q學(xué)習(xí)算法在資產(chǎn)管理中的應(yīng)用也由Neuneier、Gao等人進(jìn)行,但仍限于單資產(chǎn)管理。一些學(xué)者在DRL優(yōu)化資產(chǎn)配置時(shí)忽視了深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和資產(chǎn)權(quán)重約束(∑????,??=1)。近期,Jiang等人提出了針對(duì)加密貨幣市場(chǎng)的DRL資產(chǎn)優(yōu)化模型,但其交易成本推導(dǎo)存在數(shù)學(xué)不一致性,需進(jìn)一步驗(yàn)證模型在其他資本市場(chǎng)的有效性。

當(dāng)前的深度強(qiáng)化學(xué)習(xí)(DRL)投資組合優(yōu)化模型主要基于投資組合回報(bào)的獎(jiǎng)勵(lì)函數(shù),但在中國(guó)股市表現(xiàn)不佳,導(dǎo)致研究者采用固定投資權(quán)重的方式進(jìn)行回測(cè),違背了DRL模型的初衷。研究者們已提出多種新獎(jiǎng)勵(lì)函數(shù)以提升DRL的資產(chǎn)優(yōu)化性能,如Wu等人使用定制的夏普比率獎(jiǎng)勵(lì)函數(shù),Almahdi等人結(jié)合Calmar比率與遞歸強(qiáng)化學(xué)習(xí)(RRL)優(yōu)化美國(guó)和新興市場(chǎng)資產(chǎn)。本研究提出了一種專為Actor-Critic算法設(shè)計(jì)的夏普比率獎(jiǎng)勵(lì)函數(shù),增強(qiáng)模型穩(wěn)定性并優(yōu)化動(dòng)態(tài)投資組合過(guò)程。研究還開(kāi)發(fā)了一種專門(mén)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),結(jié)合VGG網(wǎng)絡(luò)設(shè)計(jì)原則,優(yōu)化處理三維結(jié)構(gòu)的時(shí)間序列數(shù)據(jù),提升模型的泛化能力并降低過(guò)擬合風(fēng)險(xiǎn)。本研究在長(zhǎng)倉(cāng)限制下應(yīng)用DRL模型優(yōu)化CSI300成分股投資組合,并與多種計(jì)量經(jīng)濟(jì)學(xué)優(yōu)化模型進(jìn)行系統(tǒng)比較,驗(yàn)證DRL模型在資產(chǎn)配置優(yōu)化中的有效性。該研究為學(xué)術(shù)界提供了新的投資組合優(yōu)化方法,并為實(shí)際投資組合管理提供了有效解決方案,展示了在真實(shí)交易環(huán)境中動(dòng)態(tài)資產(chǎn)權(quán)重變化的潛力。

DRL模型配置

深度強(qiáng)化學(xué)習(xí)(DRL)可用于交易,表示為軌跡??,符合馬爾可夫決策過(guò)程(MDP)框架。交易過(guò)程可視為MDP,賬戶啟動(dòng)到結(jié)束構(gòu)成一個(gè)episode。本研究將投資組合交易者定義為代理,建立狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)規(guī)范。實(shí)施DRL算法和深度神經(jīng)網(wǎng)絡(luò)進(jìn)行投資組合優(yōu)化。

狀態(tài)空間

狀態(tài)空間在深度強(qiáng)化學(xué)習(xí)(DRL)中構(gòu)成了代理與環(huán)境的交互基礎(chǔ),基于有效市場(chǎng)假說(shuō),狀態(tài)空間僅使用每日資產(chǎn)價(jià)格數(shù)據(jù)構(gòu)建。本研究采用Jiang等人提出的三維狀態(tài)空間配置,因其適合深度神經(jīng)網(wǎng)絡(luò)處理,且視頻游戲應(yīng)用推動(dòng)了DRL的突破。傳統(tǒng)金融計(jì)量模型常用主成分分析(PCA)等降維技術(shù),但會(huì)導(dǎo)致信息損失,而深度神經(jīng)網(wǎng)絡(luò)能有效分析復(fù)雜特征關(guān)系。狀態(tài)定義為 ( S_t = X_t ),價(jià)格張量 ( X_t ) 包含四個(gè)數(shù)據(jù)特征:開(kāi)盤(pán)價(jià)、最低價(jià)、最高價(jià)和收盤(pán)價(jià)。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

行動(dòng)空間

模型僅考慮多頭頭寸,不涉及賣空。投資組合權(quán)重表示模型的行動(dòng)向量,包含風(fēng)險(xiǎn)資產(chǎn)和現(xiàn)金資產(chǎn)的權(quán)重。投資組合權(quán)重在時(shí)間t滿足約束條件,且所有權(quán)重非負(fù)。投資組合初始化時(shí),所有資產(chǎn)權(quán)重總和為1。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

其他元素的推導(dǎo)和獎(jiǎng)勵(lì)功能的設(shè)置

資產(chǎn)組合在時(shí)間t的收盤(pán)價(jià)格用向量??表示,相對(duì)價(jià)格向量??定義為當(dāng)前價(jià)格與前期價(jià)格的比值。組合價(jià)格??在時(shí)間t的表達(dá)式為:

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

日常對(duì)數(shù)收益率????定義為:

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

平均年化夏普比率作為獎(jiǎng)勵(lì)函數(shù),目標(biāo)是最大化該函數(shù)。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

交易成本率????由公式確定,設(shè)定為0.00025。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

??′?? 表示在t-1期后和t期前的自主價(jià)格變動(dòng)所導(dǎo)致的權(quán)重值。公式中使用Hadamard積和內(nèi)積計(jì)算權(quán)重更新。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

DRL算法的選擇和網(wǎng)絡(luò)結(jié)構(gòu)

Actor-Critic體系結(jié)構(gòu)中平均夏普比獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)

深度強(qiáng)化學(xué)習(xí)(DRL)算法分為在線和離線兩類,離線算法計(jì)算資源需求高且收斂慢,因此選擇了在線算法PPO。PPO結(jié)合了多種優(yōu)化技術(shù),如廣義優(yōu)勢(shì)估計(jì)(GAE)和價(jià)值函數(shù)裁剪,擴(kuò)展了信任域策略優(yōu)化(TRPO)。PPO的Actor-Critic架構(gòu)結(jié)合了基于回合的更新和逐步更新,采用嵌套循環(huán)結(jié)構(gòu)進(jìn)行算法實(shí)現(xiàn)。

開(kāi)發(fā)了針對(duì)Actor-Critic框架的平均夏普比率獎(jiǎng)勵(lì)函數(shù),利用PPO進(jìn)行投資組合優(yōu)化。在每個(gè)交易步驟中,Actor網(wǎng)絡(luò)生成投資組合權(quán)重,計(jì)算價(jià)格變化、交易成本和對(duì)數(shù)收益,更新收益列表以計(jì)算夏普比率。通過(guò)歸一化年化夏普比率,確保不同回合長(zhǎng)度和交易序列的獎(jiǎng)勵(lì)可比性,提升模型訓(xùn)練穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明,平均夏普比率獎(jiǎng)勵(lì)函數(shù)在PPO算法中有效提升了模型的樣本外表現(xiàn)。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)

早期人工神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)驅(qū)動(dòng)理論模型開(kāi)發(fā)中面臨功能逼近精度與梯度穩(wěn)定性之間的平衡挑戰(zhàn),限制了網(wǎng)絡(luò)深度的增加。深度神經(jīng)網(wǎng)絡(luò)的進(jìn)展推動(dòng)了強(qiáng)化學(xué)習(xí)(RL)算法的發(fā)展,促進(jìn)了深度強(qiáng)化學(xué)習(xí)(DRL)的形成。DRL中的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)對(duì)性能至關(guān)重要,合理的網(wǎng)絡(luò)設(shè)計(jì)能顯著提升DRL效果。本研究采用VGG架構(gòu)處理三維狀態(tài)空間(價(jià)格張量????),包含5個(gè)卷積層和Max Pool層進(jìn)行特征提取與池化。最后通過(guò)Flatten操作將特征數(shù)據(jù)轉(zhuǎn)為一維向量,接著是兩個(gè)包含128個(gè)神經(jīng)元的全連接層。Actor網(wǎng)絡(luò)使用softmax激活函數(shù)生成資產(chǎn)權(quán)重的動(dòng)作向量,Critic網(wǎng)絡(luò)則輸出價(jià)值函數(shù),無(wú)激活函數(shù)。Actor網(wǎng)絡(luò)的softmax輸出結(jié)構(gòu)支持11個(gè)資產(chǎn)(10個(gè)風(fēng)險(xiǎn)資產(chǎn) + 1個(gè)無(wú)風(fēng)險(xiǎn)資產(chǎn))。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

實(shí)證測(cè)試

數(shù)據(jù)選擇,預(yù)處理和假設(shè)

本研究構(gòu)建了一個(gè)包含1個(gè)無(wú)風(fēng)險(xiǎn)資產(chǎn)和10個(gè)風(fēng)險(xiǎn)資產(chǎn)的投資組合,數(shù)據(jù)來(lái)源于Wind數(shù)據(jù)庫(kù),采用隨機(jī)選股方法,旨在驗(yàn)證深度強(qiáng)化學(xué)習(xí)(DRL)模型的適應(yīng)性和決策能力。資產(chǎn)選擇基于單一時(shí)間標(biāo)準(zhǔn):資產(chǎn)需在2012年12月31日前上市,以確保有足夠的歷史數(shù)據(jù)進(jìn)行訓(xùn)練。研究假設(shè)風(fēng)險(xiǎn)資產(chǎn)具有足夠流動(dòng)性,交易執(zhí)行及時(shí),且交易活動(dòng)對(duì)市場(chǎng)影響微乎其微。

性能指標(biāo),回測(cè)期和比較優(yōu)化模型

性能指標(biāo)包括年化平均收益、年化波動(dòng)率、夏普比率、索提諾比率、最大回撤等,采用六個(gè)月的回測(cè)期進(jìn)行模型優(yōu)化效果評(píng)估。回測(cè)數(shù)據(jù)為完全獨(dú)立的樣本,確保模型未接觸未來(lái)價(jià)格信息。比較分析框架包括多種優(yōu)化模型(如經(jīng)典均值方差、條件風(fēng)險(xiǎn)價(jià)值等),重點(diǎn)關(guān)注風(fēng)險(xiǎn)最小化和夏普比率最大化。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

歷史數(shù)據(jù)窗口選擇遵循EVaR和HRP模型的框架,分別使用4年和1年的數(shù)據(jù)。4年期包含1,008個(gè)交易日,基于252天的年度交易日歷。資產(chǎn)權(quán)重調(diào)整被視為靜態(tài)過(guò)程,采用滾動(dòng)窗口方法進(jìn)行權(quán)重預(yù)測(cè)。9月1日的權(quán)重預(yù)測(cè)基于截至8月31日的前4年或1年歷史數(shù)據(jù)。交易成本計(jì)算使用DRL模型中設(shè)定的參數(shù)。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

訓(xùn)練結(jié)果和獎(jiǎng)勵(lì)收斂

深度強(qiáng)化學(xué)習(xí)(DRL)結(jié)合神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)框架,通過(guò)在線統(tǒng)計(jì)推斷優(yōu)化決策策略,旨在最大化預(yù)期累積獎(jiǎng)勵(lì)。訓(xùn)練過(guò)程中,代理在9百萬(wàn)步內(nèi)獲得的獎(jiǎng)勵(lì)與訓(xùn)練步驟呈正相關(guān),顯示出系統(tǒng)性改進(jìn)。獎(jiǎng)勵(lì)值趨于收斂,年化夏普比率穩(wěn)定在-0.3到0.8之間,大部分獎(jiǎng)勵(lì)值保持在零以上,表明代理在已知環(huán)境中具備穩(wěn)定的回報(bào)生成能力,支持模型的穩(wěn)健性。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

回測(cè)結(jié)果

投資組合價(jià)值、資產(chǎn)配置和交易成本

圖6上半部分展示了資產(chǎn)相對(duì)價(jià)格,作為資產(chǎn)價(jià)格標(biāo)準(zhǔn)化的方法;下半部分顯示了資產(chǎn)權(quán)重和交易成本。DRL投資組合在回測(cè)期間持續(xù)增長(zhǎng),從1.0增至1.1256,總回報(bào)率為12.56%。中間經(jīng)歷了9月的輕微回撤,但隨后恢復(fù)良好。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

投資組合包含現(xiàn)金和10只股票,初始權(quán)重接近均勻分配,權(quán)重標(biāo)準(zhǔn)差穩(wěn)定在0.031至0.033之間,現(xiàn)金比例保持在0.11至0.12之間。CN002027.SZ和CN002371.SZ的權(quán)重調(diào)整較為活躍,而CN600029.SH和CN600183.SH的權(quán)重較低。交易成本管理有效,初始資本配置時(shí)成本約0.22%,后續(xù)交易成本維持在0.002%至0.01%之間。PPO算法的投資組合展現(xiàn)出良好的風(fēng)險(xiǎn)收益特征,表明深度強(qiáng)化學(xué)習(xí)在投資組合管理中的應(yīng)用潛力。

股票優(yōu)化模型的性能比較

表2比較了多種股票優(yōu)化模型的表現(xiàn),采用“模型類型-優(yōu)化目標(biāo)-數(shù)據(jù)窗口”的命名方式。深度強(qiáng)化學(xué)習(xí)(DRL)模型在投資組合優(yōu)化中表現(xiàn)優(yōu)異,年化平均回報(bào)率為19.56%,夏普比率為1.5550,顯示出卓越的風(fēng)險(xiǎn)調(diào)整回報(bào)。DRL模型的Sortino比率為2.9567,最大回撤僅為5.85%,Calmar比率為3.3395,表明其在風(fēng)險(xiǎn)管理方面的優(yōu)勢(shì)。傳統(tǒng)模型中,CVaR-MinRisk-4yr表現(xiàn)最佳,年化回報(bào)為15.08%,最大回撤為5.38%,夏普比率為1.2290。風(fēng)險(xiǎn)平價(jià)(RP)和層次化均等風(fēng)險(xiǎn)貢獻(xiàn)(HERC)模型表現(xiàn)不佳,RP模型產(chǎn)生負(fù)回報(bào),HERC模型最大回撤為11.86%。DRL模型的投資勝率為47.28%,平均盈虧比為1.4204,顯示出其在市場(chǎng)機(jī)會(huì)捕捉和損失緩解方面的能力。DRL模型在回測(cè)期間的表現(xiàn)優(yōu)于傳統(tǒng)優(yōu)化模型,尤其在收益指標(biāo)和資產(chǎn)配置動(dòng)態(tài)捕捉方面具有明顯優(yōu)勢(shì)。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

DRL模型在CS1300成分股的投資組合優(yōu)化中表現(xiàn)出色,主要得益于兩個(gè)因素:

  • 回測(cè)期內(nèi)CS1300成分股呈上升趨勢(shì),有利于長(zhǎng)期策略驗(yàn)證。
  • CSI300成分股的投資者構(gòu)成穩(wěn)定,機(jī)構(gòu)投資者比例高,導(dǎo)致投資模式更系統(tǒng)化。

相較于中小市值股票,CSI300成分股的價(jià)格和交易數(shù)據(jù)更可靠,能更好地反映市場(chǎng)基本面和投資者情緒,為DRL模型提供了更強(qiáng)的學(xué)習(xí)環(huán)境。這些結(jié)構(gòu)特征提升了DRL模型的學(xué)習(xí)和市場(chǎng)適應(yīng)能力,從而增強(qiáng)了其在CSI300成分股投資組合優(yōu)化中的表現(xiàn)。

基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化-AI.x社區(qū)

總結(jié)

傳統(tǒng)金融優(yōu)化模型在資產(chǎn)配置中使用靜態(tài)框架,無(wú)法有效捕捉資產(chǎn)權(quán)重的動(dòng)態(tài)變化,且對(duì)市場(chǎng)波動(dòng)適應(yīng)性不足。深度強(qiáng)化學(xué)習(xí)(DRL)作為一種數(shù)據(jù)驅(qū)動(dòng)的動(dòng)態(tài)優(yōu)化框架,能減少主觀偏差,適合實(shí)際交易過(guò)程中的資產(chǎn)配置優(yōu)化。

本研究提出了一種針對(duì)Actor-Critic DRL算法的平均夏普比率獎(jiǎng)勵(lì)函數(shù),開(kāi)發(fā)了處理三維金融數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),并采用隨機(jī)采樣方法進(jìn)行模型訓(xùn)練。提出的獎(jiǎng)勵(lì)函數(shù)在長(zhǎng)期投資策略中表現(xiàn)出優(yōu)越的優(yōu)化效果,訓(xùn)練期間獎(jiǎng)勵(lì)值主要集中在正域,顯示出強(qiáng)收斂性,并在樣本外回測(cè)中取得了更高的夏普比率。與主流金融優(yōu)化模型相比,DRL框架在資產(chǎn)配置優(yōu)化和風(fēng)險(xiǎn)管理方面具有顯著優(yōu)勢(shì)。未來(lái)研究應(yīng)關(guān)注金融數(shù)據(jù)的噪聲特性、DRL環(huán)境建模及重要交易信號(hào)提取,以及DRL模型的驗(yàn)證框架和市場(chǎng)條件下的表現(xiàn)一致性。

本文轉(zhuǎn)載自 ??靈度智能??,作者: 靈度智能


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦