12個場景應用,百余種算法,AI是如何攻占經(jīng)濟學的?
2020年2月7日,在第34屆美國人工智能協(xié)會年會AAAI 2020現(xiàn)場,深度學習三巨頭齊聚,“計算機視覺”與“機器學習”分座兩旁,對最佳論文虎視眈眈。最終清華大學與南洋理工大學的一篇“混合可分割和不可分割商品的公平劃分”文章獲得最佳學生論文獎。
論文地址:https://arxiv.org/pdf/1911.07048.pdf
這時候人們猛然驚醒,原來,深度學習已經(jīng)在博弈論和經(jīng)濟學領域布局已久,從論文錄取率來看,每三篇錄取一篇的錄取率已經(jīng)占據(jù)了榜首。這在老牌經(jīng)濟學家眼里似乎不可思議,畢竟經(jīng)濟學研究的重心不在預測方面,而是對于經(jīng)濟現(xiàn)象的解釋,經(jīng)濟運作規(guī)律的揭示。具象一些,深度學習的黑盒性質(zhì)無法有效地解釋優(yōu)化好的參數(shù),無法說明參數(shù)對經(jīng)濟規(guī)律具體作用機制。
但是,AI經(jīng)濟學家運用深度學習也有別樣的魅力。
強化學習之于稅收設計
兩級學習框架斯坦福大學副教授 Richard Socher 開發(fā)了一個包含智能體(工人)和稅收政策(政府)的兩級強化學習框架,用原生態(tài)的經(jīng)濟環(huán)境來設計稅收政策。
在動態(tài)模擬的世界中只設置了兩種資源:木材和石材,并假設資源再生的速度有限。工人通過在世界里隨機游走收集資源并通過買賣或者蓋房子賺錢。錢可以帶來效用(滿足程度),蓋房子付出勞動會降低效用。
另外,給予工人技能不同勞動效率不同的假設,工人賺的錢需要繳稅,系統(tǒng)所得稅收在所有工人之間平均分配。
平均分配的機制對工人戰(zhàn)略眼光進行了要求。當模擬世界中的工人以效用最大化為目標時,整個系統(tǒng)出現(xiàn)了這種狀況:低技能的工人自收集和銷售,高技能的工人買材料和建筑。
這種狀況在經(jīng)濟學中的術語是“分工專業(yè)化”,此舉能夠最大化系統(tǒng)的效用。
在整個模型運行的過程中,用強化學習的最佳稅收設計作為獎勵模式。政策制定者可以設置稅率影響工人稅后收入水平,工人通過買賣資源和蓋房子獲得金錢(效用),強化學習獎勵目標是:整體系統(tǒng)效用最大化。
有了這個獎勵目標,工人和政策制定者的行動對整個系統(tǒng)帶來了內(nèi)部循環(huán)和外部循環(huán)兩個挑戰(zhàn)。
在內(nèi)部循環(huán)中,工人在勞動、掙錢、納稅之中不斷調(diào)整自己的行為,如果這時候給定其一個固定的稅率,那么問題就變成具有固定獎勵函數(shù)的標準多智能體強化學習問題。
在外部循環(huán)中,稅收政策的調(diào)整是為了優(yōu)化社會目標。這就形成了一個非靜態(tài)的學習環(huán)境,在這個環(huán)境中,強化學習中的智能體需要不斷地適應不斷變化的效用環(huán)境。
最后,作者發(fā)現(xiàn)通過使用學習稅率表(類似美國所得稅的征稅方式)和熵正則化等技術,可以找到穩(wěn)定的收斂點。實驗結果表明,通過強化學習的AI經(jīng)濟學家能在提高47%的平等性的同時,只降低11%的生產(chǎn)率。
在虛擬世界中模擬現(xiàn)實經(jīng)濟狀況,想法設計更好的制度只是AI和經(jīng)濟學結合方式之一。其實深度強化學習在面臨風險參數(shù)和不確定性不斷增加的現(xiàn)實經(jīng)濟問題時,也可以提供更好的性能和更高的精度。
深度學習在經(jīng)濟學中的應用
論文下載:https://arxiv.org/ftp/arxiv/papers/2004/2004.01509.pdf
在論文《經(jīng)濟學中的強化學習》(Comprehensive Review of Deep Reinforcement Learning Methods and Applications in Economics)中,德累斯頓理工大學和牛津布魯克斯大學的研究員們細數(shù)了強化學習在經(jīng)濟學中的表現(xiàn)。
通過對股票定價、拍賣機制、宏觀經(jīng)濟等12個領域的調(diào)查,發(fā)現(xiàn)深度學習算法比傳統(tǒng)的經(jīng)濟、統(tǒng)計學算法在精確度和穩(wěn)健性發(fā)現(xiàn)要更加優(yōu)秀。
1、深度學習下的股票定價
股票價格有著極強的不確定性和風險性,如果能有模型攻克股價預測,無疑會給模型建造者帶來巨額收益。關于用深度學習預測股價的最新進展如下表所示。
情緒對股價走勢無疑非常重要,當前的大多數(shù)研究依賴于低效的情緒數(shù)據(jù)集,這往往會導致模型性能不佳,[68]提出的兩流門控循環(huán)單元發(fā)現(xiàn)比LSTM模型性能更佳。另外他們提出了Stock2Vec嵌入模型,并在使用哈佛IV-4的同時,對模型的穩(wěn)健性進行了市場風險的證明。
- [69]提出了一項聚光燈下的深度學習技術(spotlighted deep learning )應用于股價預測,主要創(chuàng)新點是濾波技術賦予了深度學習模型新穎的輸入特征。
- [70]在分析股票價格模式的同時,利用深度學習技術對股票價值流進行了預測,具體是利用時間序列技術設計了一種DNN深度學習算法來尋找模式,雖然準確度有86%。但是,DNN存在擬合過度、復雜度高等缺點,因此建議使用CNN和RNN。
- [71]的研究中,采用了一種新的多層深度學習方法,利用時間序列的概念來表示數(shù)據(jù),從而能夠預測當前股票的收盤價。
2、深度學習下的保險業(yè)
保險業(yè)現(xiàn)在面臨的問題是,如何有效地管理欺詐檢測。相應的,機器學習技術針對此問題,逐漸開發(fā)了測量所有類型風險的算法。
- [75]等人利用社會化網(wǎng)絡分析法檢測大數(shù)據(jù)集的汽車保險職業(yè)欺詐。他們用循環(huán)概念構建了間接碰撞網(wǎng)絡( indirect collisions network),在更現(xiàn)實的市場假設下,此網(wǎng)絡能夠識別可疑的循環(huán),從而獲得更多利潤。另外,他們還通過實際數(shù)據(jù)得出的造假概率,對可疑成分的方法進行了評價。
- [76]等人采用LDA和DNNs技術相結合的方式提取事故的文本特征,發(fā)現(xiàn)其性能優(yōu)于傳統(tǒng)的方法。另外,為了考慮LDA對預測過程的影響,他們還在“有LDA”和“無LDA”兩種情況下,通過準確度和精確度性能因子對結果進行評估。
- [77]等人提出了一種結合自動編碼技術和遠程信息處理數(shù)據(jù)值的算法來預測與保險客戶相關的風險。
3、深度學習下的拍賣機制
拍賣機制的核心是:投標人需要規(guī)劃出最大化利潤的最優(yōu)策略。最新的研究成果如下表所示:
- [83]等人在預算約束和貝葉斯兼容性方面對[82](增廣拉格朗日法)中的結果進行了擴展。他們的方法證明了神經(jīng)網(wǎng)絡能夠通過關注不同估值分布的多重設置問題,有效地設計出新穎的最優(yōu)收益拍賣。
- [84]等人采用了數(shù)據(jù)為導向的方法。具體方法:假定可以對每個投標者應用多個投標的前提下利用策略專業(yè)知識。
- [85]等人是使用多層神經(jīng)網(wǎng)絡技術構建了一種有效的拍賣機制,并應用于移動區(qū)塊鏈網(wǎng)絡。
- [86]設計了一種多投標人的兼容拍賣機制,具體通過應用多層神經(jīng)網(wǎng)絡對其機制進行編碼,從而最大化了利潤。與基于線性規(guī)劃的方法相比,采用增廣拉格朗日技術的方法能夠解決更復雜的任務。
4、深度學習下的銀行和在線市場
在網(wǎng)上購物和信用卡場景中對欺詐檢測要求非常高,當前強化學習最先進的研究成果如下表所示:
- [90]應用基礎實驗證實了AE(自動編碼)和RBM(玻爾茲曼機)方法能夠在海量數(shù)據(jù)集下準確地檢測信用卡的風險。但是深度學習在建立模型時需要利用影響其結果的不同參數(shù)。
- [87]提出的研究設計了一種自動編碼器算法,建立的高效自動化工具可以處理世界各地日常交易。該模型使研究人員可以在不需要使用欠抽樣等數(shù)據(jù)平衡方法的情況下,給出關于不平衡數(shù)據(jù)集的報告。
- [89]設計了一個使用自然語言處理(NLP)技術的新框架,能夠形成與各種數(shù)據(jù)源(如新聞和推文)相關聯(lián)的復雜機制,從而有效檢測洗錢活動。
5、深度學習下的宏觀經(jīng)濟
宏觀經(jīng)濟最重要的問題是指標預測,包括失業(yè)率、GDP增長速率等。采用神經(jīng)網(wǎng)絡的方法,最新的研究成果如下圖所示:
- [92]提出了一種高魯棒性模型——編碼器-解碼器模型,利用深度神經(jīng)架構提高失業(yè)問題預測精度,并且精度要求很低。另外,在此基礎上,其還采用平均絕對誤差(MAE)值來評估結果。
- Haider 和 Hanif [93]構建神經(jīng)網(wǎng)絡預測通貨膨脹,其結果由均方根(RMSE)值來評估。
- [94]使用前饋神經(jīng)網(wǎng)絡進行戰(zhàn)術性資產(chǎn)配置,同時應用宏觀經(jīng)濟指標和價量趨勢。他們提出了兩種不同的方法來構建投資組合,第一種方法用于估計預期收益和不確定性,第二種方法直接利用神經(jīng)網(wǎng)絡結構獲得配置,并對投資組進行優(yōu)化。
6、金融市場中的深度學習
在金融市場中,有效處理信貸風險至關重要。由于最近大數(shù)據(jù)技術的進步,深度學習模型可以設計出可靠的金融模型來預測銀行系統(tǒng)的信用風險,最新研究如下表:
- [95]使用二進制分類技術給出了選定的機器學習和深度學習模型的基本特征。此外,考慮到貸款定價過程中的關鍵特征和算法,此研究分別使用這兩個模型對貸款違約概率進行了預測。
- [96]研究的方法可以幫助金融機構以較少的工作量進行信用評估,同時能夠提高信用評分和客戶評級方面的分類準確性。另外,還對線性SVM,CART,k-NN,樸素貝葉斯,MLP和RF技術的精確度進行了比較。
- [97]通過自動編碼、校準、驗證等過程構建了一個資產(chǎn)組合算法,可以應用于包括看跌期權和看漲期權在內(nèi)的具有標的股票的投資組合。
- [98]建立了抵押貸款風險的深度學習模型,能夠處理龐大的數(shù)據(jù)集。實驗結果發(fā)現(xiàn):受當?shù)亟?jīng)濟狀況影響的變量與債務人行為之間具有非線性關系。例如,失業(yè)變量在抵押貸款風險中占有相當大的比重。
7、深度學習下的投資
財務問題通常需要對多個來源的數(shù)據(jù)集進行分析。因此,構建一個可靠的模型來處理數(shù)據(jù)中的異常值和特征非常重要。最新研究成果如下圖:
- [99]設計的模型具有提取非線性數(shù)據(jù)模式的能力。他們使用LSTM、自動編碼和智能索引等神經(jīng)網(wǎng)絡體系結構來估計證券投資組合的風險。
- [100]利用DNN結構對期權定價問題進行了研究,以相當高的精度重構了著名的BLACK-SCHOLES期權定價模型計算公式。
- [101]結合交易復雜性研究了期權定價問題,其研究目標是探索高頻交易方式下的有效投資策略。其中,LSTM-SVR模型應用于最終交易的預測。
- [102]提出了一種新的學習遺傳算法,該算法利用R-NN模型來模擬人類的行為。具體采用了復雜的深度學習結構,包括:強化學習用于快速決策,深度學習用于構建股票身份,聚類用于整體決策目的,遺傳用于轉(zhuǎn)移目的。
- [103]通過超參數(shù)的多樣化選擇使模型更加準確。實驗結果表明,該模型可以在誤差較小的情況下對期權進行定價。
8、深度學習和零售
零售用的最多的是增強現(xiàn)實(AR),此項技術能夠改善客戶的購買體驗。最新研究成果如下所示:
- [104]在一項研究中將深度學習技術和增強現(xiàn)實方法相結合,以便為客戶提供豐富的信息。他們還提出了一個移動應用程序,使其能夠通過深度學習中的圖像分類技術來定位客戶。
- [105]設計了一種新的DNN來準確預測未來的銷售,該模型使用了一組完全不同的變量,如產(chǎn)品的物理規(guī)格和專家的想法。
- [106]等人用CNN回歸模型來解決評估商店可用人數(shù)和檢測關鍵點的計數(shù)這兩個問題。
- [107]同時采用k-均值算法和k-近鄰算法,將計算出的質(zhì)心合并到CNN中,以實現(xiàn)有效的分離和自適應。該模型主要用于驗證食品生產(chǎn)日期等相關信息。
9、深度學習下的商業(yè)智能
- [108]發(fā)展了一項涉及元塑性概念( the concept of meta plasticity)的工作,它具有提高學習機制靈活性的能力,能夠從數(shù)據(jù)中發(fā)現(xiàn)更深層次的有用信息并進行學習。研究的重點是MLP,在利用客戶數(shù)據(jù)的同時,輸出在BI(商業(yè)智能)中的應用。
- [109]提出的MLS和SAE相結合的方法可以用來對序列現(xiàn)象中的時間維進行建模,對于異常情況非常有用,也即業(yè)務日志中的異常檢測能力較高。
- [31]設計了一種新的多層特征選擇,它與堆疊式自動編碼器(SAE)交互作用,只檢測數(shù)據(jù)的關鍵表示。
- [110]使用遞歸神經(jīng)網(wǎng)絡結構以業(yè)務流程的方式進行預測,其中RNN的輸入是通過嵌入空間來建立的,在論文中還給出了精度驗證結果和該方法的可行性驗證結果。
強化學習在高維經(jīng)濟學問題中的應用
前面介紹的是深度學習在經(jīng)濟學領域的應用。對比傳統(tǒng)的深度學習,深度強化學習能夠有效處理高維問題。所以,在一些包含高維動態(tài)數(shù)據(jù)的經(jīng)濟學問題上,深度強化學習表現(xiàn)更加優(yōu)秀。
1、深度強化學習下的股票交易
由于缺乏處理高維問題的能力,傳統(tǒng)強化學習方法不足以找到最佳策略。下面是深度強化學習的最新研究。
- [114]使用深度確定性政策梯度(DDPG)算法作為一種替代方案來探索動態(tài)股票市場中的最優(yōu)策略。算法處理較大的動作狀態(tài)空間,兼顧了穩(wěn)定性,消除了樣本相關性,提高了數(shù)據(jù)利用率。
- [115]等人設計了一種新的自適應深度確定性強化學習框架(Adaptive DDPG),用于在動態(tài)復雜的股票市場中發(fā)現(xiàn)最優(yōu)策略。該模型結合了樂觀和悲觀的Deep RL(optimistic and pessimistic Deep RL),既依賴于負的預測誤差,也依賴于正的預測誤差。
- [116]為了分析股票決策機制的多種算法,在深度RL中進行了調(diào)查研究。他們基于DQN、Double DQN和Dueling DQN三個經(jīng)典模型的實驗結果表明,其中DQN模型可以獲得更好的投資策略。另外,這項研究還應用實證數(shù)據(jù)對模型進行了驗證。
- [117]專注于使用深度強化學習實現(xiàn)證券交易中的自動振蕩,其中他們使用遞歸卷積神經(jīng)網(wǎng)絡(RCNN)方法從經(jīng)濟新聞中預測股票價值。
2、深度強化學習下的投資組合管理
- [118]采用了不同的強化學習方法,例如DDPG方法、最近策略優(yōu)化(PPO)方法和PG方法。這些方法能夠獲得與連續(xù)行動空間中的金融投資組合相關的策略。他們結合中國資產(chǎn)市場對模型在不同環(huán)境下的表現(xiàn)進行了比較,結果表明PG模型在股票交易中比其他兩種模型更有利。本研究還提出了一種新穎的對抗性訓練方法,能夠提高訓練效率和平均回報。
- [119]研究設計了無模型卷積神經(jīng)網(wǎng)絡(model-less RNN),其中輸入是來自加密貨幣交易所的歷史資產(chǎn)價格,目的是產(chǎn)生一組投資組合權重。
- [15]研究通過充分利用DPG方法來引入獎勵函數(shù),以優(yōu)化累積收益。模型包含了獨立評估器集成拓撲結構( Independent Evaluators topology),在權值分擔方面結合了大的神經(jīng)網(wǎng)絡集。另外,為防止梯度損壞,還采用了投資組合矢量存儲器(Portfolio Vector Memory)。
Yu等人[120]在自動交易的意義上設計了一種新的基于模型的深度強化學習方案,能夠采取行動并做出與全局目標相關的順序決策。該模型體系結構包括注入預測模塊(IPM)、生成性對抗性數(shù)據(jù)增強模塊(DAM)和行為克隆模塊(BCM),能夠用于處理設計的回溯測試。
3、深度強化學習下的在線服務
在線服務主要集中于推薦算法,當前的多種推薦方法,如基于內(nèi)容的協(xié)同過濾(collaborative filtering)、因式分解機器(factorization machines)、多臂老虎機等。但是這些方法大多局限于用戶和推薦系統(tǒng)的靜態(tài)交互,并且關注的是短期獎勵。
采用深度強化學習方法目前的進展如下:
- [121]設計的推薦算法使用了行動者-批評者(actor-critic model)模型,可以在連續(xù)的決策過程中顯式地獲取動態(tài)交互和長期回報。
- [122]重點研究了實時競價(RTB)在與用戶行為和競價策略相關的復雜隨機環(huán)境下的付費搜索(SS)拍賣。另外,基于阿里巴巴拍賣平臺的線上線下評價的實證結果表明了該方法的有效性。
- [123]中提出了一種基于電子商務平臺的MDP(馬爾科夫鏈決策過程)框架下的定價算法。由于能夠有效地應對動態(tài)的市場環(huán)境變化,可以設置與復雜環(huán)境相關聯(lián)的有效獎勵函數(shù)。
- [124]使用DQN( deep Q-network)方案進行在線新聞推薦,能夠同時獲得當前和未來的獎勵。本模型在考慮用戶活躍度的同時,還采用Duling Bandit梯度下降法來提高推薦準確率。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權。