自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="o2dqv"><rp id="o2dqv"><form id="o2dqv"></form></rp></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

芝大論文證明GPT-4選股準確率高達60%，人類股票分析師要下崗？AI大牛質(zhì)疑數(shù)據(jù)污染

作者：新智元 2024-05-27 13:42:00

GPT-4在為人類選股時，表現(xiàn)竟然超越了大部分人類分析師，和針對金融訓練的專業(yè)模型？在沒有任何上下文的情況下，它們直接就成功分析了財務報表，這一發(fā)現(xiàn)讓許多業(yè)內(nèi)大咖震驚了。然而好景不長，有AI大牛指出研究中的bug：之所以會這樣，很可能是訓練數(shù)據(jù)被污染了。

最近，各位業(yè)內(nèi)大咖都被芝大的一篇論文震驚了。

研究者發(fā)現(xiàn)，由GPT-4幫忙選擇的股票，直接擊敗了人類！同時也pk掉了許多其他針對金融訓練的機器學習模型。

最讓他們震驚的是，LLM可以在沒有任何敘述上下文的情況下，就成功分析財務報表中的數(shù)字！

圖片

論文地址：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311

具體來說，在預測收益的變化上，LLM比經(jīng)驗豐富的金融分析師都更出色。尤其是在選股時，人類分析師會面臨一些難以應對的場景，導致預測結(jié)果存在偏見、效率低下，這時LLM就表現(xiàn)出了巨大的優(yōu)勢。

并且，LLM做出的預測，不僅僅是回憶訓練數(shù)據(jù)，比如GPT-4提供的有洞察力的分析，甚至能揭示一家公司未來潛在的表現(xiàn)。

GPT-4的表現(xiàn)一騎絕塵，直接比其他模型實現(xiàn)了更高的的夏普比率（Sharpe ratio）和阿爾法（alpha）。

沃頓商學院教授Ethan Mollick盛贊：這是一篇眾人翹首以盼的論文。

圖片

也有網(wǎng)友感慨道：以后在股市中操盤的，是人還是AI都不好說了……

圖片

然而，就在大家激動之時，有細心的研究人員給這項研究潑了冷水：之所以能取得這個結(jié)果，很可能是由于訓練數(shù)據(jù)的污染造成的。

AI大牛田淵棟也表示，GPT-4的優(yōu)異表現(xiàn)，不排除是訓練數(shù)據(jù)集中包括了未來的股票價格，因此GPT-4直接開了掛，據(jù)此對2021年起的股票樣本進行了選擇。

圖片

至于測試GPT-4是否開了掛，理論上并不復雜：只要獲取股票的歷史紀錄，將其重命名為某個新代碼，將其輸入來測試就可以了。

圖片

研究內(nèi)容

怎樣衡量LLM在未來決策中的作用？在這項研究中，研究者衡量的標準，就是讓LLM進行財務報表分析（FSA）。

之所以進行FSA，主要是為了了解公司的財務健康狀況，并確定其業(yè)績是否可持續(xù)。

FSA并不簡單，它是一個定量任務，需要大量分析趨勢和比率，還涉及批判性思維、推理能力和復雜判斷。通常，這個任務是由金融分析師和投資專業(yè)人士來完成的。

在研究中，研究者會將兩份標準的財務報表——資產(chǎn)負債表和損益表扔給GPT-4 Turbo，它的任務是：分析公司接下來的收益是會增長還是下降。

注意，這項研究中有一個關(guān)鍵的設計，就是絕不向LLM提供任何文本信息，LLM能參考的，只有純粹的報表。

研究者預測，LLM的表現(xiàn)，大概率會比專業(yè)的人類分析師差。

原因在于，分析財務報表這項任務，非常復雜，涉及許多模糊性的東西，需要很大常識、直覺和人類思維的靈活性。

而且，LLM目前的推理和判斷能力還很不足，并且也缺乏對于行業(yè)和宏觀經(jīng)濟的理解。

另外，研究者還預測LLM的表現(xiàn)也會弱于專用的機器學習應用，比如為收益預測的人工神經(jīng)網(wǎng)絡（ANN）。

因為，ANN允許模型學習深層次的交互，這些交互中包含了重要線索，通用模型是很難獲取這些線索的。除非，通用模型能基于不完整的信息，或從未見過的情景，進行直覺推理、形成假設。

實驗結(jié)果卻令他們大吃一驚：LLM竟然pk掉了許多人類分析師和專用的神經(jīng)網(wǎng)絡，表現(xiàn)出了更優(yōu)異的成績！

實驗步驟

評測LLM的具體表現(xiàn)如何，需要從以下兩個步驟展開。

首先，研究人員對公司的財務報表進行匿名化和標準化處理，防止LLM記住公司的潛在可能。

特別是，他們從資產(chǎn)負債表和損益表中，省去了公司的名稱，并用標簽（如t和t-1）替換年份。

此外，研究者還按照Compustat的平衡模型，標準化資產(chǎn)負債表和損益表的格式。

這種方法，可以確保財務報表的格式，在所有公司年度統(tǒng)計中都是相同的，因此LLM也不知道其分析對應的是哪家公司或哪個時間段。

在第二階段中，研究人員設計了一個指令，指導LLM進行財務報表分析，并確定未來收益方向。

除了簡單的指令外，他們還開發(fā)了一個CoT指令，實際上是「教」LLM以人類金融分析師的思維過程進行分析。

具體來說，金融分析師在分析中會識別財務報表中顯著的趨勢，計算關(guān)鍵財務比率（如經(jīng)營效率、流動性和杠桿比率），綜合這些信息，并形成對未來收益的預期。

研究人員創(chuàng)建的CoT指令，便是通過一系列步驟，來實現(xiàn)這個思維過程。

圖片

在數(shù)據(jù)集選用上，研究人員使用Compustat數(shù)據(jù)庫來測試模型的表現(xiàn)，并在必要時與IBES數(shù)據(jù)庫交叉使用。

樣本涵蓋了從1968-2021年之間，15401家公司的150678個公司的年度數(shù)據(jù)。

分析師的樣本涵蓋了1983-2021年期間，包含3152家公司的39533個觀察數(shù)據(jù)。

圖片

LLM為何如此成功

對于這個結(jié)果，研究者提出了兩種假設。

第一種假設是，GPT的表現(xiàn)完全是由近乎完美的記憶驅(qū)動的。

GPT很可能是從數(shù)據(jù)中推斷出了公司的身份和年份，然后將這些信息與新聞中學到的關(guān)于該公司的情感相匹配。

為此，研究者試圖排除這種可能。并且，也使用了GPT-4訓練期以外的全新數(shù)據(jù)，復制了結(jié)果。

第二種假設是，GPT之所以能推斷出未來收益的方向，是因為生成了有用的見解模型。

比如，模型經(jīng)常會計算金融分析師計算的標注比率，然后根據(jù)CoT提示生成分析這些比率的敘述。

為此，研究者將模型為給定公司年度生成的所有敘述匯總，并使用BERT將它們編碼成768維向量（嵌入），然后將這些向量輸入到ANN中，并訓練它預測未來收益的方向。

結(jié)果，基于GPT敘述見解訓練的ANN達到了59%的準確率，這幾乎與GPT的預測準確率（60%）一樣高。

圖片

這一結(jié)果直接證明，模型生成的敘述見解對未來表現(xiàn)具有信息性。

另外可以觀察到，GPT的預測與基于GPT敘述的ANN預測之間，有94%的相關(guān)性，這就表明，這些敘述編碼的信息是GPT預測的基礎。而在解釋未來收益方向上，與比率分析相關(guān)的敘述最為重要。

總之，模型之所以表現(xiàn)優(yōu)越，原因就是來自于基于CoT推理生成的敘述。

實驗結(jié)果

最新研究中的實驗評估結(jié)果，可以總結(jié)為以下三大亮點。

GPT勝過人類金融分析師

為了評估分析師的預測準確性，研究者計算了「共識預測」（即財務報表發(fā)布后一個月內(nèi)各個分析師預測的中位數(shù)），并將其作為下一年收益的預期。

這確保了分析師預測和模型預測結(jié)果的可比性。

此外，作者還使用了使用未來三個月和六個月的「共識預測」作為可替代的預期基準。

這些基準對LLM不利，因為它們整合了一年中所獲得的信息。不過，考慮到分析師可能在將新信息納入預測時較為遲緩，研究者選擇報告這些基準以供比較。

研究人員首先對GPT在預測未來「收益方向」方面的表現(xiàn)進行了分析，并將其與證券分析師的表現(xiàn)進行了比較。

他們注意到預測每股收益（EPS）變化是一項高度復雜的任務，因為EPS時間序列近似于「Random Walk」（隨機游走）并且包含大量不可預測的成分。

隨機游走反映了，僅根據(jù)當前收益與之前收益相比的變化的預測。

圖片

下圖展示的是GPT和人類金融分析師的預測性能對比結(jié)果。

結(jié)果顯示，第一個月分析師的預測，在預測未來收益方向方面的準確率為53%，這超過了簡單模型（將前一年的變化外推）的49%準確率。

而分析師三個月和六個月后的預測準確率，分別為56%和57%，這是合理的，因其包含了更及時的信息。

基于「簡單」非CoT提示的GPT預測表現(xiàn)為52%，低于人類分析師基準，這與研究者預期一致。

然而，當使用CoT模擬人類推理時，他們發(fā)現(xiàn)GPT的準確率達到了60%，顯著高于分析師的表現(xiàn)。

如果再去核查F1-score（F1評分），這是一種評估模型預測能力的替代指標（基于其精確度和召回率的組合），也會得出類似的結(jié)論。

這表明，在分析財務報表以確定公司發(fā)展方向方面， GPT明顯擊敗了中位數(shù)金融分析師的表現(xiàn)。

圖片

坦白講，人類分析師可能依賴于模型無法獲得的軟信息或更廣泛的背景，從而增加了價值。

確實，研究人員還發(fā)現(xiàn)分析師的預測包含了GPT未捕捉到的，關(guān)于未來表現(xiàn)的有用見解。

此外，研究顯示，當人類難以做出未來預測時，GPT的見解更有價值。

同樣，在人類預測容易出現(xiàn)偏見或效率低（即未合理納入信息）的情況下，GPT的預測在預測未來收益方向方面更有用。

圖片

GPT與專用神經(jīng)網(wǎng)絡不相上下

研究人員還比較了GPT和各種ML模型的預測精度。

他們選用了三種預測模型。

第一個模型「Stepwise Logistic」（逐步回歸），遵循Ou and Penman框架，使用了59個財務指標預測變量。

第二個模型是，使用相同59個預測變量的ANN但也利用了它們之間的非線性和交互。

第三，為了確保GPT和ANN之間的一致性，研究人員還使用了，基于提供給GPT的相同信息集（損益表和資產(chǎn)負債表）訓練的ANN模型。

重要的是，研究者基于每五年的歷史數(shù)據(jù)使用 Compustat 的觀察數(shù)據(jù)來訓練這些模型。所有預測都是樣本外的（out of sample）。

使用整個Compustat樣本，研究發(fā)現(xiàn)「逐步回歸」的準確率（F1評分）為52.94%（57.23%），這與人類分析師的表現(xiàn)相當，并且與之前的研究一致。

相比之下，使用相同數(shù)據(jù)訓練的ANN達到了更高的準確率60.45%（F1評分61.62%），這處于最先進的收益預測模型的范圍。

當使用GPT（with CoT）預測時，發(fā)現(xiàn)模型在整個樣本上的準確率為60.31%，這與ANN的準確率非常接近。

事實上，GPT的F1評分顯著高于ANN（63.45% vs. 61.6%）。

圖片

此外，當研究人員僅使用兩份財務報表的數(shù)據(jù)（輸入到GPT中）訓練ANN時，發(fā)現(xiàn)ANN的預測能力略低，準確率（F1評分）為 59.02%（60.66%）。

總體而言，這些結(jié)果表明GPT的準確率與最先進的專用機器學習模型的準確率相當（甚至略高）。

圖片

ANN和GPT預測互補

研究人員進一步觀察到，ANN和GPT的預測具有互補性，因為它們都包含有用的增量信息。

并且有跡象表明，當ANN表現(xiàn)不佳時，GPT往往表現(xiàn)良好。

特別是，ANN基于其在過去數(shù)據(jù)中看到的訓練示例來預測收益。并且，鑒于許多示例非常復雜且高度多維，其學習能力可能受到限制。

相比之下，GPT在預測小型或虧損公司的盈利時，犯的錯誤相對較少，可能得益于其類似人類的推理和廣泛的知識。

圖片

除此以外，研究者還進行了幾項額外的實驗，基于GPT對其答案的置信度對樣本進行分區(qū)，并使用了不同的LLM家族。

當GPT以更高的置信度回答時，預測往往比置信度較低的預測更準確。

與此同時，研究證明了這一結(jié)果可以推廣到其他大模型上。特別是，谷歌最近發(fā)布的Gemini Pro，其準確率與GPT-4 不相上下。

圖片

預測來源：增長和營業(yè)利潤率

下圖顯示了，GPT響應中，雙詞（bigram）和單詞（monogram）的頻率統(tǒng)計。

這里，雙詞指的是由兩個連續(xù)的單詞組成，在文本中一起使用；單詞指的是一個單詞。

圖左展現(xiàn)的是「雙詞」的結(jié)果，GPT關(guān)于財務比率分析的答案中發(fā)現(xiàn)的十個最常見的「雙詞」。

圖右列出的是，GPT對二元盈利預測（binary earnings predictions）中，出現(xiàn)頻率最高的十個單詞。

圖片

之所以做這項分析，是為了確定GPT在不同財務分析環(huán)境中，使用最常見的術(shù)語和短語。

有趣的是，「營業(yè)利潤率」（Operating Margin）和「增長」（Growth）這兩個詞的預測力最高。

看來，GPT似乎已經(jīng)內(nèi)化了「40法則」。

總之，所有結(jié)果表明，AI加速發(fā)展，金融分析師的角色將會改變。

不可否認，人類專業(yè)知識和判斷力不太可能在短期內(nèi)被完全取代。

但像GPT-4這樣強大的AI工具可能會極大地增強和簡化分析師的工作，甚至可能在未來幾年里，重塑財務報表分析這一領域。

參考資料：

https://www.newsletter.datadrivenvc.io/p/financial-statement-analysis-with

https://x.com/tydsh/status/1794137012532081112

https://x.com/emollick/status/1794056462349861273

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311

責任編輯：武曉燕來源：新智元

GPT-4 分析師模型

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="nohh1"><i id="nohh1"><video id="nohh1"></video></i></blockquote>

<p id="nohh1"></p>

<sub id="nohh1"></sub>

<legend id="nohh1"><track id="nohh1"><menuitem id="nohh1"></menuitem></track></legend>