自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<output id="7xhkr"><center id="7xhkr"></center></output>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

LLM自學(xué)成才變身「預(yù)言家」！預(yù)測未來能力大幅提升

作者：新智元 2025-02-25 08:06:05

還在驚嘆預(yù)言家的神奇？如今LLM也掌握了預(yù)測未來的「超能力」！研究人員通過自我博弈和直接偏好優(yōu)化，讓LLM擺脫人工數(shù)據(jù)依賴，大幅提升預(yù)測能力。

最近，有個爆火的話題：LLM學(xué)會教自己預(yù)測未來了！

像神秘的預(yù)言家一樣，預(yù)測未來的天氣、某部電影的票房成績，甚至是股市走勢，聽起來是不是特別像科幻電影里的情節(jié)？

來自Lightning Rod Labs和倫敦政治經(jīng)濟學(xué)院的研究者對提升LLM預(yù)測未來的能力展開了研究。

圖片

論文鏈接：https://arxiv.org/abs/2502.05253

人類專家在預(yù)測時，會綜合考量大量的信息，包括各種事實、發(fā)展趨勢，以及相互矛盾的證據(jù)等，經(jīng)過復(fù)雜的分析和思考，才能做出較為準(zhǔn)確的預(yù)測。

在金融領(lǐng)域，準(zhǔn)確的市場預(yù)測能夠幫助投資者把握時機，做出明智的投資決策，實現(xiàn)財富的增長。

在商業(yè)領(lǐng)域，對市場需求和產(chǎn)品趨勢的預(yù)測，能讓企業(yè)提前布局，推出更受消費者歡迎的產(chǎn)品，占據(jù)市場優(yōu)勢。

為了提升LLM的預(yù)測能力，科研人員進行了諸多嘗試，采用了數(shù)據(jù)聚合、新聞檢索、模型微調(diào)等多種方法。

這些方法在一定程度上確實提高了模型的預(yù)測性能，但它們存在一個共同的問題——過度依賴人工整理的數(shù)據(jù)。

比如，需要借助最新的大眾預(yù)測結(jié)果，或者依賴人工篩選的內(nèi)容。而且，模型往往無法從已經(jīng)確定結(jié)果的事件中學(xué)習(xí)經(jīng)驗，實現(xiàn)自我提升。

獲取人工數(shù)據(jù)成本高昂，效率也較低，使得模型難以持續(xù)學(xué)習(xí)和進步。

LLM的「自學(xué)秘籍」

研究人員提出了一個結(jié)果驅(qū)動的微調(diào)框架，讓LLM能夠擺脫對人工輸入的過度依賴，通過自我學(xué)習(xí)來提升預(yù)測能力。

圖片

讓模型「自我博弈」，生成多樣化推理軌跡和概率預(yù)測。根據(jù)這些推理預(yù)測與實際結(jié)果的接近程度，對推理組合進行排序。最后，利用直接偏好優(yōu)化（DPO）技術(shù)對模型進行微調(diào)。

圖片

數(shù)據(jù)與新聞收集

研究人員從預(yù)測市場Polymarket收集了多達12100個具有二元結(jié)果的預(yù)測問題，像「奧特曼會參加總統(tǒng)就職典禮嗎？」「FTX在2024年會停止付款嗎？」。

研究者篩選數(shù)據(jù)，排除了那些結(jié)果不明確的問題，并將剩余數(shù)據(jù)劃分為訓(xùn)練集和測試集。

訓(xùn)練集包含9800個問題，其結(jié)果在2024年7月1日至12月15日期間確定；測試集則有2300個問題，結(jié)果在2024年12月25日至2025年1月23日揭曉。

圖片

將事件未發(fā)生標(biāo)記為「0」，發(fā)生標(biāo)記為「1」。為了評估模型預(yù)測的準(zhǔn)確性，研究人員引入了Brier分?jǐn)?shù)（BS）這一指標(biāo)，分?jǐn)?shù)越低，代表預(yù)測越準(zhǔn)確。

圖片

其中N代表預(yù)測問題數(shù)量。

在答案揭曉前14天，研究人員借助NewsCatcher API收集新聞。先通過GPT-4o生成搜索查詢，再利用Newscatcher等外部新聞檢索服務(wù)，對相關(guān)新聞進行聚合和處理。

這些新聞將為后續(xù)模型的自我學(xué)習(xí)和預(yù)測提供重要的支持。

模型Self-Play數(shù)據(jù)生成

研究者選用了Phi-4 14B和DeepSeek-R1 14B這兩個模型。別看參數(shù)只有14B，在一般科學(xué)和編程基準(zhǔn)測試中，表現(xiàn)十分出色。

研究人員讓這兩個模型針對每個問題進行推理，并給出最終的概率預(yù)測。

對于Phi-4 14B模型，采用scratchpad提示法，就像給它提供了一個草稿本，便于逐步展示推理過程。DeepSeek-R1 14B模型由于輸出中已有<think>標(biāo)簽，所以使用零樣本提示法。

提示內(nèi)容不僅有問題本身，還包含收集到的新聞?wù)?。每個問題都會生成一對推理軌跡，具體做法是先生成一個推理和預(yù)測，然后最多重新運行四次，以獲得第二個不同的預(yù)測。若后續(xù)預(yù)測都相同，則舍棄這組預(yù)測。

最終，為9427個預(yù)測問題，生成了18854條推理軌跡。

基于結(jié)果的重新排序

生成推理軌跡和預(yù)測結(jié)果后，需要根據(jù)預(yù)測與實際結(jié)果的接近程度進行重新排序。

研究人員定義了一個排序指標(biāo)，通過計算預(yù)測概率與實際結(jié)果的絕對差值來衡量兩者的接近程度。

例如，若實際結(jié)果為0，一個預(yù)測概率是4%，另一個是8%，那么概率為4%的預(yù)測推理軌跡排名更高。這樣，模型就知道哪些推理方式能帶來更準(zhǔn)確的預(yù)測。

此外，為了排除新聞聚合信息對排序的影響，研究人員還微調(diào)了一組標(biāo)簽隨機化的控制模型，通過對比，來確定模型的學(xué)習(xí)效果是否源于更準(zhǔn)確的預(yù)測依據(jù)。

直接偏好優(yōu)化（DPO）微調(diào)

研究人員使用直接偏好優(yōu)化（DPO）方法對Phi-4 14B和DeepSeek-R1 14B進行微調(diào)。

這種方法無需訓(xùn)練單獨的獎勵模型，而是直接從模型自我博弈生成的排序推理對中學(xué)習(xí)獎勵信號。即使單個預(yù)測并不完美，DPO也能通過成對比較，發(fā)現(xiàn)預(yù)測之間的細微質(zhì)量差異，系統(tǒng)地糾正偏差。

與傳統(tǒng)的監(jiān)督微調(diào)（SFT）相比，SFT依賴人工挑選的示例，并視其為完全正確，容易丟棄有價值的信息。DPO則能從所有樣本中學(xué)習(xí)，顯著提高了微調(diào)過程的穩(wěn)健性和效率。

在微調(diào)過程中，研究人員使用LoRA適配器，對參數(shù)進行了精心調(diào)整，如設(shè)置合適的學(xué)習(xí)率、使用AdamW優(yōu)化器、采用BF16混合精度等，用8個H100 GPU訓(xùn)練。

Phi-4 14B在第五輪訓(xùn)練時效果趨于穩(wěn)定，而DeepSeek-R1 14B在第四輪就達到了穩(wěn)定狀態(tài)。

圖片

最后，用一個包含2300個問題的測試集來檢驗?zāi)Ｐ偷膶W(xué)習(xí)成果。

這個測試集的問題結(jié)果在訓(xùn)練集最后一個問題結(jié)果出來10天后才揭曉，確保微調(diào)后的模型沒有接觸過與測試集相關(guān)的新聞信息，以免影響測試結(jié)果。

每個模型都以原始基礎(chǔ)模型、使用正確結(jié)果微調(diào)的模型，以及使用隨機結(jié)果微調(diào)的對照模型這三個版本參與測試。這樣可以清晰地區(qū)分模型的學(xué)習(xí)效果是源于接觸新信息，還是優(yōu)化推理過程。

在測試時，針對不同模型設(shè)計了特定的提示。Phi-4 14B模型的提示就像一份詳細的任務(wù)指南，引導(dǎo)它逐步思考。DeepSeek-R1 14B模型則被設(shè)定為專家角色，直接進行預(yù)測。

兩個模型都會獲得問題、問題背景、判斷標(biāo)準(zhǔn)、當(dāng)前日期、問題截止日期以及最多10篇新聞文章的摘要等信息。

最終，收集了每個模型對2300個問題的預(yù)測結(jié)果，模型均給出了有效的預(yù)測。

圖片

預(yù)測能力大幅提升

經(jīng)過這一系列操作，Phi-4 14B和DeepSeek-R1 14的預(yù)測準(zhǔn)確性有了顯著提升。

Phi-4 14B和DeepSeek-R1 14B的預(yù)測準(zhǔn)確率，比基礎(chǔ)模型以及用DPO微調(diào)但標(biāo)簽隨機化的對照模型提高了7-10%，在預(yù)測能力上能與GPT-4o這樣的大型模型相媲美。

圖片

圖中展示了每個模型的Brier分?jǐn)?shù)核密度估計，較低的Brier分?jǐn)?shù)表示較高的準(zhǔn)確性。

Phi-4 14B微調(diào)后的平均Brier分?jǐn)?shù)達到0.200，優(yōu)于隨機標(biāo)簽的對照模型（0.214）和基礎(chǔ)模型（0.221）。DeepSeek-R1 14B微調(diào)后的平均Brier分?jǐn)?shù)為0.197，同樣超過了其對照模型（0.212）和基礎(chǔ)模型（0.212）。

圖片

通過獨立樣本t檢驗發(fā)現(xiàn)，兩個微調(diào)后的模型在預(yù)測準(zhǔn)確性上都顯著優(yōu)于各自的基礎(chǔ)和對照模型，并且在經(jīng)過多重比較調(diào)整p值后，這一結(jié)論依然成立。

充分證明了該方法能夠切實有效地提升模型的預(yù)測性能，而且這種提升并非源于微調(diào)時接觸的額外信息。

圖片

與前沿模型GPT-4o相比，Phi-4 14B和DeepSeek-R1 14B雖然參數(shù)較少，但微調(diào)后的預(yù)測性能卻與之相當(dāng)。

在統(tǒng)計檢驗中，微調(diào)后的模型與GPT-4o之間沒有顯著差異。

進一步分析模型在不同問題上的預(yù)測準(zhǔn)確性分布，可以發(fā)現(xiàn)微調(diào)后的模型雖然偶爾會出現(xiàn)一些準(zhǔn)確性極低的預(yù)測（Brier分?jǐn)?shù)高于0.5），但同時也能做出更多極其準(zhǔn)確的預(yù)測（Brier分?jǐn)?shù)低于0.05）。

以DeepSeek-R1 14B為例，微調(diào)后的模型有8.52%的問題Brier分?jǐn)?shù)高于0.5，略高于基礎(chǔ)模型（7.48%）和對照模型（7.61%）；但有32.78%的問題Brier分?jǐn)?shù)低于 0.05，遠高于基礎(chǔ)模型（23.22%）和對照模型（23.13%），Phi-4 14B也呈現(xiàn)出類似的趨勢。

這項研究為LLM提升預(yù)測能力開辟了新的道路。

通過自我博弈和直接偏好優(yōu)化，LLM能在不依賴大量人工標(biāo)注數(shù)據(jù)的情況下，從實際結(jié)果中學(xué)習(xí)并改進預(yù)測，使小模型也能達到與大模型相媲美的性能，極大地提高了實用性和應(yīng)用范圍。

參考資料：

https://arxiv.org/abs/2502.05253

https://news.ycombinator.com/item?id=43014918

責(zé)任編輯：武曉燕來源：新智元

LLM 預(yù)測 Brier

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="5v6ua"></blockquote>}

<sub id="5v6ua"><rt id="5v6ua"></rt></sub>

<legend id="5v6ua"><track id="5v6ua"></track></legend>

<style id="5v6ua"></style>