自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了

發(fā)布于 2024-5-9 09:18

瀏覽

0收藏

把AlphaGo的核心算法用在大模型上，“高考”成績直接提升了20多分。

在MATH數據集上，甚至讓7B模型得分超過了GPT-4。

一項來自阿里的新研究引發(fā)關注：

研究人員用蒙特卡洛樹搜索（MCTS）給大語言模型來了把性能增強，無需人工標注解題步驟，也能生成高質量數據，有效提升大模型的數學成績。

AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

論文發(fā)布，讓不少網友重新關注到了蒙特卡洛樹搜索這個在前大模型時代的明星算法。

有人直言：

蒙特卡洛樹搜索+LLM是通往超級智能之路。

AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

因為“樹搜索本身更接近人類思維”。

用蒙特卡洛樹搜索增強大模型

具體來說，阿里的研究人員提出了一種名為AlphaMath的方法，用大語言模型+MCTS來自動生成數學推理數據，并提升大模型在完成數學推理任務時的性能表現。

嗯，名字就很有蒙特卡洛樹搜索內味兒了。

這里有個前情提要：

思維鏈（CoT）、思維程序（PoT）等方法已經被證明能夠有效提高大模型的數學能力，但問題在于，它們都需要人類手動喂詳細的解題步驟，即訓練當中需要用到人工標注的高質量數學推理數據。

AlphaMath的一個核心目的就在于，在這個步驟中去人工化——數據格式就是簡單的數學問題-答案對。

AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

AlphaMath的技術路線主要涵蓋三個階段：

首先，研究人員收集了一個數學數據集，其中包含數學問題及其對應的正確答案。

然后，利用預訓練的大模型（即策略模型）根據問題生成初始的解題路徑，并通過MCTS對解題路徑進行探索和改進，搜索更優(yōu)的解題思路。

在MCTS過程中，同時訓練一個價值模型來預測解題路徑的質量，引導搜索方向。

最后，第二階段獲得的數據會被用來優(yōu)化策略模型和價值模型。

AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

這三個階段會通過迭代優(yōu)化地方式執(zhí)行，以實現無需人工標注的自動數據生成和模型數學能力優(yōu)化。

另外，研究人員還基于價值模型提出了Step-level Beam Search方法，以提高大模型的數學推理效率，平衡推理時的解題質量和運行時間。

簡單來說，Step-level Beam Search是將MCTS推理過程做了個簡化：

利用價值模型對候選路徑進行評估，以更準確地選擇高質量的解題路徑。
通過逐步擴展和剪枝，在搜索過程中動態(tài)調整候選路徑集合，提高搜索效率。
搜索過程中考慮了完整的解題路徑，而不僅僅是局部的下一步動作，可以得到更全局優(yōu)化的解題方案。

MATH成績超GPT-4

為了驗證AlphaMath的效果，研究人員設計了這樣的實驗：

對開源的數學大模型DeepSeekMath-Base-7B，用AlphaMath方法進行訓練，并在GSM8K、MATH和Gaokao2023基準上，與GPT-4為代表的閉源模型、Llama2為代表的開源模型，以及專門做過數學SFT的MathCoder等模型進行對比。

結果顯示，不依賴于人類（或GPT-4）標注的高質量數據，AlphaMath調教下的7B數學大模型，已經能在MATH上取得63%的分數，超過了GPT-4原版的42.5%和外掛代碼解釋器版的51.8%。

AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

另外，在執(zhí)行3輪MCTS并訓練策略模型和價值模型的情況下，AlphaMath能讓大模型在涵蓋小學數學題的GSM8K上提升10多分，在MATH和Gaokao2023上提升20多分。

還可以看到，Step-level Beam Search在MATH數據集上取得了良好的效率和準確率平衡。

AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了-AI.x社區(qū)

論文的共同一作是Guoxin Chen、Mingpeng liao、Chengxi Li和Kai Fan。

通訊作者Kai Fan本碩畢業(yè)于北京大學，2017年從杜克大學博士畢業(yè)，2018年加入阿里巴巴達摩院。

論文地址：
???https://arxiv.org/abs/2405.03553??

本文轉自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/0LevzAVD8EzVmNI2m-87Tw??

標簽

贊

收藏

回復

舉報

回復

相關推薦

超越GPT-4，斯坦福團隊手機可跑的大模型火了，一夜下載量超2k

輕薄滴假象 ? 3139瀏覽 ? 0回復
超越GPT-4！最強大模型 Claude 3 完全解讀

開發(fā)者阿橙 ? 5733瀏覽 ? 0回復
7B超越百億級，北大開源aiXcoder-7B最強代碼大模型，企業(yè)部署最佳選擇

輕薄滴假象 ? 4139瀏覽 ? 0回復
Mistral開源8X22B大模型，OpenAI更新GPT-4 Turbo視覺，都在欺負谷歌

輕薄滴假象 ? 2281瀏覽 ? 0回復
Meta無限長文本大模型來了：參數僅7B，已開源

輕薄滴假象 ? 2578瀏覽 ? 0回復
大模型參數量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.2w瀏覽 ? 0回復
Meta 發(fā)布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術棧 ? 3914瀏覽 ? 0回復
Microsoft提出FILM-7B，解決大模型lost-in-the-middle問題，達到GPT-4-Turbo水平！

PaperAgent ? 3913瀏覽 ? 0回復
超越GPT-4！騰訊AI新研究打破長文本生成模型限制，序列并行技術再突破

AI論文解讀 ? 5436瀏覽 ? 0回復
百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法

duhorse ? 2522瀏覽 ? 0回復
大模型訓練核心算法之——反向傳播算法

AI探索時代 ? 3162瀏覽 ? 0回復
超越GPT-4！LoRA技術引領大型語言模型新革命

AI論文解讀 ? 2862瀏覽 ? 0回復
大模型數學能力翻車實錘！Apple新研究暴露真相!

NLP前沿1 ? 1838瀏覽 ? 0回復
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！?。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 3957瀏覽 ? 0回復
阿里重磅開源QwQ-32B：自我思考、糾正，數學能力擊敗o1模型

Aceryt ? 7266瀏覽 ? 0回復
阿里巴巴Qwen研究員推出ProcessBench：衡量數學推理過程錯誤識別能力的新AI基準

Halo咯咯 ? 1905瀏覽 ? 0回復
清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理

Aceryt ? 2087瀏覽 ? 0回復
千億模型做不到的事，7B小模型實現了？阿里這次開源有點狠！

蜂耘網iphoneyun ? 1181瀏覽 ? 0回復
計算機視覺五大核心算法解析

每天五分鐘玩轉人工智能 ? 327瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現 Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它

下一篇：港大開源圖基礎大模型OpenGraph: 強泛化能力，前向傳播預測全新數據

社區(qū)精華內容

目錄