自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="ql62c"><p id="ql62c"></p></sub>

<sub id="ql62c"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法

發(fā)布于 2024-6-26 09:42

瀏覽

0收藏

自OpenAI的Q項目曝光后，業(yè)內相關討論始終層出不窮。據(jù)現(xiàn)有信息匯總，Q項目被視作OpenAI在探索人工通用智能（Artificial General Intelligence, AGI）道路上的一次重大嘗試，有望在包括數(shù)學問題解決能力、自主學習和自我改進等多個層面對人工智能技術帶來革新性突破。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

（英偉達科學家Jim Fan、圖靈獎得主Yann LeCun等參與討論OpenAI的Q*實現(xiàn)方式）圖片

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

（Meta科學家田淵棟則認為Q是Q-learning和A的結合，且天然地適合推理任務，尤其在數(shù)

學推理方面）

不過迄今為止OpenAI沒有公開關于Q算法的具體細節(jié)，其效果究竟如何我們并不得而知。然而就在近日，一篇名為《Q: Improving Multi-step Reasoning for LLMs with Deliberative Planning》的論文在AI圈內引發(fā)了不小的震蕩。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

論文鏈接：??https://arxiv.org/abs/2406.14283??

論文中提出的Q算法不僅能夠幫助小模型達到參數(shù)量比其大數(shù)十倍、甚至上百倍模型的推理能力，大幅提升了小模型的性能，還顯著降低了計算資源的需求。

最值得關注的是，這篇論文竟然出自中國團隊之手——由顏水成教授團隊攜手新加坡南洋理工大學團隊共同發(fā)布！

根據(jù)實驗結果，Q成功幫助現(xiàn)有開源模型在GSM8K、MATH和MBPP數(shù)據(jù)集上取得性能飛躍，評分分別超越了ChatGPT和Gemini Ultra。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

（Q*在AI圈內引發(fā)熱議）

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

（外網(wǎng)網(wǎng)友直呼「中國AI趕上來了！」）

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》論文中，研究人員首先將大語言模型的推理軌跡分解為若干個狀態(tài)。

對于每一個狀態(tài)，參考DeepCubeA中的設計，通過將定義Path Cost的g(s_t)函數(shù)和定義Accumulated Reward的Q*(s_t, a_t)集成到同一個f(s_t)函數(shù)內，實現(xiàn)了對歷史狀態(tài)收益和未來期望收益的綜合考慮。

最后利用A搜索算法對狀態(tài)進行最佳優(yōu)先搜索，實現(xiàn)了對復雜推理任務的全盤規(guī)劃，從而提升開源模型在推理任務上的性能。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

其中g(s_t)表示當前軌跡中的多個歷史狀態(tài)，既{s1,...,s_t}，的聚合收益。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

具體g(s_t)的函數(shù)形式可以通過人為定義，例如判斷當前代碼是否符合語法規(guī)則等，或者通過構建 Process Reward Model（PRM）進行監(jiān)督學習得到；g(s_t)中的聚合方式可以為求和，最大值，最小值等。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

為了獲得狀態(tài)-動作對(s_t, a_t)的最優(yōu)Q值以實現(xiàn)規(guī)劃，研究人員在當前LLM策略生成的數(shù)據(jù)上通過監(jiān)督學習的方式訓練了一個代理Q值模型Q。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

實驗結果表明，顏水成團隊本次所提出的Q框架，可以顯著地提升LLM的推理能力：

在GSM8K數(shù)據(jù)集上，Q幫助Llama-2-7b提升至80.8%的準確率，超越了ChatGPT；
在MATH數(shù)據(jù)集上，Q幫助DeepSeek-Math-7b提升至55.4%的準確率，超越了Gemini Ultra;
在MBPP數(shù)據(jù)集上，Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準確率，縮小了與GPT-4的編程水平差距。

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

百倍提升7B模型推理能力！顏水成團隊攜手新加坡南洋理工大學發(fā)布Q*算法-AI.x社區(qū)

研究證明，Q能夠幫助參數(shù)量僅為7b的小模型達到參數(shù)量比其大數(shù)十倍甚至百倍模型的推理能力，大幅提升模型的性能，并顯著降低了計算資源的需求。

顏水成團隊表示，目前，Q的研究尚在初級階段，算法在各個環(huán)節(jié)還有進一步的改進空間。未來，團隊會繼續(xù)深入此項研究，不斷提升國產(chǎn)開源模型推理能力，打破OpenAI閉源封鎖，為人工智能前沿技術發(fā)展帶來全新可能。

本文轉自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/5zaE62vFQg-v_gx2o6Dmdg??

標簽

贊

收藏

回復

舉報

回復

相關推薦

華為諾亞頻域LLM「帝江」：僅需1/50訓練成本，7B模型媲美LLaMA，推理加速5倍

輕薄滴假象 ? 2669瀏覽 ? 0回復
谷歌DeepMind發(fā)布Gecko：專攻檢索，與大7倍模型相抗衡

輕薄滴假象 ? 2113瀏覽 ? 0回復
7B超越百億級，北大開源aiXcoder-7B最強代碼大模型，企業(yè)部署最佳選擇

輕薄滴假象 ? 4134瀏覽 ? 0回復
Meta無限長文本大模型來了：參數(shù)僅7B，已開源

輕薄滴假象 ? 2578瀏覽 ? 0回復
擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)

angel ? 4211瀏覽 ? 0回復
大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.2w瀏覽 ? 0回復
AlphaGo核心算法增強，7B模型數(shù)學能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt ? 2742瀏覽 ? 0回復
大語言模型llama-2-7b推理服務實戰(zhàn)

zhcs333 ? 4306瀏覽 ? 0回復
電子科大、同濟大學、新加坡國立大學等發(fā)表的Math-LLaVA：引導多模態(tài)大語言模型的數(shù)學推理能力

sbf_2000 ? 4457瀏覽 ? 0回復
OpenAI o1模型推理能力大幅提升的背后：重復采樣如何提升AI推理能力

Syrupup ? 3341瀏覽 ? 0回復
阿里巴巴達摩院、新加坡科技設計大學和南洋理工大學聯(lián)合團隊提升AI多步推理能力的新方法

xuxiangda ? 2245瀏覽 ? 0回復
Qwen開源強大、多樣、實用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Halo咯咯 ? 3643瀏覽 ? 0回復
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！?。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 3946瀏覽 ? 0回復
清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數(shù)學推理

Aceryt ? 2087瀏覽 ? 0回復
基于CogVideoX-2B，視覺一致和語義對齊超越最新SOTA！南洋理工等發(fā)布RepVideo

angel ? 2015瀏覽 ? 0回復
1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團隊提出NutWorld:渲染速度可達450FPS

angel ? 1998瀏覽 ? 0回復
MedRAG：利用知識圖譜引導推理提升醫(yī)療Copilot的RAG能力 - 新加坡南洋理工等

知識圖譜科技 ? 3092瀏覽 ? 0回復
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

Crystalcxt ? 1823瀏覽 ? 0回復
千億模型做不到的事，7B小模型實現(xiàn)了？阿里這次開源有點狠！

蜂耘網(wǎng)iphoneyun ? 1171瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：快手「可靈」再進化！視頻續(xù)寫可達3分鐘讓全球網(wǎng)友炸鍋

下一篇：畫皮走進現(xiàn)實？微笑機器人臉由活體人類皮膚細胞打造，你怕了沒

社區(qū)精華內容

目錄

^{<sub id="f7mad"></sub>}

<style id="f7mad"></style><sub id="f7mad"></sub>

<style id="f7mad"></style>