自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？精華

輕薄滴假象

發(fā)布于 2025-2-14 12:28

瀏覽

0收藏

我們都知道，普通大模型的數(shù)學(xué)能力并不好，甚至可能會搞不清楚 9.8 和 9.11 哪個大。但隨著 o1、o3 以及 DeepSeek-R1 等推理模型的到來，情況正在發(fā)生變化。比如 DeepSeek-R1 在競賽數(shù)學(xué)基準(zhǔn) AIME 2024 上達到了 79.8% 的準(zhǔn)確度，成就了自己頭號開源推理模型的地位。

?。eepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

而根據(jù) OpenAI 發(fā)布的數(shù)據(jù)，o3-mini (high) 在 AIME 2024 上的準(zhǔn)確度更是達到了 87.3%，預(yù)計 o3 滿血版的成績還會更好。

??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

但即便如此，這些強大的推理模型卻依然常常在一類看起來相當(dāng)簡單的數(shù)學(xué)問題上栽跟頭，那就是簡單的乘法算法，尤其是多位數(shù)乘法。

去年 9 月，滑鐵盧大學(xué)助理教授鄧云天（Yuntian Deng）在 ?? 上分享了自己的一個實驗結(jié)果：通過讓 o1 計算最多 20x20（20 位數(shù)乘 20 位數(shù)）的乘法，發(fā)現(xiàn)該模型到 9x9 乘法之后準(zhǔn)確度就不好看了，而 GPT-4o 更是在 4x4 時就會難以為繼。

?。eepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

以下是詳細結(jié)果：

啊！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

前兩天，鄧云天又分享了 o3-mini 的「多位數(shù)乘法考試」成績。結(jié)果嘛，確實相較于 o1 有進步，但當(dāng)位數(shù)超過 13 位時，準(zhǔn)確度表現(xiàn)依然會嚴(yán)重下滑。

??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

以下是詳細結(jié)果：

?。eepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

看起來，至少在多位數(shù)乘法任務(wù)上，非智能的計算器比推理大模型更可靠。

看到這個消息后，機器之心也去試了試 DeepSeek-R1 能否計算多位數(shù)乘法。首先，我們嘗試了讓兩個隨機寫的 9 位數(shù)相乘：456347891 乘以 390869523 等于多少？令人驚訝的是，DeepSeek-R1 在思考了足足 240 秒之后成功給出了正確答案。

??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

接下來我們又試了兩個 15 位數(shù)的相乘：569815324865789x698437369846583=？

這一次 DeepSeek-R1 思考的時間卻更短，為 114 秒，但給出了一個很接近但依然錯誤的答案。

?。eepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

根據(jù)計算器的結(jié)果，正確答案應(yīng)該是 397980316797537914439995248987。

可以看到由于「服務(wù)器繁忙」，我們在這里嘗試了 4 次才成功獲得響應(yīng)；而在另一次使用更加穩(wěn)定的???火山方舟?? API 版 DeepSeek-R1 的嘗試中，還得到了另一個不同的結(jié)果：397816402510166516760347336987。

?。eepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

所以，LLM 真沒有能力正確執(zhí)行多位數(shù)乘法嗎？

并不一定，轉(zhuǎn)折馬上就來了。

就在上面那條推文之下，微軟研究院研究科學(xué)家、威斯康星大學(xué)麥迪遜分校副教授 Dimitris Papailiopoulos 表示這個問題已經(jīng)解決了。

??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

他領(lǐng)導(dǎo)的一個研究團隊發(fā)現(xiàn)，不管是乘法，還是加法、迷宮求解和從易到難的泛化，都可以基于標(biāo)準(zhǔn)的 Transformer 加以解決，方法就是使用「遞歸式自我提升」。

啊！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

下面是一個小模型教自己加法時的準(zhǔn)確度表現(xiàn)：

啊！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

Transformer 果真是神一樣的發(fā)明：Attention Is All You Need！

下面我們就來看看 Papailiopoulos 團隊究竟得到了什么發(fā)現(xiàn)。

??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

論文標(biāo)題：Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges
論文地址：https://arxiv.org/pdf/2502.01612

Transformer 的長度泛化問題

基于 Transformer 的語言模型取得成功已經(jīng)無需多談，它們已經(jīng)有能力解決大量不同類型的任務(wù)。但是，它們在長度泛化（length generalization）方面依然有著巨大的局限性。也就是說，模型很難將自己的能力外推到比訓(xùn)練期間見過的序列更長的序列。

就比如簡單的算術(shù)任務(wù)，一般的使用自回歸目標(biāo)訓(xùn)練的標(biāo)準(zhǔn) Transformer 使用的訓(xùn)練數(shù)據(jù)通常位數(shù)不多，當(dāng)出現(xiàn)高位數(shù)算術(shù)運算時，這些模型常常表現(xiàn)不佳。

之前也有不少研究者試圖解決這個問題，采用的方法包括改用位置嵌入、修改架構(gòu)、修改數(shù)據(jù)格式等。

不過，這些方法雖然在受控的實驗環(huán)境中很有效，但卻與 LLM 實際的訓(xùn)練方式不兼容。原因也很簡單，這些修改方式都是針對具體任務(wù)實現(xiàn)的，我們不清楚這些修改能在多大程度上或以什么方式遷移到通用設(shè)置。

解決方案：遞歸式自我提升

為此，Papailiopoulos 團隊研究了 Transformer 展現(xiàn)出的一個有趣現(xiàn)象：transcendence，也就是「超越性」。

簡單來說，超越性是指學(xué)生模型在訓(xùn)練期間泛化超過教師模型提供的數(shù)據(jù)難度的能力。2024 年 OpenAI 與哈佛大學(xué)等機構(gòu)的一篇論文《Transcendence: Generative Models Can Outperform The Experts That Train Them》最早描述了這一現(xiàn)象。

具體來說，在任務(wù)的簡單實例（例如 n 位算術(shù)運算）上訓(xùn)練的模型有時可為稍微困難的實例（例如 n + 1 位算術(shù)運算）生成正確的輸出。

Papailiopoulos 團隊利用這一現(xiàn)象構(gòu)建了一個自我提升框架，其中模型可以迭代地生成自己的訓(xùn)練數(shù)據(jù)并遞進地學(xué)習(xí)更困難的示例樣本。下圖展示了該團隊的自我改進流程：

??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

在 AI 領(lǐng)域，自我提升并不是一個新鮮詞匯。通常來說，為了保證數(shù)據(jù)質(zhì)量，自我提升大都需要外部驗證器、弱監(jiān)督或過濾機制。下面展示了實驗中采用的兩種數(shù)據(jù)過濾方法。

啊！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

該團隊的研究表明：在這個框架下，極端的長度泛化確實是可能的，而無需對基礎(chǔ) Transformer 架構(gòu)進行任何修改。對于反向相加和字符串復(fù)制等任務(wù)，自我改進無需顯式的數(shù)據(jù)過濾即可成功。然而，對于乘法和尋找迷宮最短路徑等更難的問題，沒有數(shù)據(jù)過濾的自我改進會因錯誤累積而失敗。他們的研究表明，簡單的過濾技術(shù)（例如長度過濾和多數(shù)投票）足以保持數(shù)據(jù)質(zhì)量，并可實現(xiàn)大幅超越其初始訓(xùn)練分布的自我改進。

?。eepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

不僅如此，該團隊還發(fā)現(xiàn)，自我改進不僅限于長度泛化，還可以實現(xiàn)從易到難的泛化，即在簡單任務(wù)上訓(xùn)練的模型無需額外監(jiān)督即可成功學(xué)習(xí)更難的任務(wù)。值得注意的是，該方法并沒有引入新的自我改進框架，而是展示了其在各種算法任務(wù)中的有效性。

此外，他們還研究了自我改進的動態(tài)，并得到了以下發(fā)現(xiàn)：

首先，控制從弱到強的歷程非常重要，因為為了避免災(zāi)難性失敗，模型需要結(jié)構(gòu)化的難度調(diào)度計劃。

??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

第二，自我改進會隨著時間的推移而加速，因為更困難的示例樣本會帶來越來越大的好處，在某些情況下會實現(xiàn)指數(shù)級的外推。

??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

最后，如果從預(yù)訓(xùn)練模型開始，可以顯著加快自我改進速度，從而比使用從頭開始訓(xùn)練的模型更快地實現(xiàn)泛化。

?。eepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

該團隊總結(jié)說：「我們的研究結(jié)果提供了證據(jù)，表明對于長度泛化和從易到難泛化，學(xué)習(xí)自我改進是一種通用且可擴展的解決方案。」

那么，Transformer 大模型能做多位數(shù)乘法了嗎？

回到最開始的問題，如果使用自我改進，基于 Transformer 的大模型能就能做多位數(shù)乘法了嗎？

先來看看實驗結(jié)果，當(dāng)組合使用多數(shù)投票與長度過濾時，31 輪提升后，實驗?zāi)Ｐ湍茉?9 位數(shù)以內(nèi)的乘法上達到近乎完美的表現(xiàn)。

??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

而如果使用該團隊精心設(shè)計的一種自我改進調(diào)度方案，提升速度還能大大提升：在 19 輪內(nèi)就能在 10 位數(shù)以內(nèi)的乘法上達到近乎完美。

??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

不過，或許是實驗成本方面的考慮，該團隊并未實驗更多位數(shù)的乘法。但至少從趨勢上看，這種自我提升策略確實是可行的。

那么，問題來了：現(xiàn)在的大模型已經(jīng)開始有能力使用工具了，對于這樣的算術(shù)運算，為什么不直接讓大模型調(diào)用一個計算器應(yīng)用呢？

對此，Dimitris Papailiopoulos 給出的答復(fù)是可以研究 Transformer 可以如何學(xué)習(xí)算法以及如何讓 Transformer 在比其訓(xùn)練數(shù)據(jù)更困難的數(shù)據(jù)上取得更好的表現(xiàn)。

啊！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？-AI.x社區(qū)

本文轉(zhuǎn)自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/nFltEWUts-8IM1z5GawlYw??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

DeepSeek-R1 + RooCline：極佳的強化學(xué)習(xí)AI編碼代理！對標(biāo)o1、蒸餾小模型本地部署

老蛀蟲 ? 3207瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
DeepSeek-AI 發(fā)布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 3394瀏覽 ? 0回復(fù)
OpenAI o3-mini 干翻了 DeepSeek R1？

PyTorch研習(xí)社 ? 1773瀏覽 ? 0回復(fù)
圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理

Baihai_IDP ? 4408瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動了全球 AI 圈

玄姐聊AGI ? 6531瀏覽 ? 1回復(fù)
OpenAI揭示o3的推理過程，以彌合與DeepSeek-R1的差距

51CTO內(nèi)容精選 ? 1662瀏覽 ? 0回復(fù)
大模型對決：DeepSeek R1與o3-mini

丟翅膀的魚 ? 1942瀏覽 ? 0回復(fù)
OpenAI將開源 o3-mini，或適合手機大模型

Aceryt ? 1603瀏覽 ? 0回復(fù)
Grok 3 與 DeepSeek-R1 是怎么學(xué)會思考的？

機器學(xué)習(xí)與數(shù)學(xué) ? 2894瀏覽 ? 0回復(fù)
沖，DeepSeek-R1/V3推理系統(tǒng)架構(gòu)設(shè)計被開源了！

PaperAgent ? 1725瀏覽 ? 0回復(fù)
在消費級硬件上微調(diào) DeepSeek-R1

AIGC前沿技術(shù)追蹤 ? 1669瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 2439瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實現(xiàn)方法思路

大模型自然語言處理 ? 1648瀏覽 ? 0回復(fù)
DeepSeek-R1關(guān)鍵創(chuàng)新技術(shù)再總結(jié)

大模型自然語言處理 ? 1510瀏覽 ? 0回復(fù)
Deepseek-R1，論文番外篇!

NLP前沿1 ? 929瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法

鴻煊的學(xué)習(xí)筆記 ? 1455瀏覽 ? 0回復(fù)
全面復(fù)現(xiàn)DeepSeek-R1-Zero 數(shù)學(xué)、代碼能力，訓(xùn)練步數(shù)僅需R1-Zero 1/10

快手技術(shù) ? 594瀏覽 ? 0回復(fù)
DianJin-R1：金融領(lǐng)域推理增強大模型，全面超越DeepSeek-R1

靈度智能 ? 320瀏覽 ? 0回復(fù)

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發(fā)布
全球首個AI CUDA工程師來了！將PyTorch原生實現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： DeepSeek R1不編程就能生成GPU內(nèi)核，比熟練工程師好，驚到了英偉達

下一篇：蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws

社區(qū)精華內(nèi)容

目錄

<strong id="bwq9h"></strong>

<nav id="bwq9h"></nav>

<cite id="bwq9h"><thead id="bwq9h"><legend id="bwq9h"></legend></thead></cite>

<blockquote id="bwq9h"></blockquote>