自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="11kjw"><strike id="11kjw"><input id="11kjw"></input></strike></pre>

<sub id="11kjw"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

超越GPT-4！香港科技大學(xué)破解Transformer算術(shù)難題，乘法準(zhǔn)確率超99.9% 精華

發(fā)布于 2024-7-31 01:02

瀏覽

0收藏

超越GPT-4！香港科技大學(xué)破解Transformer算術(shù)難題，乘法準(zhǔn)確率超99.9%-AI.x社區(qū)

探索Transformer在算術(shù)問題中的局限性

在近年來的自然語言處理領(lǐng)域，基于Transformer的大型語言模型（LLMs）取得了顯著的成就。然而，當(dāng)這些模型被應(yīng)用到看似簡單的算術(shù)問題上時，它們常常表現(xiàn)出意外的掙扎，尤其是在處理基本的整數(shù)乘法任務(wù)時。例如，盡管GPT-4等現(xiàn)代LLM在多種任務(wù)中表現(xiàn)出色，但在執(zhí)行簡單的整數(shù)乘法時卻遇到了困難。這種明顯的能力差異引發(fā)了人們對于這些模型安全和倫理使用的擔(dān)憂，并阻礙了它們的廣泛應(yīng)用。

本文旨在通過探索和解釋Transformer在整數(shù)乘法任務(wù)中的不足，來深入理解這些模型在算術(shù)問題上的局限性。我們通過對一個標(biāo)準(zhǔn)Transformer模型在n位整數(shù)乘法任務(wù)中的表現(xiàn)進行全面分析，揭示了模型在處理連續(xù)進位和緩存中間結(jié)果時的困難，并通過實驗驗證了這些推論。基于這些發(fā)現(xiàn)，我們提出了改進措施，以提升Transformer在乘法任務(wù)上的性能。這些改進不僅增強了模型的解釋性，還通過嚴(yán)格的測試和數(shù)學(xué)建模得到了驗證，例如，在5位整數(shù)乘法任務(wù)上，我們實現(xiàn)了超過99.9%的準(zhǔn)確率，超過了GPT-4等大型語言模型。

論文標(biāo)題：Dissecting Multiplication in Transformers: Insights into LLMs

機構(gòu)：

Hong Kong University of Science and Technology
Hong Kong Polytechnic University

論文鏈接：??https://arxiv.org/pdf/2407.15360.pdf??

通過本研究，我們不僅提升了對Transformer模型在處理復(fù)雜算術(shù)任務(wù)中的理解，也為AI的安全性和可靠性研究提供了新的視角和方法論，推動了可解釋AI（XAI）的發(fā)展，幫助構(gòu)建了對大型語言模型的信任，并促進了它們在關(guān)鍵應(yīng)用中的采用。

超越GPT-4！香港科技大學(xué)破解Transformer算術(shù)難題，乘法準(zhǔn)確率超99.9%-AI.x社區(qū)

Transformer模型在算術(shù)任務(wù)中的表現(xiàn)

Transformer模型在自然語言處理任務(wù)中取得了顯著的成就，但在算術(shù)任務(wù)，尤其是整數(shù)乘法方面，它們的表現(xiàn)卻常常不盡人意。盡管Transformer擁有龐大的模型能力，它在處理簡單的整數(shù)乘法任務(wù)時卻表現(xiàn)出明顯的挑戰(zhàn)。這種能力的不對等引起了人們對其安全和道德使用的關(guān)注，并阻礙了其廣泛的應(yīng)用。

在本文中，我們專注于整數(shù)乘法任務(wù)，探索和解釋Transformer在這一領(lǐng)域的不完美表現(xiàn)。我們對一個基本的Transformer模型進行了全面分析，該模型被訓(xùn)練用于執(zhí)行n位整數(shù)乘法。我們的觀察表明，模型將乘法任務(wù)分解為多個并行的子任務(wù)，每個子任務(wù)針對每個數(shù)字順序優(yōu)化，以完成最終的乘法計算。

基礎(chǔ)乘法分析：單位數(shù)乘法

在對Transformer在m×u（多位數(shù)乘以單位數(shù)）乘法任務(wù)的表現(xiàn)進行分析時，我們發(fā)現(xiàn)Transformer利用幾個基本子任務(wù)來完成乘法計算。這些子任務(wù)包括：

基本乘法（BM）：BM計算兩個單個數(shù)字在每個位置的乘積。根據(jù)是否產(chǎn)生進位到下一個位置，BM可以分為BM（帶進位）和BM（不帶進位）。

使用進位（UC）：UC考慮前一個數(shù)字的進位，并將進位加到當(dāng)前位置的乘積上。

基于上述基本子任務(wù)，Transformer可以將多個子任務(wù)鏈接在一起，實現(xiàn)復(fù)雜的功能，例如使用進位和進一步進位（UCFC），考慮來自前一列的進位，并進一步產(chǎn)生到下一列的進位。

總體分析

我們首先調(diào)查Transformer如何學(xué)習(xí)每個子任務(wù)。通過觀察每個數(shù)字的訓(xùn)練損失，我們發(fā)現(xiàn)Transformer似乎是半獨立地學(xué)習(xí)每個答案數(shù)字的。單位數(shù)字（A0）和最高位數(shù)字（A5）的學(xué)習(xí)速度比其他數(shù)字快，且噪聲更少。這是因為A0的計算不需要考慮進位，從而簡化了計算過程。與A0相比，A5的計算只需要考慮進位。

每個任務(wù)的分析

我們進一步分析每個子任務(wù)的訓(xùn)練數(shù)據(jù)，將訓(xùn)練數(shù)據(jù)分為與每個子任務(wù)對應(yīng)的不重疊子集，并分別展示每個子任務(wù)的每個數(shù)字的損失曲線。從BM（不帶進位）和BM（帶進位）的訓(xùn)練曲線可以看出，所有任務(wù)開始時損失都很高。隨著訓(xùn)練的進行，所有損失曲線都有所下降，但不同任務(wù)之間存在“時間滯后”。BM（不帶進位）的損失下降最快，這是因為它是所有其他任務(wù)的基礎(chǔ)，必須先準(zhǔn)確計算才能進行后續(xù)計算。BM（帶進位）和進位損失的下降速度是第二快的，這兩個子任務(wù)是互補的計算，它們的收斂表明模型能夠準(zhǔn)確計算進位。UC的損失在訓(xùn)練初期表現(xiàn)出顯著的平臺期，這符合我們的預(yù)期，即UC子任務(wù)需要準(zhǔn)確計算進位，因此UC的損失只有在進位任務(wù)收斂后才能下降。UCFC的損失下降最晚，因為UCFC的計算跨越3個數(shù)字，即當(dāng)前數(shù)字的乘積、前一個數(shù)字的進位和向下一個數(shù)字的進位，因此其收斂發(fā)生在所有其他損失收斂之后。

從這些分析中，我們可以看出，盡管Transformer在處理簡單的單位數(shù)乘法任務(wù)時表現(xiàn)出一定的能力，但在更復(fù)雜的多位數(shù)乘法任務(wù)中，其性能急劇下降，顯示出明顯的不足。這些發(fā)現(xiàn)為理解和改進Transformer模型在算術(shù)任務(wù)中的表現(xiàn)提供了寶貴的見解。

多位數(shù)乘法的深入分析

在探討多位數(shù)乘法的處理中，我們發(fā)現(xiàn)轉(zhuǎn)換器（transformer）在執(zhí)行這一任務(wù)時會將其分解為多個子任務(wù)，并行計算。這些子任務(wù)包括基本的數(shù)字乘法（Base Multiply, BM），使用進位（Use Carry, UC），以及進一步的進位處理（Further Carry, UCFC）。通過對這些子任務(wù)的深入分析，我們可以更好地理解轉(zhuǎn)換器在處理多位數(shù)乘法時的行為模式及其局限性。

基本乘法和進位處理

在多位數(shù)乘法中，轉(zhuǎn)換器首先處理基本的數(shù)字乘法，即單個數(shù)字間的乘法。這一步驟相對簡單，但關(guān)鍵在于如何處理和傳遞進位。例如，在乘法??47134 × 9??中，每一位數(shù)字與9相乘后的結(jié)果需要考慮前一位的進位，這增加了計算的復(fù)雜性。轉(zhuǎn)換器在這一過程中展示了分階段學(xué)習(xí)的特點，即先學(xué)習(xí)無需進位的乘法，然后逐漸學(xué)習(xí)如何處理進位。

子任務(wù)的學(xué)習(xí)順序

通過觀察損失曲線，我們發(fā)現(xiàn)轉(zhuǎn)換器在學(xué)習(xí)各個子任務(wù)時存在順序性。基本的乘法（BM）通常是最先被學(xué)習(xí)的，因為它是其他計算的基礎(chǔ)。隨后，轉(zhuǎn)換器學(xué)習(xí)如何處理進位（UC），最后是更復(fù)雜的進位傳遞（UCFC）。這種學(xué)習(xí)順序反映了任務(wù)的內(nèi)在復(fù)雜性和依賴關(guān)系。

提出改進措施

基于上述分析，我們提出以下幾點改進措施，以增強轉(zhuǎn)換器在多位數(shù)乘法任務(wù)上的表現(xiàn)：

1. 反轉(zhuǎn)答案數(shù)字

研究表明，將答案數(shù)字反轉(zhuǎn)（即從低位到高位進行計算）可以顯著提高模型的準(zhǔn)確率。這種方法模仿了人類計算乘法的習(xí)慣，從而使得模型能夠更有效地利用已生成的低位數(shù)字來預(yù)測高位數(shù)字。

2. 增加模型深度

多位數(shù)乘法涉及復(fù)雜的中間步驟和多層次的計算，增加模型的深度可以提供更多的層次來處理這些中間結(jié)果，從而提高準(zhǔn)確性。實驗表明，增加深度能夠顯著提升模型在處理多位數(shù)乘法時的表現(xiàn)。

3. 增加簡單樣本的比例

在訓(xùn)練初期增加簡單樣本（如單一位數(shù)乘法）的比例，可以幫助模型在學(xué)習(xí)更復(fù)雜的多位數(shù)乘法前，先掌握基本的乘法規(guī)則。這種漸進式學(xué)習(xí)策略可以減少學(xué)習(xí)難度，提高模型的整體性能。

通過實施這些改進措施，我們能夠顯著提高轉(zhuǎn)換器在多位數(shù)乘法任務(wù)上的準(zhǔn)確率和效率，從而推動其在更廣泛的應(yīng)用場景中的部署和使用。

超越GPT-4！香港科技大學(xué)破解Transformer算術(shù)難題，乘法準(zhǔn)確率超99.9%-AI.x社區(qū)

實驗驗證與結(jié)果分析

1. 實驗設(shè)計與方法

超越GPT-4！香港科技大學(xué)破解Transformer算術(shù)難題，乘法準(zhǔn)確率超99.9%-AI.x社區(qū)

本研究通過實驗驗證了Transformer在整數(shù)乘法任務(wù)上的性能。我們首先使用單層解碼器僅Transformer模型在m × u（多位數(shù)乘以單位數(shù)）乘法任務(wù)上進行訓(xùn)練，并逐步擴展到多層Transformer模型在m × m（多位數(shù)乘以多位數(shù)）乘法任務(wù)上的訓(xùn)練。實驗中，每個數(shù)字在訓(xùn)練數(shù)據(jù)中獨立采樣自均勻分布{0,1,...,9}。我們使用Adam優(yōu)化器，學(xué)習(xí)率設(shè)置為1e-4。

2. 實驗結(jié)果

實驗結(jié)果顯示，在m × u乘法任務(wù)上，Transformer模型能夠通過學(xué)習(xí)不同的子任務(wù)（如基礎(chǔ)乘法、使用進位等）逐步提高預(yù)測的準(zhǔn)確性。然而，在擴展到更復(fù)雜的m × m乘法任務(wù)時，模型的準(zhǔn)確率顯著下降。這表明單層Transformer模型在處理包含多個中間步驟的復(fù)雜任務(wù)時存在局限性。

3. 結(jié)果分析

通過對不同子任務(wù)的訓(xùn)練損失進行分析（如圖2所示），我們觀察到不同子任務(wù)的學(xué)習(xí)速度存在顯著差異?；A(chǔ)乘法（BM）任務(wù)的損失下降最快，而涉及多個計算步驟的子任務(wù)（如使用進位和進一步進位的計算）的損失下降較慢。這些觀察結(jié)果支持了我們的假設(shè)，即Transformer在處理復(fù)雜的算術(shù)任務(wù)時，其性能受限于對中間計算結(jié)果的處理能力。

超越GPT-4！香港科技大學(xué)破解Transformer算術(shù)難題，乘法準(zhǔn)確率超99.9%-AI.x社區(qū) 本文轉(zhuǎn)載自???AI論文解讀??

標(biāo)簽

乘法準(zhǔn)確率

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

超越GPT-4，斯坦福團隊手機可跑的大模型火了，一夜下載量超2k

輕薄滴假象 ? 3135瀏覽 ? 0回復(fù)
超越GPT-4！最強大模型 Claude 3 完全解讀

開發(fā)者阿橙 ? 5733瀏覽 ? 0回復(fù)
ChatGPT能預(yù)測未來特定事件，準(zhǔn)確率高達(dá)97%

Aceryt ? 2892瀏覽 ? 0回復(fù)
蘋果推出理解、轉(zhuǎn)化模型ReALM，性能超GPT-4

Aceryt ? 2590瀏覽 ? 0回復(fù)
單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率

輕薄滴假象 ? 2230瀏覽 ? 0回復(fù)
Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率

大語言模型論文跟蹤 ? 4422瀏覽 ? 0回復(fù)
DR-RAG：理想汽車最新RAG研究成果，準(zhǔn)確率和響應(yīng)時間遠(yuǎn)超其他RAG框架

大語言模型論文跟蹤 ? 3481瀏覽 ? 0回復(fù)
GPT-4o攻破ARC-AGI無法被挑戰(zhàn)的神話！71%準(zhǔn)確率成新SOTA

angel ? 2143瀏覽 ? 0回復(fù)
QOQA：利用TopK文檔進行查詢改寫，平均提升RAG 1.6% 準(zhǔn)確率

大語言模型論文跟蹤 ? 2641瀏覽 ? 0回復(fù)
87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動評估模型FLAMe

duhorse ? 2004瀏覽 ? 0回復(fù)
超越文本，GPT-4在虹膜生物識別的創(chuàng)新應(yīng)用

Aceryt ? 2064瀏覽 ? 0回復(fù)
超越GPT-4！LoRA技術(shù)引領(lǐng)大型語言模型新革命

AI論文解讀 ? 2862瀏覽 ? 0回復(fù)
ChunkRAG：比CRAG提升10個點準(zhǔn)確率

大語言模型論文跟蹤 ? 2041瀏覽 ? 0回復(fù)
改個名字，數(shù)倍提升Function Calling準(zhǔn)確率！

ermulong ? 1989瀏覽 ? 0回復(fù)
怎么提升向量數(shù)據(jù)庫的召回準(zhǔn)確率

AI探索時代 ? 2259瀏覽 ? 0回復(fù)
Graph RAG 迎來記憶革命：“海馬體”機制如何提升準(zhǔn)確率？

凝固的雨_1 ? 1934瀏覽 ? 0回復(fù)
MES-RAG：準(zhǔn)確率提升 25%！

大語言模型論文跟蹤 ? 948瀏覽 ? 0回復(fù)
RAG 準(zhǔn)確率告急？金融大佬 Mike Conover 親授：構(gòu)建高保真知識智能體的實戰(zhàn)秘笈

凝固的雨_1 ? 1894瀏覽 ? 0回復(fù)
香港科技大學(xué)聯(lián)合DeepSeek-AI推出CODEI/O：讓AI學(xué)會“濃縮”推理模式

arnoldzhw ? 594瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

深度剖析：為何擴散模型會成為語言模型的未來？ 2025-03-14 07:45:15發(fā)布
一文讀懂 RAG-Gym：用過程監(jiān)督優(yōu)化推理與搜索智能體 2025-03-04 10:43:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：中科大提出UniMEL框架 | 革新知識圖譜，引領(lǐng)多模態(tài)實體鏈接新紀(jì)元

下一篇：遺忘"大腦？香港中文大學(xué)提出新算法MoFO助力AI記住預(yù)訓(xùn)練知識！

社區(qū)精華內(nèi)容

目錄

<sub id="7tunt"></sub>