自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="fdrur"><tfoot id="fdrur"></tfoot></sup><kbd id="fdrur"><rp id="fdrur"></rp></kbd>

<cite id="fdrur"></cite>

<blockquote id="fdrur"><i id="fdrur"><video id="fdrur"></video></i></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率

輕薄滴假象

發(fā)布于 2024-6-3 09:56

瀏覽

0收藏

自 2017 年被提出以來，Transformer 已成為 AI 大模型的主流架構(gòu)，一直穩(wěn)站 C 位。

但所有研究者都不得不承認(rèn)的是，Transformer 在算數(shù)任務(wù)中表現(xiàn)非常糟糕，尤其是加法，這一缺陷在很大程度上源于 Transformer 無法跟蹤大范圍數(shù)字中每個數(shù)字的確切位置。

為了解決這個問題，來自馬里蘭大學(xué)、CMU 等機(jī)構(gòu)的研究者向這一問題發(fā)起了挑戰(zhàn)，他們通過在每個數(shù)字中添加一個嵌入來解決這個問題，該嵌入編碼數(shù)字相對于開頭的位置。該研究發(fā)現(xiàn)，只用一天時間在單個 GPU 上訓(xùn)練 20 位數(shù)字，就可以達(dá)到最新的性能水平，100 位數(shù)字加法問題高達(dá) 99% 的準(zhǔn)確率。

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

論文地址：https://arxiv.org/pdf/2405.17399

項(xiàng)目地址：https://github.com/mcleish7/arithmetic

標(biāo)題：Transformers Can Do Arithmetic with the Right Embeddings

具體而言，研究者建議對數(shù)據(jù)表示進(jìn)行一個簡單的修改，就能解決這個缺點(diǎn)。他們提出了 Abacus 嵌入用于編碼每個數(shù)字符號 token 范圍內(nèi)的位置。將 Abacus 嵌入與標(biāo)準(zhǔn)位置嵌入結(jié)合使用后，該研究觀察到 Transformer 在算數(shù)任務(wù)上的準(zhǔn)確率有顯著提高，以至于最多只訓(xùn)練了 20 位數(shù)操作數(shù)的模型可以泛化到 120 位數(shù)操作數(shù)的問題。這一數(shù)字代表了 6 倍的 SOTA 泛化因子，而以前的最先進(jìn)的泛化因子也只有 2.5 倍。據(jù)了解，這是迄今為止被證明的最長的學(xué)習(xí)加法序列。

此外，本文還研究了幾種其他方法來改善 transformer 在算術(shù)和泛化方面的性能，他們發(fā)現(xiàn)結(jié)合輸入注入（input injection），即在輸入層和每個解碼器層之間插入跳躍連接，可以在 Abacus 嵌入基線上減少 50% 的泛化誤差。本文還發(fā)現(xiàn)，與嵌入結(jié)合使用的 looped transformer 架構(gòu)可以在加法問題上實(shí)現(xiàn)幾乎完美的泛化。

本文的貢獻(xiàn)可以總結(jié)如下：

本文提出了一種新的位置嵌入，稱為 Abacus 嵌入，以更好地捕獲每個數(shù)字的重要性，從而實(shí)現(xiàn)近乎完美的分布內(nèi)泛化；
研究表明，當(dāng)將 Abacus 嵌入與輸入注入和 looped transformer 相結(jié)合時，性能會進(jìn)一步提高，分布外準(zhǔn)確率從 92.9% 提高到 99.1%，與單獨(dú)使用標(biāo)準(zhǔn)架構(gòu)的嵌入相比，誤差降低了 87%；
研究者將這些發(fā)現(xiàn)擴(kuò)展到更復(fù)雜的問題，包括乘法和排序，在這些領(lǐng)域也展現(xiàn)出了長度泛化。

實(shí)現(xiàn)加法的長度泛化

作者研究了一系列方法，旨在提高從頭開始訓(xùn)練的語言模型在算術(shù)能力上的表現(xiàn)。他們主要關(guān)注兩個假設(shè)：1）數(shù)字內(nèi)各個位數(shù)的位置信息正在丟失；2）循環(huán)可以提高 Transformer 架構(gòu)在多步算術(shù)推理問題上的推理能力。在詳細(xì)描述每項(xiàng)改進(jìn)之前，作者簡要討論了訓(xùn)練和評估設(shè)置。

實(shí)驗(yàn)設(shè)置

作者訓(xùn)練了僅包含解碼器的因果語言模型來解決加法問題。

他們考慮了兩種標(biāo)準(zhǔn) transformer 架構(gòu)。首先，他們使用一個標(biāo)準(zhǔn)的自回歸 transformer 模型，多個解碼器層以前饋方式堆疊。其次，他們通過輸入注入（input injection）增強(qiáng)了這一標(biāo)準(zhǔn) transformer 模型，即把嵌入的輸入添加到每個解碼器層的輸入中。作者在圖 20 中直觀地描述了這些架構(gòu)。

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

Abacus 嵌入幫助對齊數(shù)字

通過之前的研究和初步實(shí)驗(yàn)，作者發(fā)現(xiàn)，即使輸入的數(shù)字是先顯示最不重要的數(shù)字，訓(xùn)練數(shù)據(jù)是分層的、豐富的（幾百萬個例子），標(biāo)準(zhǔn) transformer 也很難學(xué)習(xí)多位數(shù)加法。他們還觀察到，人類在進(jìn)行長加法運(yùn)算時，會先將數(shù)位相同的數(shù)字排列成列。因此，作者的第一個假設(shè)是，對于 transformer 來說，每個數(shù)字的數(shù)位并不容易表示，而且這個子問題比實(shí)際加法本身帶來的障礙更大。

為了解決 transformer 在表示位置信息方面的局限性，作者設(shè)計(jì)了一種特殊的位置嵌入，它可以編碼每個數(shù)字相對于當(dāng)前數(shù)字起始位置的位置。作者將其稱之為 Abacus 嵌入。他們將相同的位置嵌入應(yīng)用于所有具有相同數(shù)位的數(shù)字，從而提供一個顯式的信號，供模型用于對齊數(shù)字，如圖 2 所示。

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

Abacus 嵌入解決加法問題

對于標(biāo)準(zhǔn) transformer 架構(gòu)，Abacus 嵌入可將泛化性能提高到 100 位及以上。在圖 3（左）中，作者強(qiáng)調(diào)了 Abacus 嵌入與標(biāo)準(zhǔn) transformer 架構(gòu)和嵌入相比，在進(jìn)行加法運(yùn)算時所具有的比較優(yōu)勢，取三種模型在所有情況下的平均準(zhǔn)確度。

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

圖 1 還顯示了使用 FIRE 和 Abacus 訓(xùn)練的標(biāo)準(zhǔn) transformer 模型的準(zhǔn)確度結(jié)果，這些模型經(jīng)過了域內(nèi) (ID) 和域外 (OOD) 測試。

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

Transformer 中的循環(huán)提高了性能

在解決位置嵌入問題后，接下來作者探討了循環(huán)架構(gòu)能否進(jìn)一步提高 transformer 執(zhí)行多位數(shù)加法的能力。他們使用「循環(huán)塊（recurrent block）」一詞來指一組具有不同權(quán)重的解碼器層，而「循環(huán)（recurrence）」則指循環(huán)塊的重復(fù)次數(shù)。作者使用有效深度（effective depth）一詞來指 transformer 中使用的層數(shù)，無論其權(quán)重是否唯一。除非另有說明，否則他們使用的是最大循環(huán)架構(gòu)，即只循環(huán)一個唯一層來達(dá)到有效深度。他們還采用了輸入注入、殘差連接的方式，將輸入的副本傳播到網(wǎng)絡(luò)中的每一層。

循環(huán)的優(yōu)勢

在圖 3（右）中，作者比較了使用 FIRE 和 NoPE 嵌入對操作數(shù)多達(dá) 40 位的加法進(jìn)行訓(xùn)練的所有架構(gòu)變體。盡管參數(shù)數(shù)量僅相當(dāng)于其他模型的 1/10，但可以看到，looped transformer（循環(huán)的、有輸入注入和漸進(jìn)損失）在使用任何一種位置嵌入時都取得了最佳的分布外性能。在圖 8 中，作者展示了這一結(jié)果在多種訓(xùn)練數(shù)據(jù)規(guī)模下的穩(wěn)健性。

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

對于循環(huán)模型，可以選擇在訓(xùn)練時改變每次前向傳遞的循環(huán)次數(shù)。這往往會提高模型測試時對較難任務(wù)的泛化能力，這也被稱為漸進(jìn)損失計(jì)算（progressive loss computation）。這個損失函數(shù)是兩個前向傳遞的損失值的凸組合，一個使用字面上的循環(huán)數(shù)（1 × 16 模型為 16），另一個使用隨機(jī)的較小循環(huán)數(shù)。

接下來，作者探討了在保持有效深度固定的同時改變循環(huán)塊大小的效果。他們將循環(huán)塊中的層數(shù)減半，循環(huán)次數(shù)增加一倍，從塊中有 16 層、循環(huán)次數(shù)只有一次（16 × 1，即標(biāo)準(zhǔn) transformer）的模型，過渡到塊中只有一層、循環(huán)次數(shù)有 16 次（1 × 16）的模型。

通過圖 4 分析這些結(jié)果，作者發(fā)現(xiàn)在某些情況下，結(jié)合循環(huán)和 Abacus 嵌入可以進(jìn)一步提高性能。具體來說，在 OOD 問題上，有兩個循環(huán)的模型（8 × 2）產(chǎn)生的誤差是純非循環(huán)模型（16 × 1）的一半，而在 100 + 的 OOD 問題上，其準(zhǔn)確率也有所提高。

最后，在附錄 A.7.3 中，作者改變了模型的有效深度，以分析參數(shù)數(shù)量對這項(xiàng)任務(wù)的影響，包括 Abacus、FIRE 和 NoPE 嵌入。雖然圖 4 中的實(shí)驗(yàn)是對不同深度的公平比較，但純粹的標(biāo)準(zhǔn) transformer 模型比相應(yīng)的循環(huán)模型擁有更多的參數(shù)。在附錄的表 3 中，作者記錄了最接近百萬的參數(shù)量。

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

實(shí)驗(yàn)

研究者不僅對加法問題進(jìn)行了探討，還對乘法和排序進(jìn)行了研究。

整數(shù)乘法

圖 5 展示了 Abacus 嵌入模型在 15 位數(shù)乘法的分布內(nèi)準(zhǔn)確率超過了之前的工作，且不需要用零將每個操作數(shù)填充到相同長度。特別地，該研究強(qiáng)調(diào)，與僅使用 FIRE 的基線相比，將 Abacus 嵌入與 FIRE 相結(jié)合也提高了分布問題中最難的分布準(zhǔn)確率 (右下)。

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

數(shù)組排序

表 1 展示了使用不同嵌入 ——FIRE、Abacus 及其組合 —— 訓(xùn)練的標(biāo)準(zhǔn) transformer（八層）的性能。結(jié)果顯示，組合嵌入方法增強(qiáng)了模型的泛化能力。

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

如表 2 所示，研究者觀察到在將 Abacus+FIRE 嵌入組合與不同的模型架構(gòu)（有效深度為 8）配對時，結(jié)果表現(xiàn)出混合性。

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

Abacus 和相關(guān)嵌入

圖 6 展示了將 Abacus 嵌入整合到更通用系統(tǒng)中的真正潛力，顯示出 Abacus 嵌入與 FIRE 結(jié)合可以解鎖遠(yuǎn)超 FIRE 嵌入解決問題的能力。

單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率-AI.x社區(qū)

更多研究細(xì)節(jié)，請參考原論文。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/zHx_pMk6sHmIm-AJCS_sRA??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

AIGC在天貓商品海報生成上的探索

pangguiyu ? 4130瀏覽 ? 0回復(fù)
MIT等首次深度研究「集成LLM」預(yù)測能力：可媲美人類群體準(zhǔn)確率

duhorse ? 2232瀏覽 ? 0回復(fù)
單GPU實(shí)現(xiàn)LLM多LoRA微調(diào)

angel ? 3958瀏覽 ? 0回復(fù)
ChatGPT能預(yù)測未來特定事件，準(zhǔn)確率高達(dá)97%

Aceryt ? 2892瀏覽 ? 0回復(fù)
Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率

大語言模型論文跟蹤 ? 4422瀏覽 ? 0回復(fù)
DR-RAG：理想汽車最新RAG研究成果，準(zhǔn)確率和響應(yīng)時間遠(yuǎn)超其他RAG框架

大語言模型論文跟蹤 ? 3483瀏覽 ? 0回復(fù)
QOQA：利用TopK文檔進(jìn)行查詢改寫，平均提升RAG 1.6% 準(zhǔn)確率

大語言模型論文跟蹤 ? 2645瀏覽 ? 0回復(fù)
香港科技大學(xué)破解Transformer算術(shù)難題，乘法準(zhǔn)確率超99.9%

AI論文解讀 ? 2246瀏覽 ? 0回復(fù)
87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動評估模型FLAMe

duhorse ? 2004瀏覽 ? 0回復(fù)
相同的 LLM 在「不同 GPU 上」會產(chǎn)生不同輸出？為什么？

Baihai_IDP ? 3438瀏覽 ? 2回復(fù)
WordLlama：在消費(fèi)級GPU上奔跑的“瘦子”

魯班模錘1 ? 2414瀏覽 ? 0回復(fù)
社區(qū)專屬福利，100%中獎：免費(fèi)試用、快速上云

AI.x社區(qū)活動小助手 ? 4965瀏覽 ? 0回復(fù)
ChunkRAG：比CRAG提升10個點(diǎn)準(zhǔn)確率

大語言模型論文跟蹤 ? 2041瀏覽 ? 0回復(fù)
改個名字，數(shù)倍提升Function Calling準(zhǔn)確率！

ermulong ? 1995瀏覽 ? 0回復(fù)
怎么提升向量數(shù)據(jù)庫的召回準(zhǔn)確率

AI探索時代 ? 2262瀏覽 ? 0回復(fù)
在AutoDL上使用LLamaFactory進(jìn)行模型訓(xùn)練

一起AI技術(shù) ? 3800瀏覽 ? 0回復(fù)
Graph RAG 迎來記憶革命：“海馬體”機(jī)制如何提升準(zhǔn)確率？

凝固的雨_1 ? 1936瀏覽 ? 0回復(fù)
MES-RAG：準(zhǔn)確率提升 25%！

大語言模型論文跟蹤 ? 948瀏覽 ? 0回復(fù)
RAG 準(zhǔn)確率告急？金融大佬 Mike Conover 親授：構(gòu)建高保真知識智能體的實(shí)戰(zhàn)秘笈

凝固的雨_1 ? 1894瀏覽 ? 0回復(fù)

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開源3個項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發(fā)布
全球首個AI CUDA工程師來了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： 2D頭像生成3D虛擬人開視頻會，谷歌新作讓人難繃

下一篇：超長小說可以用AI翻譯了，新型多智能體協(xié)作系統(tǒng)媲美人工翻譯

社區(qū)精華內(nèi)容

目錄

<cite id="mcpve"></cite>

<cite id="mcpve"><rp id="mcpve"><center id="mcpve"></center></rp></cite>

<s id="mcpve"></s>

^{<blockquote id="mcpve"></blockquote>}

<blockquote id="mcpve"><p id="mcpve"></p></blockquote>