自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Transformer本可以深謀遠慮，但就是不做

輕薄滴假象

發(fā)布于 2024-4-22 09:35

瀏覽

0收藏

「別讓 Yann LeCun 看見了?！?/p>

Transformer本可以深謀遠慮，但就是不做-AI.x社區(qū)

Yann LeCun 表示太遲了，他已經(jīng)看到了。今天要介紹的這篇「LeCun 非要看」的論文探討的問題是：Transformer 是深謀遠慮的語言模型嗎？當它在某個位置執(zhí)行推理時，它會預先考慮后面的位置嗎？

這項研究得出的結(jié)論是：Transformer 有能力這樣做，但在實踐中不會這樣做。

我們都知道，人類會思而后言。數(shù)十年的語言學研究表明：人類在使用語言時，內(nèi)心會預測即將出現(xiàn)的語言輸入、詞或句子。

不同于人類，現(xiàn)在的語言模型在「說話」時會為每個 token 分配固定的計算量。那么我們不禁要問：語言模型會和人類一樣預先性地思考嗎？

近期的一些研究已經(jīng)表明：可以通過探查語言模型的隱藏狀態(tài)來預測下一 token 之后的更多 token。有趣的是，通過在模型隱藏狀態(tài)上使用線性探針，可以在一定程度上預測模型在未來 token 上的輸出，而干擾隱藏狀態(tài)則可以對未來輸出進行可預測的修改。

這些發(fā)現(xiàn)表明在給定時間步驟的模型激活至少在一定程度上可以預測未來輸出。

但是，我們還不清楚其原因：這只是數(shù)據(jù)的偶然屬性，還是因為模型會刻意為未來時間步驟準備信息（但這會影響模型在當前位置的性能）？

為了解答這一問題，近日科羅拉多大學博爾德分校和康奈爾大學的三位研究者發(fā)布了一篇題為《語言模型是否會規(guī)劃未來 token？》的論文。

Transformer本可以深謀遠慮，但就是不做-AI.x社區(qū)

論文標題：Do Language Models Plan for Future Tokens?

論文地址：https://arxiv.org/pdf/2404.00859.pdf

研究概覽

他們觀察到，在訓練期間的梯度既會為當前 token 位置的損失優(yōu)化權(quán)重，也會為該序列后面的 token 進行優(yōu)化。他們又進一步問：當前的 transformer 權(quán)重會以怎樣的比例為當前 token 和未來 token 分配資源？

他們考慮了兩種可能性：預緩存假設（pre-caching hypothesis）和面包屑假設（breadcrumbs hypothesis）。

Transformer本可以深謀遠慮，但就是不做-AI.x社區(qū)

預緩存假設是指 transformer 會在時間步驟 t 計算與當前時間步驟的推理任務無關(guān)但可能對未來時間步驟 t + τ 有用的特征，而面包屑假設是指與時間步驟 t 最相關(guān)的特征已經(jīng)等同于將在時間步驟 t + τ 最有用的特征。

為了評估哪種假設是正確的，該團隊提出了一種短視型訓練方案（myopic training scheme），該方案不會將當前位置的損失的梯度傳播給之前位置的隱藏狀態(tài)。

對上述假設和方案的數(shù)學定義和理論描述請參閱原論文。

實驗結(jié)果

為了了解語言模型是否可能直接實現(xiàn)預緩存，他們設計了一種合成場景，其中只能通過顯式的預緩存完成任務。他們配置了一種任務，其中模型必須為下一 token 預先計算信息，否則就無法在一次單向通過中準確計算出正確答案。

Transformer本可以深謀遠慮，但就是不做-AI.x社區(qū)

該團隊構(gòu)建的合成數(shù)據(jù)集定義。

在這個合成場景中，該團隊發(fā)現(xiàn)了明顯的證據(jù)可以說明 transformer 可以學習預緩存。當基于 transformer 的序列模型必須預計算信息來最小化損失時，它們就會這樣做。

之后，他們又探究了自然語言模型（預訓練的 GPT-2 變體）是會展現(xiàn)出面包屑假設還是會展現(xiàn)出預緩存假設。他們的短視型訓練方案實驗表明在這種設置中，預緩存出現(xiàn)的情況少得多，因此結(jié)果更偏向于面包屑假設。

Transformer本可以深謀遠慮，但就是不做-AI.x社區(qū)

基于 token 位置的原始 GPT-2 模型與短視型 GPT-2 模型的交叉熵損失及其差異。

Transformer本可以深謀遠慮，但就是不做-AI.x社區(qū)

GPT-2 通過原始和短視型訓練獲得的驗證交叉熵損失。

于是該團隊聲稱：在真實語言數(shù)據(jù)上，語言模型并不會在顯著程度上準備用于未來的信息。相反，它們是計算對預測下一個 token 有用的特征 —— 事實證明這對未來的步驟也很有用。

Transformer本可以深謀遠慮，但就是不做-AI.x社區(qū)

該團隊表示：「在語言數(shù)據(jù)中，我們觀察到貪婪地針對下一 token 損失進行優(yōu)化與確保未來預測性能之間并不存在顯著的權(quán)衡?！?/p>

因此我們大概可以看出來，Transformer 能否深謀遠慮的問題似乎本質(zhì)上是一個數(shù)據(jù)問題。

Transformer本可以深謀遠慮，但就是不做-AI.x社區(qū)

可以想象，也許未來我們能通過合適的數(shù)據(jù)整理方法讓語言模型具備人類一樣預先思考的能力。

本文轉(zhuǎn)自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/1kolCWSsFAp4e9MGG089vQ??

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

甲骨文寵兒力壓GPT-4斬獲競技場首勝，不綁定廠商，不做聊天機器人，Transformer最年輕作者帶飛大模型創(chuàng)業(yè)新

51CTO技術(shù)棧 ? 2369瀏覽 ? 0回復
人類偏好就是尺！SPPO對齊技術(shù)讓大語言模型左右互搏、自我博弈

輕薄滴假象 ? 2653瀏覽 ? 0回復
Bengio等人新作：注意力可被視為RNN，新模型媲美Transformer，但超級省內(nèi)存

輕薄滴假象 ? 2044瀏覽 ? 0回復
在圖像生成領(lǐng)域，自回歸可以打敗擴散模型嗎？

angel ? 3485瀏覽 ? 0回復
對話聊天就是生成式AI最好的交互形態(tài)嗎？不一定！

Syrupup ? 3224瀏覽 ? 0回復
FlashAttention3：“苗條”的就是比較好！

魯班模錘1 ? 2931瀏覽 ? 0回復
看完MindSearch源碼，這就是我想要的Agent Plan！

PaperAgent ? 2855瀏覽 ? 0回復
Sam Altman：5年后AGI會實現(xiàn)，但社會變化卻很小

Aceryt ? 2309瀏覽 ? 0回復
OpenAI離不開微軟，但Anthropic正在成為新寵

51CTO技術(shù)棧 ? 1750瀏覽 ? 0回復
AI大神Andrej Karpathy：OpenAI Operator預示著AI智能體的未來，但仍需突破！

草臺AI ? 1767瀏覽 ? 0回復
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來趨勢報告

歐米伽未來研究所 ? 6064瀏覽 ? 0回復
xLSTM：拳打Transformer，腳踢Mamba？！

魯班模錘1 ? 1814瀏覽 ? 0回復
推理模型+Multi-Agent，可能就是Deep Research的全貌！

探索AGI ? 1844瀏覽 ? 0回復
AI 的發(fā)展就是一部武林爭霸史

芝士AI吃魚 ? 2800瀏覽 ? 0回復
解鎖Transformer核心！一文吃透自注意力機制

人工智能訓練營 ? 2995瀏覽 ? 0回復
Vibe Coding 來了——但你準備好應對 Vibe 故障處理了嗎？

51CTO內(nèi)容精選 ? 1118瀏覽 ? 0回復
暴論：2025年，程序員必學技能就是 MCP

玄姐聊AGI ? 3055瀏覽 ? 0回復
專訪GMI Cloud創(chuàng)始人Alex Yeh：算力即未來，不做AI時代的旁觀者

51CTO技術(shù)棧 ? 819瀏覽 ? 0回復
GenAI 時代，數(shù)據(jù)唾手可得，但真正的挑戰(zhàn)已經(jīng)轉(zhuǎn)變...

Baihai_IDP ? 611瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發(fā)布
全球首個AI CUDA工程師來了！將PyTorch原生實現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： Llama 3超大杯有何驚喜？Meta會一直開源嗎？當初為何篤信元宇宙？扎克伯格新訪談回應一切

下一篇：大模型一定就比小模型好？谷歌的這項研究說不一定

社區(qū)精華內(nèi)容

目錄