自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformer推理天花板被谷歌打破?DeepMind首席科學(xué)家亮出84頁PPT,卻遭LeCun反對

人工智能 新聞
隨OpenAI爆火的CoT,已經(jīng)引發(fā)了大佬間的激戰(zhàn)!谷歌DeepMind首席科學(xué)家Denny Zhou拿出一篇ICLR 2024論文稱:CoT可以讓Transformer推理無極限。但隨即他就遭到了田淵棟和LeCun等的質(zhì)疑。最終,CoT會是通往AGI的正確路徑嗎?

隨著OpenAI o1的爆火,最近CoT也成了圈內(nèi)熱議的高頻詞。

靠著CoT的強力加持,o1直接在LLM領(lǐng)域首次實現(xiàn)了通用復(fù)雜推理能力,儼然是AI發(fā)展新范式的開端。

許多人驚呼:莫非CoT就是通往AGI的正確路徑?

而且,o1這種慢思考模式不僅幫助LLM做數(shù)學(xué)和符號推理,甚至,還讓LLM發(fā)展出了類人情感!

最近,斯坦福等機構(gòu)學(xué)者發(fā)文證實:LLM在情感方面表現(xiàn)出的認(rèn)知和推理比人類還像人類,背后最大貢獻者竟然就是CoT。

圖片

就在這幾天,風(fēng)口浪尖上的CoT,又讓AI社區(qū)掀起了一場風(fēng)波。

谷歌DeepMind首席科學(xué)家稱LLM推理無極限,LeCun田淵棟回懟

CoT爆火之后,谷歌DeepMind首席科學(xué)家Denny Zhou拿出了自己團隊八月份的一篇論文,拋出了這樣的觀點:「LLM推理能力的極限是什么?那就是沒有限制」。

他表示,谷歌團隊已經(jīng)用數(shù)學(xué)方法證明,Transformer可以解決任何問題,只要允許它們根據(jù)需要生成任意數(shù)量的中間推理token。

圖片

可以看出,Denny Zhou等人提出的中間推理token,跟o1的核心技術(shù)CoT非常相似。

傳統(tǒng)的Transformer模型的致命弱點,就是擅長并行計算,但不擅長串行推理。

而CoT,恰恰解決了這個問題。

在這項工作中,Denny Zhou等人發(fā)現(xiàn):傳統(tǒng)的Transformer模型,只能解決AC0電路能解決的問題;但一旦加入CoT,Transformer幾乎可以解決任何問題。

圖片

只要CoT步驟足夠多,Transformer就能模擬任意大小的布爾電路,解決P/poly問題

也就是說,可以用數(shù)學(xué)嚴(yán)格證明,CoT可以讓Transformer解決幾乎所有能用計算機解決的問題。

圖片

利用CoT,可以模擬布爾電路中每個邏輯門的計算

這項工作暗示著,CoT為更強大的LLM推理提供了新的思路,CoT或?qū)⒊蔀槲磥鞮LM發(fā)展的重要方向,而且很可能閃爍著AGI的火花。

Denny Zhou發(fā)帖后,立即引發(fā)了AI社區(qū)的熱議。

多位研究者下場討論,也驚動了其他大佬。

這不,就在剛剛,田淵棟和LeCun依次發(fā)表意見,回懟了Denny Zhou。

在他們看來,CoT的作用,被遠(yuǎn)遠(yuǎn)夸大了。

圖片

田淵棟表示,雖然CoT的確很有用,但Denny Zhou等人對其過于盲目追捧了,顯然,CoT并不是我們所需要的一切。

在這篇論文中提到的是一種通用理論,可以通過顯式構(gòu)建Transformer權(quán)重,讓其更好地適應(yīng)特定任務(wù)。

然而這樣,CoT的長度就會很長,這樣的權(quán)重配置,能否通過梯度下降來學(xué)習(xí)呢?

理論上,2層多層感知器是可以擬合任何數(shù)據(jù)的,那我們就該相信它可以應(yīng)用在所有場景中嗎?

人類的推練鏈?zhǔn)鞘趾啙嵉?,面對從未見過的問題,也能捕捉關(guān)鍵因素。但LLM可以嗎?

如何在瞬間就學(xué)習(xí)或構(gòu)建出這樣的表征,是很令人著迷的。

田淵棟的帖子一發(fā)出,立刻就獲得了LeCun的支持。

圖片

LeCun表示,自己本來也想發(fā)表類似的言論,不巧被田淵棟搶先了。

「2層網(wǎng)絡(luò)和核機器可以無限逼近任何函數(shù),達到我們想要的精度,所以我們不需要深度學(xué)習(xí)?!?/span>

從1995年到2010年,LeCun聽到這個說法無數(shù)遍了。

當(dāng)然,這個操作理論上是可行的。但如果真的在實踐中應(yīng)用所有相關(guān)的函數(shù),光是第一層中的神經(jīng)元數(shù)量就會多到不可思議。

對此,網(wǎng)友的評價是:收斂和等價證明被高估了,高效的學(xué)習(xí)策略被低估了,就是這樣。

「我很高興Python的存在,盡管Pascal是圖靈完備的?!?/span>

圖片

一位從業(yè)者表示,自己的研究是從一個隱藏層MLP判別式開始,然后就是CNN或Deep NN等專業(yè)模型。

他的判斷是:較小的模型更穩(wěn)健、更可解釋,而且通常很接近,但永遠(yuǎn)不會那么好。而使用更深層次的模型,總是會有額外的百分比。

很多人是「挺CoT派」的。比如有人表示理解LeCun的觀點,但在多維擴展場景中,CoT絕對大有潛力。

圖片

而對于LeCun所擔(dān)心的問題,有網(wǎng)友表示,LeCun在采用一種自上而下的策略,在這種情況下他必須控制所有的第一層輸入,但其實,他并不需要。

圖片

因為,CoT通過創(chuàng)建了新的臨時層,讓人放棄了對這種控制的幻想。其解決方案就是,通過網(wǎng)絡(luò)層的一般形式,來逼近注意力頭本身。

有趣的是,該網(wǎng)友表示,自己的靈感來源是《物理學(xué)》上的一封信,表明量子全息拓?fù)淠芨行У貪M足這一點。

即使愛因斯坦-羅森橋的邊界相當(dāng)大,它可以更連續(xù)地離散表示為無數(shù)不同的小層,橫跨所產(chǎn)生的平坦空間。這,就是表征的力量所在。

圖片

有人表示,這個討論沒什么意思,本質(zhì)上不過是「無限猴子定理」罷了。

讓一只猴子在打字機上隨機按鍵,當(dāng)按鍵時間達到無窮時,幾乎必然能打出任何給定文字,比如莎士比亞全集。

圖片

圖片

田淵棟:可以發(fā)展,但更復(fù)雜

最終,田淵棟也承認(rèn),谷歌這篇論文的思路的確有可取之處。然而由于涉及到不同的數(shù)據(jù)分布、模型架構(gòu)、學(xué)習(xí)算法、后處理等等,問題還要更復(fù)雜。

正如Evolutionary Scale聯(lián)創(chuàng)Zeming Lin所言:我們需要像喬姆斯基層次結(jié)構(gòu)這樣的機器學(xué)習(xí)模型。就像ML模型有NP、P、O(n^2) 等概念一樣,Transformer或Mamba屬于哪里呢?

圖片

而在田淵棟發(fā)帖的第二天,谷歌論文主要作者馬騰宇也上線評論說:CoT的長度是可以超長的。

2層MLP中的神經(jīng)元數(shù)量呈指數(shù)級,才能逼近幾乎任何函數(shù)。

圖片

田淵棟回復(fù)他說:對那些可能需要指數(shù)數(shù)量的門的問題,CoT的長度可以很長。

這和2層MLP情況是一致的,因為無論擬合任意函數(shù),都需要覆蓋高維空間中的所有角,這是最壞的情況。

然而,現(xiàn)實世界的問題,是否有如此良好/簡潔的表征呢?如果它們都像NC1一樣,屬于P問題,那么當(dāng)然可以通過構(gòu)建Transformer的權(quán)重來做到。

圖片

在最近一條X帖子中,田淵棟表示,自己的想法是,能夠找到更短的CoT,同時使用專家迭代(窮人的RL)來保持最佳結(jié)果。

圖片

從公開信息來看,他推斷o1也是在做類似的事情。至于初始化過程,可能是使用了大量高質(zhì)量的人類推理鏈。

人類是如何想出簡潔的CoT呢,這就不為人所知了。

趁此機會,他還宣傳了一下自己團隊Searchformer的論文。

圖片

論文地址:https://arxiv.org/abs/2402.14083

總之,雖然我們還不知道如何拓展2層神經(jīng)網(wǎng)絡(luò),但OpenAI似乎確信自己已經(jīng)掌握了拓展CoT的秘訣。

圖片

最新講座:揭示LLM推理的關(guān)鍵思想和局限

目前,這場空前熱烈的討論還在繼續(xù)。

而關(guān)于LLM推理,Denny Zhou最近在UC伯克利也進行了一場類似主題的講座。

圖片

圖片

他表示,自己對AI的期待是可以像人類一樣從較少的示例中進行學(xué)習(xí)。

圖片

但曾經(jīng)嘗試的種種機器學(xué)習(xí)方法之所以都不成功,是因為模型缺失了一種重要能力——推理。

圖片

人類之所以能從較少的示例中學(xué)習(xí)到抽象的規(guī)律和原理,就是因為推理能力。正如愛因斯坦所說的,「Make things as simple as possible but not simpler」。(一切都應(yīng)該盡可能簡單,但不能過于簡單)

比如,對于下面這個問題:

圖片

對人類而言,這是一道小學(xué)水平的「找規(guī)律」。

但機器學(xué)習(xí)需要海量的標(biāo)注數(shù)據(jù)才能找出其中的規(guī)律。

圖片

而LLM的少樣本學(xué)習(xí)更是難以解決。

圖片

但如果在數(shù)據(jù)中加入「推理過程」,LLM就很容易有樣學(xué)樣,學(xué)習(xí)到少量樣本示例中展現(xiàn)出的規(guī)律,并給出正確答案。

圖片

通過這個簡單的例子,Denny Zhou指出,關(guān)鍵想法是在數(shù)據(jù)中包含中間步驟,或者是解釋原理(rationale),同時讓模型寫出推導(dǎo)過程。

這就是使用CoT背后的邏輯和直覺。

「中間步驟」,為何如此重要

DeepMind的研究者們,率先使用自然語言原理去解決數(shù)學(xué)問題。

關(guān)鍵就在于從頭開始訓(xùn)練了一個序列到序列模型,從而通過一系列小步驟得出最終答案。

圖片

繼這項工作后,OpenAI的研究者們建立了一個更大的數(shù)學(xué)單詞問題數(shù)據(jù)集(GSM8K),其中包含自然語言基本原理,并利用它對GPT-3進行了微調(diào)。

圖片

這樣,語言模型的中間計算步驟,就被展示了出來。

圖片

o1模型的奠基性貢獻者之一Jason Wei在谷歌大腦工作時曾和Denny Zhou發(fā)表了一篇論文,指出CoT提示可以引導(dǎo)出LLM的推理能力。

圖片

Denny Zhou甚至更直白地指出樣本「中間步驟」的重要性:無論是訓(xùn)練、微調(diào)還是提示,都需要給出中間步驟,才能讓LLM在響應(yīng)中也包含中間步驟。

圖片

實際上,這也是Denny Zhou、馬騰宇最近論文的核心觀點。如果能生成足夠長的中間推理步驟,常數(shù)深度的Transformer模型也能解決任何串行問題。

圖片

CoT并不是一切

但是,這也并不意味著CoT可以包打一切,解決LLM推理的所有缺陷。

比如,模型很容易被無關(guān)的上下文干擾,這一點和人類思維也很類似。

實驗中發(fā)現(xiàn),在GSM8K數(shù)據(jù)集中添加無關(guān)上下文,可以導(dǎo)致模型性能出現(xiàn)高達20+百分點的損失。

圖片

此外,LLM的自我糾正能力也并不健全。

雖然有些模型在反思后可以成功修改錯誤答案,但也存在另一種風(fēng)險——可能反而把正確答案改錯。

圖片

那么,LLM的下一步應(yīng)該往何處去?

Denny Zhou指出,雖然我們已經(jīng)知道了模型推理有哪些缺陷和不足,但最重要的還是定義好問題,再從第一性原理出發(fā)去解決。

圖片

此處,再引用一句愛因斯坦的話:「如果有1小時用來拯救星球,我會花59分鐘來定義問題,然后用1分鐘解決它。」

一些質(zhì)疑

雖然Denny Zhou的演講內(nèi)容相當(dāng)詳實,但「CoT實現(xiàn)推理無極限」的論斷確實相當(dāng)大膽,因此也引起了網(wǎng)友的反駁。

比如有人指出,前提中所謂的「無限多token」只是在理論上可行,在實踐中未必如此。

token數(shù)量很有可能隨輸入增加呈現(xiàn)指數(shù)增長,問題變得越來越復(fù)雜時,token數(shù)量逼近無限,你要怎么處理?

圖片

而且,LLM推理和人類還存在本質(zhì)差異。AI目前只能進行暴力搜索(brute-force),但人類有所謂的「啟發(fā)式」思考,「直覺」讓我們能將數(shù)百萬種可能性快速縮減至幾種可行的解決方案。

圖片

如果想達到AGI,AI系統(tǒng)就需要模擬出這種高效的問題解決路徑。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-11 09:15:00

AI模型訓(xùn)練

2025-01-02 14:03:04

2019-10-18 15:07:14

數(shù)據(jù)科學(xué)職業(yè)生涯萬努克

2022-01-17 17:34:38

人工智能機器學(xué)習(xí)技術(shù)

2021-05-31 08:13:39

亞馬遜職場面試

2020-06-24 14:10:40

人臉識別人工智能數(shù)據(jù)

2016-12-29 17:43:58

GrubMarket

2024-11-27 14:35:00

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2021-12-20 07:03:54

秒殺系統(tǒng)擴容

2012-12-06 15:36:55

CIO

2017-06-29 15:53:43

5Gsdnnfv

2024-11-11 15:05:44

2019-01-17 05:14:07

深度學(xué)習(xí)人工智能AI

2023-03-09 13:56:00

商業(yè)分析模型Revnue

2009-03-27 09:09:03

GoogleAndroid移動OS

2023-12-23 23:23:37

2015-08-27 09:16:53

2024-08-23 11:53:24

2022-08-03 12:01:10

DeepMindAIVinyals
點贊
收藏

51CTO技術(shù)棧公眾號