自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Ilya Sutskever在NeurIPS炸裂宣判:預訓練將結束,數(shù)據(jù)壓榨到頭了

人工智能
本周五,OpenAI 的前首席科學家 Ilya Sutskever 在全球 AI 頂會上表示:「我們能獲得的數(shù)據(jù)已經(jīng)到頭,不會再有更多了?!?

「推理是不可預測的,所以我們必須從令人難以置信的,不可預測的 AI 系統(tǒng)開始?!?/p>

Ilya 終于現(xiàn)身了,而且一上來就有驚人之語。

本周五,OpenAI 的前首席科學家 Ilya Sutskever 在全球 AI 頂會上表示:「我們能獲得的數(shù)據(jù)已經(jīng)到頭,不會再有更多了。」

圖片

OpenAI 的聯(lián)合創(chuàng)始人兼前首席科學家 Ilya Sutskever 今年 5 月離開公司,創(chuàng)辦了自己的人工智能實驗室 Safe Superintelligence,成為頭條新聞。自離開 OpenAI 后他一直遠離媒體,但本周五在溫哥華舉行的神經(jīng)信息處理系統(tǒng)會議 NeurIPS 2024 上,他罕見地公開露面了。

圖片

「我們所熟悉的預訓練無疑會結束,」Sutskever 在臺上說。

在人工智能領域里,BERT 、GPT 等大規(guī)模預訓練模型(Pre-Training Model)近年來取得了巨大成功,已經(jīng)成為技術進步道路上的一個里程碑。

由于復雜的預訓練目標和巨大的模型參數(shù),大規(guī)模預訓練可以有效地從大量標記和未標記的數(shù)據(jù)中獲取知識。通過將知識存儲到巨大的參數(shù)中并對特定任務進行微調(diào),巨大參數(shù)中隱式編碼的豐富知識可以使各種下游任務受益。現(xiàn)在 AI 社區(qū)的共識是采用預訓練作為下游任務的主干,而不是從頭開始學習模型。

圖片

然而,在他的 NeurIPS 演講中,Ilya Sutskever 表示,盡管現(xiàn)有數(shù)據(jù)仍能推動人工智能的發(fā)展,但這個行業(yè)里稱得上可用的新數(shù)據(jù)上已經(jīng)接近枯竭。他指出,這一趨勢最終將迫使行業(yè)改變當前的模型訓練方式。

Sutskever 將這一狀況比作化石燃料的消耗:正如石油是有限資源一樣,互聯(lián)網(wǎng)中由人類生成的內(nèi)容也是有限的。

「我們已經(jīng)達到了數(shù)據(jù)的峰值,未來不會再有更多數(shù)據(jù),」Sutskever 說道?!肝覀儽仨毨矛F(xiàn)有的數(shù)據(jù),因為互聯(lián)網(wǎng)只有一個?!?/span>

Sutskever 預測,下一代模型將會「以真正的方式表現(xiàn)出自主性」。另一方面,智能體(Agent)已成為 AI 領域的熱詞。

除了具有「自主性」,他還提到未來的系統(tǒng)將具備推理能力。與當今的 AI 主要依賴的模式匹配(基于模型以前見過的內(nèi)容)不同,未來的 AI 系統(tǒng)將能夠以類似于「思考」的方式逐步解決問題。

Sutskever 表示,系統(tǒng)的推理能力越強,其行為就越「不可預測」。他將「真正具備推理能力的系統(tǒng)」的不可預測性與高級 AI 在國際象棋中的表現(xiàn)進行了比較 ——「即使是最優(yōu)秀的人類棋手也無法預測它們的動作。」

他說:「這些系統(tǒng)將能夠從有限的數(shù)據(jù)中理解事物,并且不會感到困惑?!?/span>

在演講中,他將 AI 系統(tǒng)的 Scaling 與進化生物學進行了比較,并引用了研究中不同物種之間的大腦與體重的比例關系。他指出,大多數(shù)哺乳動物遵循一種特定的 Scaling 模式,而人類科(人類祖先)的腦體比在對數(shù)尺度上展現(xiàn)出截然不同的增長趨勢。

Sutskever 提議,就像進化為人類科大腦找到了一種新的 Scaling 模式一樣,AI 可能也會超越現(xiàn)有的預訓練方法,發(fā)現(xiàn)全新的擴展路徑。

以下是 Ilya Sutskever 的演講全文:

圖片

我要感謝大會組織者為這個獎項選擇了一篇論文(Ilya Sutskever 等人的 Seq2Seq 論文入選了 NeurIPS 2024 時間檢驗獎)。太好了。我也想感謝我不可思議的合著者 Oriol Vinyals 和 Quoc V. Le,他們剛才就站在你們面前。

圖片

圖片

你這里有一張圖片,一張截圖。10 年前在蒙特利爾的 NIPS 2014 也有類似的演講。那是一個更加純真的時代。在這里,我們出現(xiàn)在照片中。順便說一下,那是上次,下面這張是這次。

現(xiàn)在我們有了更多的經(jīng)驗,希望現(xiàn)在更聰明一點了。但是在這里,我想談一下這項工作本身,也許還想做一個 10 年的回顧,因為這項工作中的很多事情是正確的,但有些則不太正確。我們可以回顧它們,看看發(fā)生了什么,以及它是如何把我們引向今天的。

圖片

所以讓我們開始談談我們所做的事情。我們要做的第一件事就是展示 10 年前同一個演講的幻燈片??偨Y起來就是三個要點。一個基于文本訓練的自回歸模型,它是一個大型神經(jīng)網(wǎng)絡,它是一個大型數(shù)據(jù)集,就是這樣。

現(xiàn)在讓我們再深入一些細節(jié)。

圖片

這是 10 年前的一張幻燈片,看起來不錯,「深度學習假說」。我們在這里說的是,如果你有一個具有 10 層的大型神經(jīng)網(wǎng)絡,但它可以在幾分之一秒內(nèi)完成人類可以做的任何事情。

圖片

為什么我們要強調(diào)「人類可以在幾分之一秒內(nèi)完成的事情」?為什么是這件事?

好吧,如果你相信深度學習的教條,人工神經(jīng)元和生物神經(jīng)元是相似的,或者至少不是太不同,并且你相信三個真正的神經(jīng)元是緩慢的,那么人類可以快速處理任何事情。我甚至指的是假如全世界只有一個人。如果全世界有一個人可以在幾分之一秒內(nèi)完成某些任務,那么 10 層神經(jīng)網(wǎng)絡也可以做到,對吧?

接下來,你只需將它們的連接嵌入到一個人工神經(jīng)網(wǎng)絡中。

這就是動機。任何人類可以在幾分之一秒內(nèi)完成的事情,那么 10 層神經(jīng)網(wǎng)絡也可以做到。

我們專注于 10 層神經(jīng)網(wǎng)絡,因為這是當年我們所知道的訓練方式,如果你能以某種方式超越這個層數(shù),那么你可以做更多的事情。但在那時,我們只能做 10 層,這就是為什么我們強調(diào)人類可以在幾分之一秒內(nèi)做的任何事情。

當年的另一張幻燈片說明了我們的主要思想,你可能能夠識別兩件事情,或者至少一件事情,你可能能夠識別出這里正在發(fā)生自回歸的事情。

圖片

它到底在說什么?這張幻燈片到底說了什么?這張幻燈片說,如果你有一個自回歸模型,并且它預測下一個 token 足夠好,那么它實際上會抓取、捕捉并掌握接下來出現(xiàn)的任何序列的正確分布。

這是一個相對較新的東西,它并不是第一個自回歸網(wǎng)絡,但我認為這是第一個自動回歸神經(jīng)網(wǎng)絡。我們真正相信,如果你訓練得很好,那么你就會得到你想要的任何東西。在我們的案例中,是現(xiàn)在看來很保守,當時看來非常大膽的機器翻譯任務?,F(xiàn)在我將向你們展示一些你們中許多人可能從未見過的古老歷史,它被稱為 LSTM。

對于那些不熟悉的人來說,LSTM 是可憐的深度學習研究者們在 Transformer 之前所做的事情。

它基本上是 ResNet,但旋轉(zhuǎn) 90 度。所以這是一個 LSTM。LSTM 就像是一個稍微復雜的 ResNet。你可以看到 integrator,它現(xiàn)在被稱為 residual stream。但是你有一些乘法正在進行中。這有點復雜,但這就是我們所做的。這是一個旋轉(zhuǎn) 90 度的 ResNet。

圖片

那個老演講中我想強調(diào)的另一個重點是我們使用了并行化,但不僅僅是并行化。

我們使用了流水線,每層神經(jīng)網(wǎng)絡分配一塊 GPU。正如我們現(xiàn)在所知,流水線策略并不明智,但我們當時并不聰明。所以我們使用它,使用 8 塊 GPU 獲得了 3.5 倍的速度。

圖片

最后的結論,那是最重要的一張幻燈片。它闡明了可能是 Scaling Laws 的開始。如果你有一個非常大的數(shù)據(jù)集并且你訓練了一個非常大的神經(jīng)網(wǎng)絡,那么成功就是有保證的。人們可以爭辯說,如果一個人是慷慨的,這確實是正在發(fā)生的事情。

圖片

現(xiàn)在,我想提另一個想法,我認為這個想法真正經(jīng)得起時間的考驗。這是深度學習本身的核心思想。這就是聯(lián)結主義的思想。這個想法是,如果你相信人工神經(jīng)元有點像生物神經(jīng)元。如果你相信其中一個有點像另一個,然后它讓你有信心相信超大規(guī)模神經(jīng)網(wǎng)絡。它們不需要真的是人類大腦規(guī)模,它們可能會小一點,但你可以配置它們來完成我們所做的幾乎所有事情。

但這與人類仍然存在差異,因為人類大腦會弄清楚如何重新配置自己,我們正在使用我們擁有的最好的學習算法,這需要與參數(shù)一樣多的數(shù)據(jù)點。人類在這方面做得更好。

圖片

所有這些都導向了,我可以說是,預訓練時代。

進而就是我們所說的 GPT-2 模型、GPT-3 模型,Scaling Laws。我想特別提到我的前合作者 Alec Radford,還有 Jared Kaplan 和 Dario Amodei,是他們的努力實現(xiàn)了這些工作。

圖片

這就是預訓練的時代,這就是所有進步的驅(qū)動力,我們今天看到的所有進步,超大神經(jīng)網(wǎng)絡,在巨大的數(shù)據(jù)集上訓練的超大神經(jīng)網(wǎng)絡。

但我們所知道的預訓練路線無疑會結束。為什么會結束?因為計算機通過更好的硬件、更好的算法和邏輯集群不斷增長,所有這些事情都在不斷增加你的計算能力,而數(shù)據(jù)沒有增長,因為我們只有一個互聯(lián)網(wǎng)。

圖片

你甚至可以說數(shù)據(jù)是 AI 的化石燃料。它就像是以某種方式創(chuàng)建的,現(xiàn)在我們使用它,我們已經(jīng)實現(xiàn)了數(shù)據(jù)的最大化利用,不能再更好了。我們想辦法必須處理現(xiàn)在擁有的數(shù)據(jù)。我仍然會努力,這仍然讓我們走得很遠,但問題在于,只有一個互聯(lián)網(wǎng)。

所以在這里,我會大膽第推測一下接下來會發(fā)生什么。

實際上,我都不需要推測,因為許多人也在猜測,我會提到他們的猜測。

  • 你可能聽過「智能體 Agent」這個短語,這很常見,我相信最終會發(fā)生一些事情,人們覺得智能體是未來。
  • 更具體地說,但也有些模糊的合成數(shù)據(jù)。但合成數(shù)據(jù)是什么意思?弄清楚這一點是一個巨大的挑戰(zhàn),我相信不同的人在那里有各種有趣的進展。
  • 還有推理時間計算,或者可能是最近(OpenAI 的)o1,o1 模型最生動地展示了人們在預訓練后試圖弄清楚該做什么事情。

這些都是非常好的事情。

圖片

我想提到生物學中的另一個例子,我認為這真的很酷。很多年前在這個會議上我也看到了一個演講,有人展示了這張圖,其中顯示了哺乳動物身體大小和大腦大小之間的關系。在這種情況下,它是大規(guī)模的。那個演講,我清楚地記得,他們說,在生物學中,一切都很混亂,但在這里,你有一個罕見的例子,動物身體的大小與它們的大腦之間存在非常緊密的關系。

出于偶然,我對這張圖產(chǎn)生了好奇。

圖片

所以我去谷歌以圖搜圖了一下。

這張圖片里,列出了多種哺乳動物,也有非靈長類動物,但大體一樣,還有原始人。據(jù)我所知,原始人在進化過程中,像尼安德特人一樣是人類的近親。比如「能人」。有趣的是,他們的大腦與身體比例指數(shù)的斜率不同。很有意思。

這意味著有一個案例,有一個生物學找出某種不同尺度的例子。顯然,有些事情是不同的。順便說一下,我想強調(diào)一下這個 x 軸是對數(shù)刻度。這是 100、1000、10000、100000,同樣以克為單位,1 克、10 克、100 克、一千克。所以事情有可能不同。

我們正在做的事情,到目前為止我們一直在做擴展的事,實際上我們發(fā)現(xiàn)如何擴展成了第一要務。毫無疑問在這個領域,每個在這里工作的人都會想出該做什么。但我想在這里談談。我想花幾分鐘的時間來對長期進行預測,我們所有人都要面臨這樣的事,對不對?

圖片

我們正在取得的所有進展,是驚人的進步。我的意思是,10 年前在這個領域工作的人,你們還記得一切都是多么無能為力。如果你是在過去兩年里加入了深度學習這個領域,你或許都無法感同身受。

我想稍微談談「超級智能」,因為這顯然是這個領域的發(fā)展方向,是這個領域努力構建的東西。

盡管語言模型現(xiàn)在擁有令人難以置信的能力,但它們也有點不可靠。目前還不清楚如何調(diào)和這一點,但最終,遲早會實現(xiàn)目標:這些系統(tǒng)將以真正的方式成為智能體?,F(xiàn)在,這些系統(tǒng)并不是強大的有意義的感知智能體,實際上它們剛剛開始會推理。順便說一句,一個系統(tǒng)推理的越多,它就變得越不可預測。

我們已經(jīng)習慣所有深度學習都是非??深A測的。因為如果你一直在研究復制人類直覺,回到 0.1 秒的反應時間,我們的大腦會進行什么樣的處理?這就是直覺,我們賦予了 AIS 一些這種直覺。

但是推理,你看到了一些早期的跡象:推理是不可預測的。例如,國際象棋對于最好的人類棋手來說都是不可預測的。因此,我們將不得不處理非常不可預測的 AI 系統(tǒng)。它們將從有限的數(shù)據(jù)中理解事物,并且不會感到困惑。

所有這些都是非常大的限制。順便說一句,我沒有說怎么做,也沒有說什么時候會以及什么時候所有這些事情都會與「自我意識」一起發(fā)生,因為為什么「自我意識」不能是有用的呢?我們自己也是我們自己世界模型的一部分。

當所有這些東西結合在一起時,我們將擁有與今天存在的質(zhì)量和屬性完全不同的系統(tǒng)。當然,它們將擁有令人難以置信和驚人的能力。但是像這樣的系統(tǒng)所帶來的問題,我猜想它將非常與眾不同。

我會說,預測未來肯定也是不可能的。真的,各種各樣的事情都是可能發(fā)生的。謝謝大家。

Neurlps 大會上一陣掌聲過后,Ilya 回答了幾位提問者簡短的問題。

提問:在 2024 年,請問您認為是否還有其他與人類認知相關的生物結構值得以類似的方式進行探索,或者還有您感興趣的領域嗎?

Ilya:我會這樣回答這個問題:如果你或者某個人對某個具體問題有獨到的見解,比如 “嘿,我們明顯忽略了大腦在做某些事情,而我們并沒有做到”,并且這是可以實現(xiàn)的,那么他們就應該去深入研究這個方向。我個人沒有這樣的見解。當然,這也取決于你關注的研究抽象層級。

很多人都渴望開發(fā)受生物啟發(fā)的人工智能。從某種程度上來說,可以認為由生物啟發(fā)的 AI 已經(jīng)取得了巨大的成功,畢竟整個深度學習的基礎就是由生物啟發(fā)的 AI。但另一方面,這種生物啟發(fā)其實非常、非常有限?;旧现皇?“讓我們使用神經(jīng)元”—— 這就是生物啟發(fā)的全部內(nèi)涵。更詳細、更深層次的生物啟發(fā)卻很難實現(xiàn),但我不會排除這種可能性。我認為,如果有人擁有特別的洞察力,能夠發(fā)現(xiàn)某些新的角度,這或許會非常有價值。

提問:我想提問一個關于自動更正的問題。

您提到推理可能是未來模型的核心發(fā)展方向之一,也可能是一個差異化的特點。在一些海報展示環(huán)節(jié)中,我們看到當前模型存在 “幻覺” 現(xiàn)象。我們目前分析模型是否出現(xiàn)幻覺的方法(如果我理解有誤請您糾正,您才是這方面的專家)主要是基于統(tǒng)計分析,例如通過某些標準差的偏離來判斷是否偏離均值。未來,您是否認為如果模型具備了推理能力,它能夠像 “自動更正”(autocorrect)一樣自我糾正,從而成為未來模型的一個核心功能?這樣模型就不會出現(xiàn)那么多的幻覺,因為它能識別出自己生成幻覺內(nèi)容的情況。這可能是一個比較復雜的問題,但您認為未來的模型是否能夠通過推理理解并發(fā)現(xiàn)幻覺的發(fā)生?

Ilya:答案:是的。

我認為你描述的這種情況是非常有可能的。盡管我不確定,但我建議你去查證一下,這種情況可能已經(jīng)在一些早期的推理模型中出現(xiàn)了。但從長期來看,為什么不可能呢?

提問:我的意思是,這就像微軟 Word 里的自動更正(autocorrect)功能一樣,它是一個核心功能。

Ilya:是的,我只是覺得稱之為 “自動更正” 其實有點低估了它的意義。當你提到 “自動更正” 時,會讓人聯(lián)想到一些相對簡單的功能,但這個概念遠遠超越了自動更正。不過,總的來說,答案是肯定的。

提問:謝謝。

接下來是第二位提問者。

提問:嗨,Ilya。我很喜歡那個神秘留白的結局。人工智能們是否會取代我們,還是說它們比我們更優(yōu)越?它們是否需要權利?這是一個全新的物種。智人(Homo sapiens)孕育了這種智能,我覺得強化學習那邊的人可能認為我們需要為這些存在爭取權利。

我有一個與此無關的問題:我們?nèi)绾蝿?chuàng)造正確的激勵機制,讓人類以一種方式來創(chuàng)造它們,使它們能享有與我們智人相同的自由?

Ilya:我覺得這些問題在某種意義上是人們應該更多思考和反思的。但對于你提到的關于我們應該創(chuàng)造什么樣的激勵機制的問題,我覺得我無法自信地回答這樣的問題。這聽起來像是在討論創(chuàng)建某種自上而下的結構或治理模式,但對此我確實不太確定。

接下來是最后一位提問者。

提問:嗨,Ilya,謝謝你的精彩演講。我來自多倫多大學。感謝你所做的一切工作。我想請教一下,你認為 LLMs 是否能夠在分布外進行多跳推理的泛化?

Ilya:好的,這個問題假設答案是 “是” 或 “否”,但實際上不應該這樣回答。因為我們需要先弄清楚:分布外泛化到底是什么意思?什么是分布內(nèi)?什么是分布外?

因為這是一次關于 “時間檢驗” 的演講。我想說,在很久很久以前,人們在還未使用深度學習時,是用字符串匹配和 n-grams 來做機器翻譯的。當時人們依靠的是統(tǒng)計短語表。你能想象嗎?這些方法的代碼復雜度達到了數(shù)萬行,真的是難以想象的復雜。而在那個時候,泛化的定義是:翻譯結果是否和數(shù)據(jù)集中的短語表述字面上不完全相同。

現(xiàn)在我們可能會說:“我的模型在數(shù)學競賽中取得了很高的分數(shù),但也許這些數(shù)學題的某些想法曾經(jīng)在互聯(lián)網(wǎng)上的某個論壇中被討論過,因此模型可能只是記住了這些內(nèi)容?!?好吧,你可以說這可能是分布內(nèi)的,或者可能是記憶化的結果。但我認為,我們對泛化的標準確實已經(jīng)大幅提高 —— 甚至可以說是顯著地、不可想象地提高了。

所以,我的答案是:在某種程度上,模型的泛化能力可能還遠不及人類。我確實認為人類在泛化方面要優(yōu)秀得多。但與此同時,AI 模型也確實在某種程度上能夠進行分布外泛化。我希望這個答案對你來說算是有用的,盡管它聽起來有些贅述了。

提問:謝謝。

參考內(nèi)容:

https://www.theverge.com/2024/12/13/24320811/what-ilya-sutskever-sees-openai-model-data-training。

責任編輯:姜華 來源: 機器之心
相關推薦

2024-12-16 08:20:00

AI工具

2024-12-16 18:20:32

2024-12-16 07:15:00

2024-12-18 07:20:00

2024-05-10 09:20:16

數(shù)據(jù)訓練

2022-01-06 09:57:02

數(shù)據(jù)計算機神經(jīng)網(wǎng)絡

2020-09-20 17:50:24

大數(shù)據(jù)IT互聯(lián)網(wǎng)

2020-07-29 12:16:12

預訓練自訓練神經(jīng)網(wǎng)絡

2023-02-17 15:16:06

ChatGPTAI

2023-06-26 07:10:51

2022-03-14 09:41:07

算法開源修復

2023-08-21 12:05:09

2024-06-20 13:43:42

2024-06-20 10:36:21

2024-11-20 17:28:00

C#CPU代碼

2024-11-18 08:00:00

AI計算機論文

2024-10-16 16:20:00

AI機器人

2020-10-26 15:48:32

NLP自然語言處理數(shù)據(jù)

2024-12-23 09:22:00

AI模型訓練

2018-12-17 13:22:40

點贊
收藏

51CTO技術棧公眾號