自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="xxfxr"><var id="xxfxr"><label id="xxfxr"></label></var></abbr>

<button id="xxfxr"></button>

<menuitem id="xxfxr"></menuitem>

<nobr id="xxfxr"></nobr>

<dfn id="xxfxr"></dfn>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

遺憾不？原來(lái)百度2017年就研究過(guò)Scaling Law，連Anthropic CEO靈感都來(lái)自百度

作者：機(jī)器之心 2024-11-27 13:40:00

人工智能新聞

原來(lái)早在 2017 年，百度就進(jìn)行過(guò) Scaling Law 的相關(guān)研究，并且通過(guò)實(shí)證研究驗(yàn)證了深度學(xué)習(xí)模型的泛化誤差和模型大小隨著訓(xùn)練集規(guī)模的增長(zhǎng)而呈現(xiàn)出可預(yù)測(cè)的冪律 scaling 關(guān)系。只是，他們當(dāng)時(shí)用的是 LSTM，而非 Transformer，也沒(méi)有將相關(guān)發(fā)現(xiàn)命名為「Scaling Law」。

在追求 AGI 的道路上，Scaling Law 是繞不開(kāi)的一環(huán)。

如果 Scaling Law 撞到了天花板，擴(kuò)大模型規(guī)模，增加算力不能大幅提升模型的能力，那么就需要探索新的架構(gòu)創(chuàng)新、算法優(yōu)化或跨領(lǐng)域的技術(shù)突破。

作為一個(gè)學(xué)術(shù)概念，Scaling Law 為人所熟知，通常歸功于 OpenAI 在 2020 年發(fā)的這篇論文：

論文標(biāo)題：Scaling Laws for Neural Language Models
論文鏈接：https://arxiv.org/pdf/2001.08361

論文中詳細(xì)地論證了模型的性能會(huì)隨模型參數(shù)量、數(shù)據(jù)量、計(jì)算資源增加而指數(shù)提升。后來(lái)的幾年里，OpenAI 作為整個(gè)大模型領(lǐng)域的技術(shù)引領(lǐng)者，也將 Scaling Law 充分地發(fā)揚(yáng)光大。

但關(guān)于我們今天所談?wù)摰?Scaling law，它是怎么被發(fā)現(xiàn)的，誰(shuí)最早發(fā)現(xiàn)的，又是哪個(gè)團(tuán)隊(duì)最早驗(yàn)證的，似乎很少有人去考據(jù)。

近日，Anthropic 的 CEO Dario Amodei 在播客中講述了一個(gè)出人意料的版本。

圖源：https://xueqiu.com/8973695164/312384612。發(fā)布者：@pacificwater

我們可能更了解 Dario 在 2016 年之后的經(jīng)歷。他加入了 OpenAI，擔(dān)任研究副總裁，負(fù)責(zé)公司的安全工作，并領(lǐng)導(dǎo)團(tuán)隊(duì)開(kāi)發(fā)了 GPT-2 和 GPT-3。

然而，2020 年底，由于對(duì) OpenAI 的發(fā)展方向產(chǎn)生分歧， Dario 選擇離開(kāi)，并于 2021 年 2 月與妹妹共同創(chuàng)立了 Anthropic。

如今，Anthropic 推出的 Claude 已成為挑戰(zhàn) GPT 系列霸主地位的最有力競(jìng)爭(zhēng)者。

不過(guò)，Dario 原本的研究方向是神經(jīng)回路，他第一次真正進(jìn)入 AI 領(lǐng)域是在百度。

從 2014 年 11 月到 2015 年 10 月，Dario 在百度工作了一年 —— 正好是吳恩達(dá)在百度擔(dān)任首席科學(xué)家，負(fù)責(zé)「百度大腦」計(jì)劃的時(shí)期。

他們當(dāng)時(shí)在研發(fā)語(yǔ)音識(shí)別系統(tǒng)。Dario 表示，盡管深度學(xué)習(xí)展示了很大潛力，但其他人仍然充滿疑慮，認(rèn)為深度學(xué)習(xí)還不足以達(dá)到預(yù)期的效果，且距離他們所期待的與人類大腦相匹配的框架還有很長(zhǎng)的距離。

于是，Dario 開(kāi)始思考，如果把百度用于語(yǔ)音的循環(huán)神經(jīng)網(wǎng)絡(luò)做得更大，增加更多的層數(shù)會(huì)怎樣？同時(shí)擴(kuò)大數(shù)據(jù)量又會(huì)怎樣呢？

在不斷的嘗試中，Dario 觀察到了隨著給模型投入越多的數(shù)據(jù)、計(jì)算和訓(xùn)練，它們的表現(xiàn)就越好，「那時(shí)我沒(méi)有精確地測(cè)量，但與同事們一起，我們非常直觀地能感受到。」

但 Dario 和同事們也沒(méi)深究，Dario 覺(jué)得：「也許這只對(duì)語(yǔ)音識(shí)別系統(tǒng)有效，也許這只是一個(gè)特定領(lǐng)域的特殊情況。」

直到 2017 年，他在 OpenAI 第一次看到 GPT-1 的訓(xùn)練結(jié)果時(shí)，他才意識(shí)到這種「越多越好」的規(guī)則同樣適用于語(yǔ)言數(shù)據(jù)。而計(jì)算資源的增加，托起了 Scaling Law 生效的底層邏輯。

真理是不會(huì)只屬于一個(gè)人的，最終它會(huì)被每個(gè)人發(fā)現(xiàn)。

當(dāng)時(shí)有一批人都意識(shí)到了 Scaling Law 的存在，比如 Ilya Sutskever、「RL 教父」Rich Sutton、Gwern Branwen。

百度也在 2017 年發(fā)了一篇論文：「DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY」，展示了在機(jī)器翻譯、語(yǔ)言建模、圖像處理和語(yǔ)音識(shí)別等四個(gè)領(lǐng)域中，隨著訓(xùn)練集規(guī)模的增長(zhǎng)，DL 泛化誤差和模型大小呈現(xiàn)出冪律增長(zhǎng)模式。

《NLP with Transformers》的作者 Lewis Tunstall 發(fā)現(xiàn)，OpenAI 在 2020 發(fā)表的《Scaling Laws for Neural Language Models》引用了百度論文一作 Joel Hestness 在 2019 年的后續(xù)研究，卻沒(méi)發(fā)現(xiàn) Hestness 早在 2017 年就研究過(guò)同類問(wèn)題。

DeepMind 的研究科學(xué)家 @SamuelMLSmith 表示，原來(lái)在 NeurIPS 和 Hestness 線下交流過(guò)。但兩年后 Scaling Laws 論文發(fā)表時(shí)，他對(duì)關(guān)注過(guò)這個(gè)問(wèn)題，但沒(méi)發(fā)論文的自己很生氣。

而同期注意到 Scaling Law 的 Gwern Branwen，也經(jīng)常提起百度的這篇論文確實(shí)被忽視了。

百度 2017 年的論文寫了啥？

這篇題為「DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY（深度學(xué)習(xí)擴(kuò)展的可預(yù)測(cè)性：經(jīng)驗(yàn)性研究）」發(fā)布于 2017 年。當(dāng)時(shí)，機(jī)器學(xué)習(xí)先驅(qū) Rich Sutton 還沒(méi)有發(fā)布他的經(jīng)典文章《苦澀的教訓(xùn)》（發(fā)布時(shí)間是 2019 年）。

論文鏈接：https://arxiv.org/abs/1712.00409

論文提到，當(dāng)時(shí)，深度學(xué)習(xí)社區(qū)已經(jīng)通過(guò)遵循一個(gè)簡(jiǎn)單的「配方」在不同的應(yīng)用領(lǐng)域取得了具有影響力的進(jìn)展。這個(gè)「配方」如今大家已非常熟悉，即尋找更好的模型架構(gòu)、創(chuàng)建大型訓(xùn)練數(shù)據(jù)集以及擴(kuò)展計(jì)算。

通過(guò)分解「配方」，百度的研究者注意到，尋找更好的模型架構(gòu)困難重重，因?yàn)槟阋獙?duì)建模問(wèn)題進(jìn)行復(fù)雜或創(chuàng)造性的重構(gòu)，這就涉及大規(guī)模的超參數(shù)搜索。所以，架構(gòu)方面的創(chuàng)新很多時(shí)候要依賴「頓悟」，具有極大的偶然性。如果只把精力放在這上面，風(fēng)險(xiǎn)勢(shì)必很高。

為了降低風(fēng)險(xiǎn)，百度的研究者提到，「配方」的另外兩個(gè)部分 —— 創(chuàng)建大型訓(xùn)練集和擴(kuò)展計(jì)算 —— 是非常值得去研究的，因?yàn)檫@兩個(gè)方面的進(jìn)展明顯更加可控。而且，「只需使用更多數(shù)據(jù)來(lái)訓(xùn)練更大的模型，就能提高準(zhǔn)確率」已經(jīng)成為一個(gè)共識(shí)。不過(guò)，百度想更進(jìn)一步，分析訓(xùn)練集規(guī)模、計(jì)算規(guī)模和模型準(zhǔn)確性提高之間的關(guān)系。他們認(rèn)為，準(zhǔn)確預(yù)測(cè)泛化誤差隨訓(xùn)練集規(guī)模擴(kuò)大的變化規(guī)律，將提供一個(gè)強(qiáng)大的工具，以估計(jì)推進(jìn) SOTA 技術(shù)所需的成本，包括數(shù)據(jù)和計(jì)算資源的需求。

在此之前，也有不少研究者進(jìn)行了類似研究，分析了達(dá)到期望泛化誤差所需的樣本復(fù)雜度，但論文中提到，這些結(jié)果似乎不足以準(zhǔn)確預(yù)測(cè)實(shí)際應(yīng)用中的誤差 scaling 規(guī)律。還有一些研究從理論上預(yù)測(cè)泛化誤差「學(xué)習(xí)曲線」呈冪律形式，即 ε(m) ∝。在這里，ε 是泛化誤差，m 是訓(xùn)練集中的樣本數(shù)量，α 是問(wèn)題的一個(gè)常數(shù)屬性。β_g= ?0.5 或?1 是定義學(xué)習(xí)曲線陡峭度的 scaling 指數(shù) —— 即通過(guò)增加更多的訓(xùn)練樣本，一個(gè)模型家族可以多快地學(xué)習(xí)。不過(guò)，在實(shí)際應(yīng)用中，研究者發(fā)現(xiàn)，β_g 通常在?0.07 和?0.35 之間，這些指數(shù)是先前理論工作未能解釋的。

在這篇論文中，百度的研究者提出了當(dāng)時(shí)最大規(guī)模的基于實(shí)證的學(xué)習(xí)曲線特征描述，揭示了深度學(xué)習(xí)泛化誤差確實(shí)顯示出冪律改進(jìn)，但其指數(shù)必須通過(guò)實(shí)證進(jìn)行預(yù)測(cè)。作者引入了一種方法，能夠準(zhǔn)確預(yù)測(cè)隨著訓(xùn)練集規(guī)模增加而變化的泛化誤差和模型大小。他們使用這種方法來(lái)估計(jì)四個(gè)應(yīng)用領(lǐng)域（機(jī)器翻譯、語(yǔ)言建模、圖像分類和語(yǔ)音識(shí)別）中的六個(gè)深度神經(jīng)網(wǎng)絡(luò)模型的 scaling 關(guān)系。

他們的結(jié)果顯示，在所有測(cè)試的領(lǐng)域中都存在冪律學(xué)習(xí)曲線。盡管不同的應(yīng)用產(chǎn)生了不同的冪律指數(shù)和截距，但這些學(xué)習(xí)曲線跨越了廣泛的模型、優(yōu)化器、正則化器和損失函數(shù)。改進(jìn)的模型架構(gòu)和優(yōu)化器可以改善冪律截距，但不影響指數(shù)；單一領(lǐng)域的模型顯示出相同的學(xué)習(xí)曲線陡峭度。最后，他們發(fā)現(xiàn)模型從小訓(xùn)練集區(qū)域（主要由最佳猜測(cè)主導(dǎo)）過(guò)渡到由冪律 scaling 主導(dǎo)的區(qū)域。有了足夠大的訓(xùn)練集，模型將在主要由不可約誤差（例如貝葉斯誤差）主導(dǎo)的區(qū)域達(dá)到飽和。

此外，他們還描述了可預(yù)測(cè)的準(zhǔn)確度和模型大小 scaling 的重要意義。對(duì)于深度學(xué)習(xí)從業(yè)人員和研究人員來(lái)說(shuō)，學(xué)習(xí)曲線可以幫助調(diào)試模型，并為改進(jìn)的模型架構(gòu)預(yù)測(cè)準(zhǔn)確性目標(biāo)。

百度的研究者在論文中表示，他們的研究結(jié)果表明，我們有機(jī)會(huì)加倍努力，從理論上預(yù)測(cè)或解釋學(xué)習(xí)曲線指數(shù)。在操作上，可預(yù)測(cè)的學(xué)習(xí)曲線可以指導(dǎo)一些決策，如是否或如何增加數(shù)據(jù)集。最后，學(xué)習(xí)曲線和模型大小曲線可用于指導(dǎo)系統(tǒng)設(shè)計(jì)和擴(kuò)展，它們強(qiáng)調(diào)了持續(xù)擴(kuò)展計(jì)算的重要性。

神經(jīng)機(jī)器翻譯學(xué)習(xí)曲線。

單詞語(yǔ)言模型的學(xué)習(xí)曲線和模型大小結(jié)果和趨勢(shì)。

字符語(yǔ)言模型的學(xué)習(xí)曲線和模型大小結(jié)果和趨勢(shì)。

ResNet 圖像分類任務(wù)上的學(xué)習(xí)曲線和模型大小結(jié)果和趨勢(shì)。

DS2 和注意力語(yǔ)音模型的學(xué)習(xí)曲線（左），以及不同 DS2 模型尺寸（1.7M ~ 87M 參數(shù)）的學(xué)習(xí)曲線（右）。

關(guān)于這篇論文的細(xì)節(jié)，感興趣的讀者可以去閱讀原文。

對(duì)于百度而言，早期對(duì) Scaling Law 的研究未能及時(shí)轉(zhuǎn)化為廣泛的實(shí)踐應(yīng)用，這在公司的發(fā)展史上或許算得上是一個(gè)不小的遺憾。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<nobr id="nt0zz"></nobr>