自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從80個(gè)模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦

發(fā)布于 2024-5-24 13:01
瀏覽
0收藏

在 AI 領(lǐng)域,擴(kuò)展定律(Scaling laws)是理解 LM 擴(kuò)展趨勢(shì)的強(qiáng)大工具,其為廣大研究者提供了一個(gè)準(zhǔn)則,該定律在理解語(yǔ)言模型的性能如何隨規(guī)模變化提供了一個(gè)重要指導(dǎo)。


但不幸的是,擴(kuò)展分析在許多基準(zhǔn)測(cè)試和后訓(xùn)練研究中并不常見(jiàn),因?yàn)榇蠖鄶?shù)研究人員沒(méi)有計(jì)算資源來(lái)從頭開(kāi)始構(gòu)建擴(kuò)展法則,并且開(kāi)放模型的訓(xùn)練尺度太少,無(wú)法進(jìn)行可靠的擴(kuò)展預(yù)測(cè)。


來(lái)自斯坦福大學(xué)、多倫多大學(xué)等機(jī)構(gòu)的研究者提出了一種替代觀察法:可觀察的擴(kuò)展定律(Observational Scaling Laws),其將語(yǔ)言模型 (LM) 的功能與跨多個(gè)模型系列的下游性能聯(lián)系起來(lái),而不是像標(biāo)準(zhǔn)計(jì)算擴(kuò)展規(guī)律那樣僅在單個(gè)系列內(nèi)。


該方法繞過(guò)了模型訓(xùn)練,而是從基于大約 80 個(gè)公開(kāi)可用的模型上建立擴(kuò)展定律。但這又引出了另一個(gè)問(wèn)題,從多個(gè)模型族構(gòu)建單一擴(kuò)展定律面臨巨大的挑戰(zhàn),原因在于不同模型之間的訓(xùn)練計(jì)算效率和能力存在很大差異。


盡管如此,該研究表明,這些變化與一個(gè)簡(jiǎn)單的、廣義的擴(kuò)展定律是一致的,在這個(gè)定律中,語(yǔ)言模型性能是低維能力空間(low-dimensional capability space)的函數(shù),而整個(gè)模型系列僅在將訓(xùn)練計(jì)算轉(zhuǎn)換為能力的效率上有所不同。


使用上述方法,該研究展示了許多其他類型的擴(kuò)展研究具有驚人的可預(yù)測(cè)性,他們發(fā)現(xiàn):一些涌現(xiàn)現(xiàn)象遵循平滑的 sigmoidal 行為,并且可以從小模型中預(yù)測(cè);像 GPT-4 這樣的智能體性能可以從更簡(jiǎn)單的非智能體基準(zhǔn)中精確預(yù)測(cè)。此外,該研究還展示了如何預(yù)測(cè)后訓(xùn)練干預(yù)措施(如思維鏈)對(duì)模型的影響。 


研究表明,即使僅使用小型 sub-GPT-3 模型進(jìn)行擬合,可觀察的擴(kuò)展定律也能準(zhǔn)確預(yù)測(cè)復(fù)雜現(xiàn)象,例如涌現(xiàn)能力、智能體性能和后訓(xùn)練方法的擴(kuò)展(例如思維鏈)。


從80個(gè)模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦-AI.x社區(qū)


  • 論文地址:https://arxiv.org/pdf/2405.10938
  • 論文標(biāo)題:Observational Scaling Laws and the Predictability of Language Model Performance


論文作者共有三位,其中 Yangjun Ruan 為華人作者 ,他本科畢業(yè)于浙江大學(xué)。


這篇論文也得到了思維鏈提出者 Jason Wei 的轉(zhuǎn)發(fā)評(píng)論,Jason Wei 表示,他非常喜歡這項(xiàng)研究。


從80個(gè)模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦-AI.x社區(qū)


論文介紹


該研究觀察到目前存在數(shù)百個(gè)開(kāi)放模型,這些模型擁有不同的規(guī)模和能力。不過(guò)研究者不能直接使用這些模型來(lái)計(jì)算擴(kuò)展定律(因?yàn)槟P妥逯g的訓(xùn)練計(jì)算效率差異很大),但研究者希望存在一個(gè)適用于模型族的更通用的擴(kuò)展定律。


特別是,本文假設(shè) LM 的下游性能是低維能力空間(例如自然語(yǔ)言理解、推理和代碼生成)函數(shù),模型族的變化僅僅在于它們將訓(xùn)練計(jì)算轉(zhuǎn)換為這些能力的效率。如果這種關(guān)系成立,則意味著從低維能力到跨模型族的下游能力存在對(duì)數(shù)線性關(guān)系(這將允許研究者利用現(xiàn)有模型建立擴(kuò)展定律)(圖 1)。該研究使用近 80 個(gè)公開(kāi)可用的 LM 獲得了低成本、高分辨率的擴(kuò)展預(yù)測(cè) (右)。


從80個(gè)模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦-AI.x社區(qū)


通過(guò)對(duì)標(biāo)準(zhǔn)的 LM 基準(zhǔn)分析(例如,Open LLM Leaderboard ),研究者發(fā)現(xiàn)了一些這樣的能力度量, 這些度量在模型家族內(nèi)部與計(jì)算量之間存在擴(kuò)展定律關(guān)系(R^2 > 0.9)(見(jiàn)下圖 3),并且在不同模型家族與下游指標(biāo)上也存在這種關(guān)系。本文將這種擴(kuò)展關(guān)系稱為可觀察的擴(kuò)展定律。 


最后,該研究表明使用可觀察的擴(kuò)展定律成本低且簡(jiǎn)單,因?yàn)橛幸恍┫盗心P妥阋詮?fù)制該研究的許多核心發(fā)現(xiàn)。通過(guò)這種方法,該研究發(fā)現(xiàn)只需評(píng)估 10-20 個(gè)模型就可以輕松地對(duì)基準(zhǔn)和后訓(xùn)練干預(yù)進(jìn)行擴(kuò)展預(yù)測(cè)。


從80個(gè)模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦-AI.x社區(qū)


涌現(xiàn)能力


關(guān)于 LM 是否在某些計(jì)算閾值下具有不連續(xù)出現(xiàn)的「涌現(xiàn)」能力,以及這些能力是否可以使用小模型進(jìn)行預(yù)測(cè),一直存在著激烈的爭(zhēng)論??捎^察的擴(kuò)展定律表明,其中一些現(xiàn)象遵循平滑的 S 形曲線,并且可以使用小型 sub Llama-2 7B 模型進(jìn)行準(zhǔn)確預(yù)測(cè)。


從80個(gè)模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦-AI.x社區(qū)


從80個(gè)模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦-AI.x社區(qū)


智能體能力


該研究表明,正如 AgentBench 和 AgentBoard 所測(cè)量的,LM 作為智能體的更高級(jí)、更復(fù)雜的能力可以使用可觀察的擴(kuò)展定律來(lái)預(yù)測(cè)。通過(guò)可觀察的擴(kuò)展定律,該研究?jī)H使用較弱的模型(sub GPT-3.5)就能精確預(yù)測(cè) GPT-4 的性能,并將編程能力確定為驅(qū)動(dòng)智能體性能的因素。


后訓(xùn)練方法擴(kuò)展


該研究表明,即使將擴(kuò)展定律擬合到較弱的模型(sub Llama-2 7B)上,擴(kuò)展定律也可以可靠地預(yù)測(cè)后訓(xùn)練方法的收益,例如思維鏈(Chain-of-Thought)、自洽性(Self-Consistency)等等。


總的來(lái)說(shuō),該研究的貢獻(xiàn)是提出可觀察的擴(kuò)展定律,利用了計(jì)算、簡(jiǎn)單能力度量和復(fù)雜下游指標(biāo)之間可預(yù)測(cè)的對(duì)數(shù)線性關(guān)系。


驗(yàn)證可觀察的擴(kuò)展定律


研究者通過(guò)實(shí)驗(yàn)驗(yàn)證了這些擴(kuò)展定律的有用性。此外,在論文發(fā)布后,研究者還預(yù)注冊(cè)了對(duì)未來(lái)模型的預(yù)測(cè),以測(cè)試擴(kuò)展定律是否對(duì)當(dāng)前的模型過(guò)擬合。關(guān)于實(shí)現(xiàn)過(guò)程和收集數(shù)據(jù)的相關(guān)代碼已在 GitHub 上放出:


GitHub 地址:https://github.com/ryoungj/ObsScaling


涌現(xiàn)能力的可預(yù)測(cè)性


下圖 4 展示了使用 PC(principal capability)度量的預(yù)測(cè)結(jié)果,以及基于訓(xùn)練 FLOPs 來(lái)預(yù)測(cè)性能的基線結(jié)果??梢园l(fā)現(xiàn),即使僅僅使用性能不佳的模型,也可以使用本文的 PC 度量來(lái)準(zhǔn)確預(yù)測(cè)這些能力。


相反,使用訓(xùn)練 FLOPs 會(huì)導(dǎo)致測(cè)試集上的外推效果和訓(xùn)練集上的擬合效果明顯更差,正如更高的 MSE 值所示。這些差異可能是由不同模型系列的訓(xùn)練 FLOPs 導(dǎo)致的。


從80個(gè)模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦-AI.x社區(qū)


智能體能力可預(yù)測(cè)性


下圖 5 展示了使用 PC 度量后,可觀察的擴(kuò)展定律的預(yù)測(cè)結(jié)果。可以發(fā)現(xiàn),在兩個(gè)智能體基準(zhǔn)上,使用 PC 度量的留出模型(GPT-4 或 Claude-2)的性能可以從更弱性能(10% 以上的差距)的模型中準(zhǔn)確地預(yù)測(cè)出。


這表明 LMs 的更復(fù)雜智能體能力與它們的基礎(chǔ)模型能力息息相關(guān),并能夠基于后者進(jìn)行預(yù)測(cè)。這也說(shuō)明了隨著基干 LMs 持續(xù)擴(kuò)展規(guī)模,基于 LM 的智能體能力具有良好的擴(kuò)展特性。


從80個(gè)模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦-AI.x社區(qū)


后訓(xùn)練技術(shù)的影響


下圖 6a 展示了使用可觀察的擴(kuò)展定律,CoT 和 SC(Self-Consistency,自洽性)的擴(kuò)展預(yù)測(cè)結(jié)果??梢园l(fā)現(xiàn),使用 CoT 和 CoT+SC 但不使用(Naive)后訓(xùn)練技術(shù)的更強(qiáng)、規(guī)模更大模型的性能可以從更弱、更小計(jì)算規(guī)模(比如模型大小和訓(xùn)練 FLOPs)的模型中準(zhǔn)確預(yù)測(cè)出。


值得注意的是,兩種技術(shù)之間的擴(kuò)展趨勢(shì)不同,其中與使用 CoT 的自洽性相比,CoT 表現(xiàn)出更明顯的擴(kuò)展趨勢(shì)。


從80個(gè)模型中構(gòu)建Scaling Law:華人博士生新作,思維鏈提出者力薦-AI.x社區(qū)


更多技術(shù)細(xì)節(jié)請(qǐng)參閱原論文。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/D8yx5Ma38TXjV3Yepa1_Sg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦