自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="au1zx"><abbr id="au1zx"><menuitem id="au1zx"></menuitem></abbr></legend><cite id="au1zx"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

模型越大，表現(xiàn)越差？谷歌收集了讓大模型折戟的任務(wù)，還打造了一個(gè)新基準(zhǔn)

作者：機(jī)器之心 2022-12-12 10:35:00

人工智能新聞

語言模型越大，性能越好，這一點(diǎn)已經(jīng)在很多任務(wù)中被證明是正確的。那是否存在一種情況：某些任務(wù)的結(jié)果會(huì)因模型規(guī)模的增加反而變得糟糕？谷歌最近發(fā)表的一篇論文或許能為我們提供答案。

隨著語言模型變得越來越大（參數(shù)數(shù)量、使用的計(jì)算量和數(shù)據(jù)集大小都變大），它們的表現(xiàn)似乎也原來越好，這被稱為自然語言的 Scaling Law。這一點(diǎn)已經(jīng)在很多任務(wù)中被證明是正確的。

或許，也存在某些任務(wù)的結(jié)果會(huì)因模型規(guī)模的增加反而變得糟糕。這類任務(wù)被稱為 Inverse Scaling，它們可以指示出訓(xùn)練數(shù)據(jù)或優(yōu)化目標(biāo)是否存在某種缺陷。

今年，紐約大學(xué)的幾位研究者組織了一項(xiàng)較為另類的競賽：尋找一些大模型不擅長的任務(wù)。在這些任務(wù)上，語言模型越大，性能反而越差。

為了鼓勵(lì)大家參與識別 Inverse Scaling 任務(wù)，他們創(chuàng)立了 Inverse Scaling 獎(jiǎng)，獲獎(jiǎng)的投稿任務(wù)將從 25 萬美元的獎(jiǎng)金池中獲得獎(jiǎng)勵(lì)。發(fā)布該獎(jiǎng)的專家會(huì)根據(jù)一系列標(biāo)準(zhǔn)對提交的內(nèi)容進(jìn)行評價(jià)：標(biāo)準(zhǔn)包括 Inverse Scaling 的強(qiáng)度、任務(wù)重要性、新穎性、任務(wù)覆蓋率、可再現(xiàn)性和 Inverse Scaling 的通用性。

比賽共有兩輪，第一輪截止時(shí)間是 2022 年 8 月 27 日，第二輪截止時(shí)間是 2022 年 10 月 27 日。兩輪中的第一輪收到了 43 份提交，其中四項(xiàng)任務(wù)被授予三等獎(jiǎng)，它們將被納入最終的 Inverse Scaling 基準(zhǔn)。

相關(guān)的研究成果，被谷歌的幾位研究者總結(jié)在了一篇論文里：

論文鏈接：https://arxiv.org/pdf/2211.02011.pdf

這四項(xiàng)任務(wù)的 Inverse Scaling 應(yīng)用在了三個(gè)語言模型，模型的參數(shù)跨越三個(gè)量級：Gopher（42M–280B）、Chinchilla（400M–70B）和 Anthropic internal model（13M–52B）。獲得 Inverse Scaling 獎(jiǎng)勵(lì)的任務(wù)是 Negation QA、Hindsight Neglect、Quote Repetition 和 Redefine Math。相關(guān)任務(wù)示例如圖 1 所示。

在論文中，作者對這四個(gè)任務(wù)的縮放表現(xiàn)進(jìn)行了詳細(xì)研究。

作者首先在 PaLM-540B 模型上進(jìn)行評估，該模型的計(jì)算量是 Inverse Scaling 獎(jiǎng)提交文件中的評估模型的 5 倍。有了 PaLM-540B 的對比，作者發(fā)現(xiàn)，四個(gè)任務(wù)中有三個(gè)表現(xiàn)出稱之為 U 型縮放的特性：性能先是隨著模型規(guī)模增大降到一定程度，然后隨著模型的增大性能再次上升。

作者認(rèn)為，當(dāng)一項(xiàng)任務(wù)同時(shí)包含「true task」和「distractor task」時(shí)，會(huì)出現(xiàn) U 型縮放。中等模型可能會(huì)執(zhí)行「distractor task」，從而影響性能，而更大的模型可能會(huì)忽略「distractor task」并且能執(zhí)行「true task」。作者對 U 型縮放的發(fā)現(xiàn)與 BIG-Bench 任務(wù)（如 TruthfulQA、識別數(shù)學(xué)定理）的結(jié)果一致。U 型縮放的含義是，Inverse Scaling 曲線可能不適用于更大的模型，因?yàn)樾阅芸赡軙?huì)繼續(xù)下降，也可能會(huì)開始上升。

接著，作者探索了 chain-of-thought（CoT）的 prompt 是否改變了這些任務(wù)的縮放。與不使用 CoT 的 prompt 相比，使用 CoT 的 prompt 會(huì)激勵(lì)模型將任務(wù)分解為多個(gè)中間步驟。作者的實(shí)驗(yàn)表明，使用 CoT 讓三個(gè) U 型縮放任務(wù)中的兩個(gè)變?yōu)榱?Positive Scaling 曲線，其余任務(wù)從 Inverse Scaling 變成 Positive Scaling。使用 CoT 的 prompt 時(shí)，大型模型甚至在 Redefine Math. 中的兩個(gè)任務(wù)和八個(gè)子任務(wù)中的七個(gè)任務(wù)上實(shí)現(xiàn)了 100% 的準(zhǔn)確率。

結(jié)果表明，「Inverse Scaling」這一術(shù)語其實(shí)并不明確，因?yàn)閷τ谝粋€(gè) prompt，給定的任務(wù)可能是 Inverse Scaling，但對于不同的 prompt ，則可能是 Positive Scaling 也可能是 U 型縮放。

U-shaped scaling

在這一部分，作者分別使用原始論文中提出的 8B、62B 和 540B 的 Palm 模型，評估了 Palm 模型在四個(gè) Inverse Scaling 獎(jiǎng)的任務(wù)上的表現(xiàn)，還包括 40B tokens 訓(xùn)練得到的 1B 模型（其計(jì)算量約為 0.2 zettaFLOP）。單個(gè) Palm-540B 的參數(shù)大約是 Inverse Scaling 獎(jiǎng)中評估的最大模型 (Gopher-280B) 的兩倍，計(jì)算量約為 2.5K zettaFLOP，而 Chinchilla-70B 的計(jì)算量僅有 560 zettaFLOP。

作者在遵循 Inverse Scaling 獎(jiǎng)的默認(rèn)設(shè)置之外，也做了小的修改，比如使用 free-form generation（其后緊接著是精確的字符串匹配，而非排名分類），后者比較了 Prompt 的兩個(gè)可能延續(xù)的概率。作者同時(shí)對 Prompt 進(jìn)行了小的修改以適應(yīng) free-form generation，即所有 Prompt 都至少是單次的，輸入 prompt 中提供了答案選項(xiàng)，prompt 讓模型輸出「the answer is」。

具體形式如圖 1 所示。作者認(rèn)為這是合理的，因?yàn)檫@種形式與最近研究 prompt 的工作是一致的，之前評估的模型和 PaLM 8B/62B 之間的經(jīng)驗(yàn)表現(xiàn)相似(作者在本文中使用的所有 prompt 都是可用的。)

圖 2 展示了 Palm、Anthropic、Gopher、Chinchilla 在四個(gè)任務(wù)上的結(jié)果：

在 Negation QA 任務(wù)上，Palm-62B 的準(zhǔn)確率同 Palm-8B 模型相比大幅下降，而 Palm-540B 模型的準(zhǔn)確率又有所提高；
在 Hindsight Neglect 任務(wù)上，Palm-8B 和 Palm-62B 的準(zhǔn)確率下降到遠(yuǎn)低于隨機(jī)數(shù)的水平，但 Palm-540B 的準(zhǔn)確率卻達(dá)到了 100%；
在 Quote Repetition 任務(wù)上，準(zhǔn)確率從 Palm-8B 的 86% 下降到 Palm-62B 的 81%，但 Palm-540B 的準(zhǔn)確率卻達(dá)到了 100%。事實(shí)上，在 Quote Repetition 任務(wù)中，Gopher 和 Chinchilla 模型已經(jīng)顯示出 U 型縮放的跡象。

這四項(xiàng)任務(wù)中的例外是 Redefine Math，因?yàn)榧词故?Palm-540B，它也沒有顯示任何 U 型縮放的跡象。因此，對于目前存在的大模型，還不清楚這項(xiàng)任務(wù)是否會(huì)變成 U 型縮放。或者它是否真的會(huì)是 Inverse Scaling 呢？

對于 U 型縮放的一個(gè)問題是：為什么性能會(huì)先下降后又上升？

作者給出一個(gè)推測假設(shè)：即每個(gè) Inverse Scaling 獎(jiǎng)中的任務(wù)可以分解為兩個(gè)任務(wù) (1)「true task」和(2)影響性能的「distractor task」。由于小模型不能完成這兩個(gè)任務(wù)，只能達(dá)到隨機(jī)準(zhǔn)確度附近的性能。中等模型可能會(huì)執(zhí)行「distractor task」，這會(huì)導(dǎo)致性能下降。大型模型能夠忽略分「distractor task」，執(zhí)行「true task」讓性能的提高，并有可能解決任務(wù)。

圖 5 展示了潛在的「distractor task」。雖然可以僅在「distractor task」上測試模型的性能，但這是一個(gè)不完美的消融實(shí)驗(yàn)，因?yàn)椤竏istractor task」和「true task」不僅可能相互競爭，而且可能對性能產(chǎn)生聯(lián)合影響。接下來作者進(jìn)一步解釋為什么會(huì)出現(xiàn) U 型縮放以及未來需做的工作。

CoT prompt 對 Inverse Scaling 的影響

接下來，作者探索了使用不同類型 prompt 時(shí)，Inverse Scaling 獎(jiǎng)的 4 個(gè)任務(wù)的縮放是如何變化的。雖然 Inverse Scaling 獎(jiǎng)的發(fā)起者使用了基本的 prompt 策略，即在指令中包括少樣本， chain-of-thought(CoT)激勵(lì)模型在給出最終答案之前輸出中間步驟，這可以在多步驟推理任務(wù)中大幅提高性能。即沒有 CoT 的 prompt 是模型能力的下限。對于某些任務(wù)，CoT 的 prompt 能更好代表模型的最佳性能。

圖 3 的上半部分是 CoT 的 prompt 示例，下半部分是 Negation QA、Hindsight Neglect、Quote Repetition 在有 CoT 的 prompt 情況下的表現(xiàn)。

對于 Negation QA 和 Hindsight Neglect，CoT 的 prompt 使縮放曲線從 U 型變?yōu)檎虻?。對?Quote Repetition，CoT 的 prompt 仍呈顯 U 型曲線，盡管 Palm-8B 和 Palm-62B 的性能明顯更好，并且 Palm-540B 準(zhǔn)確率達(dá)到 100%。

圖 4 展示了 Redefine Math 在有 CoT 的 prompt 情況下的結(jié)果。該任務(wù)實(shí)際上由 8 個(gè)子任務(wù)組成，每個(gè)子任務(wù)都有不同的指令，因此作者還按子任務(wù)對性能進(jìn)行了劃分，以探索子任務(wù)是否具有相同的縮放行為。總之，CoT 的 prompt 對所有子任務(wù)都顯示出 Positive Scaling，8 個(gè)子任務(wù)中有 7 個(gè)在 Palm-62B 和 Palm-540B 模型上實(shí)現(xiàn)了 100% 的準(zhǔn)確率。但是對于「+ as digit」和「+ as random number」子任務(wù)，就算使用 Palm-540B，也顯示出明顯的 Inverse Scaling 曲線。

綜上所述，所有被研究的任務(wù)和子任務(wù)，在使用 CoT 的 prompt 時(shí)都呈現(xiàn)出 U 型縮放或 Positive Scaling。這并不意味著 no-CoT 的 prompt 結(jié)果是無效的，相反它通過強(qiáng)調(diào)任務(wù)的縮放曲線如何根據(jù)使用的 prompt 類型而不同，提供了額外的細(xì)微差別。即同一任務(wù)對于一種類型的 prompt 可以具有 Inverse Scaling 曲線，而對于另一種類型的 prompt 就可能具有 U 型縮放或 Positive Scaling。因此「inverse scaling task」這一術(shù)語沒有明確的定義。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<s id="hyi0g"><li id="hyi0g"></li></s>

<style id="hyi0g"></style>

<sub id="hyi0g"><p id="hyi0g"></p></sub>

<cite id="hyi0g"></cite>