新研究:大語言模型“涌現(xiàn)”能力不令人驚訝也不難預(yù)測(cè)
3月26日消息,一項(xiàng)新的研究認(rèn)為,大語言模型性能的顯著提升并不令人意外,也并非無法預(yù)測(cè),實(shí)際上這是由我們衡量人工智能性能的方式所決定的。
兩年前,450位研究人員在一個(gè)名為超越模仿游戲基準(zhǔn)(Beyond the Imitation Game Benchmark,BIG-bench)的項(xiàng)目中,編制了一份包含204項(xiàng)任務(wù)的清單,旨在測(cè)試ChatGPT等聊天機(jī)器人背后的大語言模型的性能。在這些任務(wù)中,大多數(shù)情況下,隨著模型規(guī)模的增大,性能呈現(xiàn)出可預(yù)測(cè)的平穩(wěn)提升——即模型越大,性能越好。但在其他任務(wù)中,模型性能的提升卻不是那么穩(wěn)定,一段時(shí)間內(nèi)性能幾乎為零,然后突然出現(xiàn)顯著提升,其他研究也發(fā)現(xiàn)了類似的性能飛躍現(xiàn)象。
研究人員將這種現(xiàn)象描述為“突破性”行為,而其他人則將其比作物理學(xué)中的相變,如液態(tài)水轉(zhuǎn)變?yōu)楸?022年8月份發(fā)表的一篇論文中指出,這些現(xiàn)象不僅出乎意料,而且難以預(yù)測(cè),它們對(duì)于人工智能的安全性、潛力和風(fēng)險(xiǎn)的討論提供了更多的視角。研究人員用“涌現(xiàn)”(emergent)一詞來描述這種僅在系統(tǒng)達(dá)到一定復(fù)雜程度時(shí)才出現(xiàn)的行為。
然而,真相可能并不那么簡(jiǎn)單。斯坦福大學(xué)的三位研究人員在一篇新論文中認(rèn)為,這種性能的突然提升僅僅是反映了我們衡量大語言模型性能的方法。他們認(rèn)為,這種能力既不是不可預(yù)測(cè)的,也不是突然出現(xiàn)的。“這種變化比大家想象的要容易預(yù)測(cè)得多,”斯坦福大學(xué)計(jì)算機(jī)科學(xué)家、論文的資深作者薩恩米·科耶喬(Sanmi Koyejo)表示,“所謂的涌現(xiàn)更多地與我們選擇的衡量模型工作方式有關(guān)?!?/p>
研究人員之所以現(xiàn)在才開始發(fā)現(xiàn)和研究這種行為,是因?yàn)檫@些模型已變得足夠大。大語言模型通過分析大量文本數(shù)據(jù)集——包括書籍、網(wǎng)絡(luò)搜索結(jié)果和維基百科等,來尋找經(jīng)常共現(xiàn)的單詞間的聯(lián)系。模型的規(guī)模按參數(shù)數(shù)量衡量,參數(shù)越多,模型能發(fā)現(xiàn)的聯(lián)系就越多。GPT-2擁有15億個(gè)參數(shù),而支持ChatGPT的GPT-3.5則使用了3500億個(gè)參數(shù)。據(jù)報(bào)道,2023年3月首次亮相的GPT-4使用了1.75萬億個(gè)參數(shù),現(xiàn)在它也成了微軟人工智能助理Microsoft Copilot的基礎(chǔ)模型。
這種規(guī)模的快速增長(zhǎng)帶來了性能和效率的顯著提升,沒有人會(huì)質(zhì)疑規(guī)模足夠大的大語言模型能完成小型模型無法完成的任務(wù),包括那些它們未經(jīng)訓(xùn)練的任務(wù)。斯坦福大學(xué)的三位研究人員將涌現(xiàn)看作是一種“幻覺”,他們認(rèn)為,隨著規(guī)模的擴(kuò)大,大語言模型自然而然應(yīng)該變得更加高效;較大模型增加的復(fù)雜性使其在處理更難和更多樣化的問題時(shí)表現(xiàn)得更為出色。但這三位研究人員認(rèn)為,這種改進(jìn)是否呈現(xiàn)為平穩(wěn)可預(yù)測(cè)的提升,或是參差不齊的突然飛躍,主要取決于所選擇的衡量標(biāo)準(zhǔn),甚至可能是由于測(cè)試樣本的不足,而非模型內(nèi)部運(yùn)作機(jī)制本身。
例如,三位數(shù)加法就是一個(gè)典型例子。在2022年的BIG-bench研究中提出,研究人員報(bào)告稱,在參數(shù)較少的情況下,GPT-3和另一大語言模型LAMDA均無法準(zhǔn)確解決加法問題。然而,當(dāng)GPT-3的參數(shù)增至130億時(shí),其性能如同開關(guān)被打開一樣突然改變。GPT-3突然間就能夠正確完成加法運(yùn)算,當(dāng)LAMDA的參數(shù)增至680億時(shí)也是如此。這表明,完成加法運(yùn)算的能力似乎在某個(gè)參數(shù)閾值時(shí)突然出現(xiàn)。
但斯坦福大學(xué)的研究人員指出,之前對(duì)大語言模型的評(píng)價(jià)標(biāo)準(zhǔn)僅僅基于準(zhǔn)確性:模型要么能做到,要么做不到。因此,即便模型最初能夠正確預(yù)測(cè)出大部分?jǐn)?shù)字,也被判定為失敗。這種評(píng)價(jià)方式顯得有些不合理。如果任務(wù)是計(jì)算100加278,那么結(jié)果為376顯然比-9.34要準(zhǔn)確得多。
因此,科耶喬和他的研究合作者采用了一種獎(jiǎng)勵(lì)部分正確答案的衡量標(biāo)準(zhǔn)來測(cè)試同一任務(wù)。科耶喬表示:“我們可以問:模型預(yù)測(cè)第一個(gè)數(shù)字的準(zhǔn)確度有多高?第二個(gè)、第三個(gè)數(shù)字呢?”
科耶喬認(rèn)為這項(xiàng)新研究的靈感來源于他的研究生賴蘭·謝弗(Rylan Schaeffer),他稱謝弗注意到大語言模型的表現(xiàn)隨著評(píng)估方法的不同而變化。與斯坦福大學(xué)的同學(xué)白蘭度·米蘭達(dá)(Brando Miranda)共同研究后,他們采用了新的評(píng)估指標(biāo),發(fā)現(xiàn)隨著模型參數(shù)的增加,大語言模型在解決加法問題時(shí)預(yù)測(cè)的數(shù)字序列的準(zhǔn)確度逐漸提高。這說明,模型解決加法問題的能力并非突然出現(xiàn);換言之,這種能力的涌現(xiàn)并非不可預(yù)測(cè)的突然跳變,而是一個(gè)可預(yù)測(cè)的、穩(wěn)步的變化過程。他們發(fā)現(xiàn),當(dāng)采用不同的度量標(biāo)準(zhǔn)衡量性能時(shí),“涌現(xiàn)”現(xiàn)象就消失了。
盡管如此,其他科學(xué)家認(rèn)為,這項(xiàng)工作并未完全排除“涌現(xiàn)”概念的存在。例如,美國(guó)東北大學(xué)(Northeastern University)計(jì)算機(jī)科學(xué)家李天石指出,這三位研究人員的論文并未明確解釋在哪些度量標(biāo)準(zhǔn)或情況下,大語言模型的性能會(huì)顯示出突然的提升。她說:“因此,從這個(gè)意義上說,這些能力仍然是不可預(yù)測(cè)的?!爆F(xiàn)在在OpenAI工作的計(jì)算機(jī)科學(xué)家杰森·魏(Jason Wei)曾編制過一份關(guān)于模型“涌現(xiàn)”能力的清單,也是BIG-bench論文的作者之一,他認(rèn)為,早期關(guān)于“涌現(xiàn)”能力的說法是合理的,因?yàn)閷?duì)于算術(shù)這樣的能力來說,正確的答案才是最重要的。
人工智能初創(chuàng)公司Anthropic的研究科學(xué)家亞歷克斯·塔姆金(Alex Tamkin)表示:“這種探討絕對(duì)很有意思。”他認(rèn)為,新論文巧妙地分解了多步驟任務(wù),以識(shí)別各個(gè)組成部分的貢獻(xiàn)。塔姆金說,“但這并不是全部故事。我們不能說所有這些跳變都是幻覺。我仍然認(rèn)為,即使在進(jìn)一步預(yù)測(cè)或使用連續(xù)指標(biāo)的情況下,文獻(xiàn)顯示性能提升仍有不連續(xù)性。當(dāng)你增加模型的規(guī)模時(shí),仍然可以看到它以跳變的方式變得更好?!?/p>
即使如今對(duì)大語言模型中的“涌現(xiàn)”能力的理解可能因采用不同的衡量工具而有所改變,但對(duì)于未來更大、更復(fù)雜的大語言模型來說,情況可能會(huì)有所不同。萊斯大學(xué)的計(jì)算機(jī)科學(xué)家胡俠表示:“當(dāng)我們把大語言模型訓(xùn)練到下一個(gè)層次時(shí),它們不可避免地會(huì)從其他任務(wù)和模型中借鑒知識(shí)?!?/p>
這種對(duì)“涌現(xiàn)”能力的新理解不僅是研究人員需要考慮的一個(gè)抽象問題。對(duì)塔姆金而言,這直接關(guān)系到如何繼續(xù)預(yù)測(cè)大語言模型的性能?!斑@些技術(shù)已經(jīng)如此廣泛和普及,”他說?!拔蚁M鐓^(qū)將此作為一個(gè)起點(diǎn),繼續(xù)強(qiáng)調(diào)為這些現(xiàn)象建立一門預(yù)測(cè)科學(xué)的重要性。我們?cè)鯓硬拍懿粚?duì)下一代模型的出現(xiàn)感到驚訝呢?”