自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用童話訓(xùn)練AI模型,微軟找到了探索生成模型參數(shù)的新切入點(diǎn)

人工智能 新聞
現(xiàn)在,在近期發(fā)布的一篇論文中,微軟的兩名研究人員介紹了一種訓(xùn)練微小語(yǔ)言模型的新方法:用童話故事訓(xùn)練模型。

即便大語(yǔ)言模型的參數(shù)規(guī)模日漸增長(zhǎng),其模型中的參數(shù)到底是如何發(fā)揮作用的還是讓人難以琢磨,直接對(duì)大模型進(jìn)行分析又費(fèi)錢費(fèi)力。針對(duì)這種情況,微軟的兩位研究員想到了一個(gè)絕佳的切入點(diǎn),用生成簡(jiǎn)練但是又涵蓋各種常見(jiàn)邏輯和語(yǔ)法的童話故事來(lái)作為模型的生成任務(wù),這樣做能在減少模型的學(xué)習(xí)負(fù)擔(dān)的同時(shí),保留模型對(duì)邏輯和語(yǔ)法的學(xué)習(xí)能力,進(jìn)而用小模型來(lái)分析參數(shù)發(fā)揮的作用。這種方法可能會(huì)開(kāi)創(chuàng)一條新的研究道路。

人們都知道,學(xué)英語(yǔ)不是一件容易的事。但假如「學(xué)生」是一臺(tái)計(jì)算機(jī),就可以這樣高效地學(xué)英語(yǔ):只需將互聯(lián)網(wǎng)上堆積如山的文本,輸入一個(gè)名為神經(jīng)網(wǎng)絡(luò)的巨大數(shù)學(xué)模型即可。

這就是像 OpenAI 的 ChatGPT 這樣的生成式大模型背后的工作原理,在過(guò)去的一年里,它能夠面向廣泛的主題連貫地交談(即便會(huì)存在「幻覺(jué)」),效果讓所有人都感到驚訝。

但這種方法也有缺點(diǎn):首先,將龐大的文本檔案轉(zhuǎn)化為語(yǔ)言模型所需的訓(xùn)練語(yǔ)料,成本高昂且耗時(shí)。另一方面,即使是訓(xùn)練大語(yǔ)言模型的人也很難理解它們的內(nèi)部工作原理,這反過(guò)來(lái)又使得人們很難避免設(shè)計(jì)上的失敗。

面對(duì)這些困難,一些研究人員選擇在較小的數(shù)據(jù)集上訓(xùn)練較小的模型,然后研究模型行為。布朗大學(xué)語(yǔ)言模型研究員 Ellie Pavlick 說(shuō):「這就像果蠅基因組測(cè)序與人類基因組測(cè)序的關(guān)系一樣?!?/span>

現(xiàn)在,在近期發(fā)布的一篇論文中,微軟的兩名研究人員介紹了一種訓(xùn)練微小語(yǔ)言模型的新方法:用童話故事訓(xùn)練模型。

圖片

論文鏈接:https://arxiv.org/pdf/2305.07759.pdf

為 ChatGPT 接口提供動(dòng)力的大型語(yǔ)言模型 GPT-3.5 有近 2000 億個(gè)參數(shù),它是在由數(shù)千億個(gè)單詞組成的數(shù)據(jù)集上訓(xùn)練的(OpenAI 尚未發(fā)布 GPT-4 的相應(yīng)數(shù)據(jù))。訓(xùn)練這樣的大型模型通常需要至少 1000 個(gè)稱為 GPU 的專用處理器,并行運(yùn)行數(shù)周。只有少數(shù)公司能夠籌集到如此的資源,更不用說(shuō)訓(xùn)練和比較不同的模型了。

這兩位研究人員的研究表明,比當(dāng)今最先進(jìn)的系統(tǒng)小數(shù)千倍的語(yǔ)言模型在接受這種基于童話故事的訓(xùn)練后,能迅速學(xué)會(huì)講述連貫且符合語(yǔ)法的故事。他們的研究成果指明了新的研究方向,可能有助于訓(xùn)練更大的模型并理解它們的行為。

艾倫人工智能研究所(Allen Institute for Artificial Intelligence)的語(yǔ)言模型研究員 Chandra Bhagavatula 說(shuō):「我發(fā)現(xiàn)這篇論文信息量很大,這個(gè)概念本身就超級(jí)有趣」。

從童話故事說(shuō)起

作為語(yǔ)言模型核心的神經(jīng)網(wǎng)絡(luò)是一種數(shù)學(xué)結(jié)構(gòu),其靈感來(lái)源于人腦。每個(gè)神經(jīng)網(wǎng)絡(luò)都包含許多按層排列的人工神經(jīng)元,相鄰層的神經(jīng)元之間存在連接。神經(jīng)網(wǎng)絡(luò)的行為受這些連接點(diǎn)(稱為參數(shù))的控制。在語(yǔ)言模型中,根據(jù)初始提示詞(prompt)和已經(jīng)生成的單詞,參數(shù)控制著模型下一步可能吐出的單詞。

只有在訓(xùn)練中,當(dāng)模型反復(fù)將自己的輸出與訓(xùn)練數(shù)據(jù)集中的文本進(jìn)行比較,并調(diào)整參數(shù)以提高相似度時(shí),模型才會(huì)真正 「活 」起來(lái)。一個(gè)未經(jīng)訓(xùn)練、參數(shù)隨機(jī)的網(wǎng)絡(luò)很容易通過(guò)幾行代碼組裝起來(lái),但它只會(huì)產(chǎn)生胡言亂語(yǔ)。經(jīng)過(guò)訓(xùn)練后,它通??梢浴杆剖嵌恰沟乩^續(xù)處理陌生文本。較大的模型通常會(huì)進(jìn)行進(jìn)一步的微調(diào),使其學(xué)會(huì)回答問(wèn)題和遵循指令,但訓(xùn)練的主要內(nèi)容是掌握單詞預(yù)測(cè)。

單詞預(yù)測(cè)的成功需要語(yǔ)言模型掌握多種不同的技能。例如,根據(jù)英語(yǔ)語(yǔ)法規(guī)則,「going」一詞之后的下一個(gè)詞很可能是 「to」,而與文章主題無(wú)關(guān)。此外,完成 「the capital of France is」(法國(guó)的首都是__)需要系統(tǒng)掌握事實(shí)知識(shí),而完成包含 「not」一詞的段落則需要系統(tǒng)掌握基本的邏輯。

「原始語(yǔ)言非常復(fù)雜,」DeepMind 的機(jī)器學(xué)習(xí)研究員 Timothy Nguyen 說(shuō)?!笧榱俗層腥さ恼Z(yǔ)言能力出現(xiàn),人們采用了數(shù)據(jù)越多越好的方法?!?/span>

Ronen Eldan 是一位數(shù)學(xué)家,2022 年加入微軟研究院研究生成語(yǔ)言模型。要想做到這一點(diǎn),最直觀的方法是使用小數(shù)據(jù)集,而這又意味著必須訓(xùn)練專攻特定任務(wù)的模型,這樣它們就不會(huì)過(guò)于分散。起初,他想訓(xùn)練模型解決某一類數(shù)學(xué)問(wèn)題,但一天下午,在與 5 歲的女兒相處時(shí),他意識(shí)到童話故事非常適合。

他說(shuō):「在我給她讀了一個(gè)故事后,我就想到了這個(gè)點(diǎn)子?!?/span>

圖片Ronen Eldan。

為了生成連貫的童話故事,語(yǔ)言模型需要學(xué)習(xí)世界性的事實(shí),跟蹤人物和事件,并遵守語(yǔ)法規(guī)則——這些都是大型模型所面臨的挑戰(zhàn)的簡(jiǎn)單版本。但是,在海量數(shù)據(jù)集上訓(xùn)練的大型模型在學(xué)習(xí)真正重要的規(guī)則的同時(shí),也學(xué)習(xí)了無(wú)數(shù)無(wú)關(guān)緊要的細(xì)節(jié)。Eldan 希望,兒童故事的簡(jiǎn)潔性和有限的詞匯量能讓小型模型的學(xué)習(xí)變得更容易管理——使它們更容易訓(xùn)練,也更容易理解。

不過(guò),在語(yǔ)言模型的世界里,「小」是相對(duì)的:比用于訓(xùn)練 GPT-3.5 的數(shù)據(jù)集小一千倍的數(shù)據(jù)集仍然需要包含數(shù)百萬(wàn)個(gè)故事。

Nguyen 說(shuō):「我不知道你想花多少錢,但我猜你不會(huì)雇專業(yè)人士來(lái)寫(xiě)(幾百萬(wàn)個(gè))短篇故事?!?/span>

要滿足如此貪婪的讀者,需要一位非常多產(chǎn)的作家,但 Eldan 心里有幾個(gè)候選:有誰(shuí)能比大語(yǔ)言模型更適合為小語(yǔ)言模型寫(xiě)作呢?

Toy Stories

Eldan 立即著手創(chuàng)建一個(gè)由大語(yǔ)言模型生成的合成童話故事庫(kù)。但他很快發(fā)現(xiàn),即使是最先進(jìn)的模型,也不是「天生」就很有創(chuàng)造力。他意識(shí)到,如果你只是告訴 GPT-4 編寫(xiě)適合 4 歲兒童的故事,「大約五分之一的故事都會(huì)是關(guān)于去公園的孩子害怕滑梯的」。在互聯(lián)網(wǎng)看來(lái),這顯然就是最典型的學(xué)齡前故事。

解決的辦法是在 prompt 中加入一點(diǎn)隨機(jī)性。首先,Eldan 使用 GPT-4 生成了一份包含 1500 個(gè) 4 歲兒童可能知道的名詞、動(dòng)詞和形容詞的列表,這個(gè)列表非常簡(jiǎn)短,他可以很容易地自行檢查。然后,他編寫(xiě)了一個(gè)簡(jiǎn)單的計(jì)算機(jī)程序,反復(fù)提示 GPT-3.5 或 GPT-4 生成一個(gè)適合該年齡段的故事,其中包括從列表中隨機(jī)抽取的三個(gè)單詞,還包括一個(gè)的隨機(jī)選擇的細(xì)節(jié)類型,如大團(tuán)圓結(jié)局或情節(jié)轉(zhuǎn)折。令人欣慰的是,生成的故事并不會(huì)充滿恐怖情節(jié)。

Eldan 現(xiàn)在有了一套按需提供訓(xùn)練數(shù)據(jù)的程序,但他不知道訓(xùn)練一個(gè)功能模型需要多少故事,也不知道這個(gè)模型需要多大。這時(shí),他與微軟和卡內(nèi)基梅隆大學(xué)的機(jī)器學(xué)習(xí)研究員李遠(yuǎn)志合作,利用小型模型可以快速訓(xùn)練的優(yōu)勢(shì),嘗試了不同的可能性。

圖片

李遠(yuǎn)哲與 Eldan 合作,比較了在合成兒童故事上訓(xùn)練的不同模型。他們發(fā)現(xiàn),小得出奇的模型也能學(xué)會(huì)講連貫的故事。

第一步是決定如何評(píng)估他們的模型。就像在課堂上一樣,在語(yǔ)言模型研究中,評(píng)分也是一個(gè)充滿爭(zhēng)議的話題。沒(méi)有一個(gè)完美的評(píng)分標(biāo)準(zhǔn)能囊括研究人員想知道的一切,在某些任務(wù)中表現(xiàn)出色的模型在另一些任務(wù)中往往會(huì)大敗而歸。隨著時(shí)間的推移,研究人員根據(jù)答案明確的問(wèn)題制定了各種標(biāo)準(zhǔn)基準(zhǔn),如果要評(píng)估特定技能,這是一種很好的方法。

但 Eldan 和李對(duì)一些更模糊的問(wèn)題很感興趣:如果盡可能簡(jiǎn)化語(yǔ)言,語(yǔ)言模型到底需要多大?Eldan 說(shuō):「為了直接測(cè)試模型是否會(huì)說(shuō)英語(yǔ),我認(rèn)為唯一能做的就是讓模型以開(kāi)放的方式生成英語(yǔ)內(nèi)容?!?/span>

要衡量模型在此類定性問(wèn)題上的表現(xiàn),只有兩種方法:依靠人類評(píng)分員,或者再次求助于 GPT-4。兩位研究人員選擇了后者,實(shí)際上是讓大型模型既編寫(xiě)教科書(shū),又進(jìn)行批改。

Bhagavatula 說(shuō),他希望看到 GPT-4 的評(píng)價(jià)與人類審稿人的評(píng)價(jià)相比如何 —GPT-4 可能偏向于它幫助訓(xùn)練的模型,而語(yǔ)言模型的不透明性使得這種偏向難以量化。但他認(rèn)為這些微小之處不會(huì)影響不同模型之間的比較,這些模型是在類似的合成故事集上訓(xùn)練出來(lái)的,而這正是 Eldan 和李的工作重點(diǎn)。

Eldan 和李采用了兩步程序來(lái)評(píng)估訓(xùn)練后的每個(gè)小型模型。首先,他們向小型模型 prompt 一個(gè)與訓(xùn)練數(shù)據(jù)集不同的故事的前半部分,使其產(chǎn)生一個(gè)新的結(jié)尾,并用 50 個(gè)不同的測(cè)試故事重復(fù)這一過(guò)程。其次,他們指示 GPT-4 根據(jù)創(chuàng)意、語(yǔ)法和與故事開(kāi)頭的一致性這三個(gè)類別對(duì)小模型的每個(gè)結(jié)尾進(jìn)行評(píng)分。然后,他們對(duì)每個(gè)類別的分?jǐn)?shù)進(jìn)行平均,最后得出每個(gè)模型的三個(gè)最終等級(jí)。

有了這個(gè)程序,Eldan 和李終于可以比較不同的模型,找出哪些是「明星學(xué)生」了。

測(cè)試結(jié)果

經(jīng)過(guò)初步探索,兩位研究人員確定了一個(gè)包含約 200 萬(wàn)個(gè)故事的訓(xùn)練數(shù)據(jù)集。然后,他們使用這個(gè)被稱為 TinyStories 的數(shù)據(jù)集來(lái)訓(xùn)練參數(shù)規(guī)模介于 100 萬(wàn)到 3000 萬(wàn)的、層數(shù)各不相同的模型。這個(gè)工作并不耗時(shí):僅使用了四塊 GPU,其中最大的模型的訓(xùn)練時(shí)間不超過(guò)一天。

模型太小也不行。例如,一個(gè)測(cè)試故事的開(kāi)頭是一個(gè)長(zhǎng)相兇惡的男人對(duì)一個(gè)女孩說(shuō)他要帶走她的貓。一個(gè)百萬(wàn)級(jí)參數(shù)的模型陷入了一個(gè)死循環(huán),女孩反復(fù)告訴男人她想和他做朋友。但更大一點(diǎn)的模型(仍然比 GPT-3.5 小數(shù)千倍)卻表現(xiàn)出人意料的好。2800 萬(wàn)參數(shù)的版本講述了一個(gè)連貫的故事,盡管結(jié)局很悲慘:「凱蒂開(kāi)始哭泣,但那個(gè)男人并不在意。他把貓帶走了,凱蒂再也沒(méi)見(jiàn)過(guò)她的貓。這就是結(jié)局」。

除了測(cè)試他們自己的模型,Eldan 和李還向 OpenAI 的 GPT-2 提出了同樣的挑戰(zhàn),這是一個(gè)在 2019 年發(fā)布的擁有 15 億個(gè)參數(shù)的模型。它的表現(xiàn)要糟糕得多——在故事戛然而止之前,男子威脅要把女孩送到法庭、監(jiān)獄、醫(yī)院、太平間,最后送進(jìn)火葬場(chǎng)。

研究簡(jiǎn)介

Nguyen 說(shuō),如此微小的模型都能如此流暢地工作,真是讓人驚訝,但 GPT-2 在這項(xiàng)任務(wù)中的表現(xiàn)也許并不令人驚訝:它是一個(gè)較大的模型,但還遠(yuǎn)未達(dá)到最先進(jìn)的水平,而且它是在一個(gè)非常不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練的。他指出:「一個(gè)小孩子只接受幼兒任務(wù)訓(xùn)練,比如玩玩具,可能會(huì)比你我做得更好。但是我們沒(méi)有專攻這個(gè)簡(jiǎn)單的東西?!?/span>

不同 TinyStories 模型之間的比較并不存在相同的干擾因素。Eldan 和李觀察到的提示是,層數(shù)較少但每層神經(jīng)元較多的網(wǎng)絡(luò)更善于回答需要事實(shí)知識(shí)的問(wèn)題;相反,層數(shù)較多且每層神經(jīng)元較少的網(wǎng)絡(luò)更善于追蹤故事早期的人物和情節(jié)點(diǎn)。巴加瓦圖拉發(fā)現(xiàn)這一結(jié)果特別有趣。他說(shuō),如果能在更大的模型中復(fù)制這一結(jié)果,「那將是這項(xiàng)工作產(chǎn)生的一個(gè)非??岬慕Y(jié)果。」

Eldan 和李還研究了他們的小模型的能力與訓(xùn)練期的長(zhǎng)短的關(guān)系。多次實(shí)驗(yàn)表明,模型都是先掌握語(yǔ)法,后掌握一致性。Eldan 認(rèn)為,這種模式說(shuō)明了獎(jiǎng)勵(lì)結(jié)構(gòu)的差異決定神經(jīng)網(wǎng)絡(luò)和兒童之間語(yǔ)言習(xí)得模式的差異。對(duì)于通過(guò)預(yù)測(cè)單詞來(lái)學(xué)習(xí)的語(yǔ)言模型來(lái)說(shuō),「對(duì)『我想要』這個(gè)單詞的獎(jiǎng)勵(lì)和對(duì)『冰淇淋』這個(gè)單詞的獎(jiǎng)勵(lì)一樣大,」他說(shuō)。另一方面,兒童 「并不在乎他們說(shuō)的是『我想吃冰淇淋』還是『冰淇淋、冰淇淋、冰淇淋』」

定性分析與定量分析

Eldan 和李希望這項(xiàng)研究能激勵(lì)其他研究人員在 TinyStories 數(shù)據(jù)集上訓(xùn)練不同的模型,并比較它們的能力。但通常很難預(yù)測(cè)小型模型的哪些特征也會(huì)出現(xiàn)在大型模型中。

「也許小鼠視力模型確實(shí)是人類視力的很好替代品,但小鼠抑郁模型是人類抑郁的可借鑒模型嗎?」Pavlick 說(shuō)?!该糠N情況都有些不同?!?/span>

TinyStories 模型的成功還提供了一個(gè)更廣泛的啟示。編譯訓(xùn)練數(shù)據(jù)集的標(biāo)準(zhǔn)方法不只包括從互聯(lián)網(wǎng)上收集文本,然后過(guò)濾掉垃圾信息。由大型模型生成的合成文本可以提供另一種方法來(lái)建立高質(zhì)量的數(shù)據(jù)集,同時(shí)不必如此龐大。

Eldan 說(shuō):「我們有越來(lái)越多的證據(jù)表明,這不僅在 TinyStories 這樣大小的模型中非常有效,在更大的模型中也是如此。」

這些證據(jù)來(lái)自 Eldan、李和其他微軟研究人員關(guān)于十億參數(shù)模型的兩篇后續(xù)論文。在第一篇論文中,他們利用 GPT-3.5 生成的代碼片段和從互聯(lián)網(wǎng)上精心挑選的代碼,訓(xùn)練了一個(gè)學(xué)習(xí) Python 編程語(yǔ)言的模型。在第二篇論文中,他們用涵蓋廣泛主題的合成「教科書(shū)」擴(kuò)充了訓(xùn)練數(shù)據(jù)集,以訓(xùn)練通用語(yǔ)言模型。在測(cè)試中,這兩個(gè)模型都優(yōu)于在較大數(shù)據(jù)集上訓(xùn)練的較大模型。但是,語(yǔ)言模型的評(píng)估總是很棘手,合成訓(xùn)練數(shù)據(jù)的方法仍處于起步階段,需要進(jìn)行更多的獨(dú)立測(cè)試。

雖然最先進(jìn)的語(yǔ)言模型越來(lái)越大,但在它們的小型同類上的驚人發(fā)現(xiàn)卻提醒我們,即使是最簡(jiǎn)單的模型,我們也還有很多不了解的地方。Nguyen 希望看到更多論文探討 TinyStories 首創(chuàng)的方法。

「當(dāng)前的問(wèn)題是:參數(shù)規(guī)模該多大、為什么參數(shù)規(guī)模如此重要?這應(yīng)該是一門(mén)科學(xué),而這篇論文有望成為一系列研究的開(kāi)端。」

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2016-12-01 11:18:47

私有云

2009-06-25 11:11:25

控制JSF切入點(diǎn)

2015-08-13 09:55:22

大數(shù)據(jù)

2024-02-26 08:25:00

模型訓(xùn)練

2022-02-09 09:08:20

XDR安全運(yùn)營(yíng)網(wǎng)絡(luò)安全

2020-02-24 10:51:25

微軟開(kāi)源Windows

2023-09-07 13:25:09

2024-06-27 10:00:54

2010-09-27 14:42:27

2020-09-11 10:48:49

微軟機(jī)器學(xué)習(xí)開(kāi)源AI

2024-12-19 09:48:59

2018-08-17 14:50:40

2023-06-18 12:18:57

2023-10-11 12:32:53

AI模型

2025-04-01 09:54:09

AI算法大模型AI

2023-01-30 11:35:14

SpringJava

2023-09-17 00:09:35

微軟新模型參數(shù)

2022-12-27 09:40:35

模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)