譯者 | 朱先忠?
審校 | 重樓?
圖像來(lái)自文章https://arxiv.org/abs/2303.10158,由作者本人制作?
人工智能在改變我們的生活、工作和與技術(shù)互動(dòng)的方式方面取得了令人難以置信的進(jìn)步。最近,一個(gè)取得重大進(jìn)展的領(lǐng)域是大型語(yǔ)言模型(LLM)的開(kāi)發(fā),如??GPT-3??、??ChatGPT??和??GPT-4??。這些模型能夠以令人印象深刻的準(zhǔn)確性執(zhí)行語(yǔ)言完成翻譯、文本摘要和問(wèn)答等任務(wù)。
雖然很難忽視大型語(yǔ)言模型不斷增加的模型規(guī)模,但同樣重要的是要認(rèn)識(shí)到,它們的成功很大程度上歸功于用于訓(xùn)練它們的大量高質(zhì)量數(shù)據(jù)。?
在本文中,我們將從以數(shù)據(jù)為中心的人工智能角度概述大型語(yǔ)言模型的最新進(jìn)展,參考我們最近的調(diào)查論文(末尾文獻(xiàn)1與2)中的觀(guān)點(diǎn)以及GitHub上的相應(yīng)??技術(shù)資源??。特別是,我們將通過(guò)以數(shù)據(jù)為中心的??人工智能??的視角仔細(xì)研究GPT模型,這是數(shù)據(jù)科學(xué)界日益增長(zhǎng)的一種觀(guān)點(diǎn)。我們將通過(guò)討論三個(gè)以數(shù)據(jù)為中心的人工智能目標(biāo)——訓(xùn)練數(shù)據(jù)開(kāi)發(fā)、推理數(shù)據(jù)開(kāi)發(fā)和數(shù)據(jù)維護(hù),來(lái)揭示GPT模型背后以數(shù)據(jù)為核心的??人工智能概念??。
大型語(yǔ)言模型與GPT模型?
LLM(大型語(yǔ)言模型)是一種自然語(yǔ)言處理模型,經(jīng)過(guò)訓(xùn)練可以在上下文中推斷單詞。例如,LLM最基本的功能是在給定上下文的情況下預(yù)測(cè)丟失的令牌。為了做到這一點(diǎn),LLM被訓(xùn)練來(lái)從海量數(shù)據(jù)中預(yù)測(cè)每個(gè)候選令牌的概率。?
使用具有上下文的大型語(yǔ)言模型預(yù)測(cè)丟失令牌的概率的說(shuō)明性示例(作者本人提供的圖片)?
GPT模型是指OpenAI創(chuàng)建的一系列大型語(yǔ)言模型,如??GPT-1??、??GPT-2??、??GPT-3??、??InstructGPT??和??ChatGPT/GPT-4??。與其他大型語(yǔ)言模型一樣,GPT模型的架構(gòu)在很大程度上基于轉(zhuǎn)換器(Transformer),它使用文本和位置嵌入作為輸入,并使用注意力層來(lái)建模令牌間的關(guān)系。
GPT-1模型體系架構(gòu)示意圖,本圖像來(lái)自論文https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf?
后來(lái)的GPT模型使用了與GPT-1類(lèi)似的架構(gòu),只是使用了更多的模型參數(shù),具有更多的層、更大的上下文長(zhǎng)度、隱藏層大小等。?
GPT模型的各種模型大小比較(作者提供圖片)?
什么是以數(shù)據(jù)為中心的人工智能??
以數(shù)據(jù)為中心的人工智能是一種新興的思考如何構(gòu)建人工智能系統(tǒng)的新方式。人工智能先驅(qū)吳恩達(dá)(Andrew Ng)一直在倡導(dǎo)這一理念。?
以數(shù)據(jù)為中心的人工智能是對(duì)用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)進(jìn)行系統(tǒng)化工程的學(xué)科。
——吳恩達(dá)
過(guò)去,我們主要專(zhuān)注于在數(shù)據(jù)基本不變的情況下創(chuàng)建更好的模型(以模型為中心的人工智能)。然而,這種方法可能會(huì)在現(xiàn)實(shí)世界中導(dǎo)致問(wèn)題,因?yàn)樗鼪](méi)有考慮數(shù)據(jù)中可能出現(xiàn)的不同問(wèn)題,例如不準(zhǔn)確的標(biāo)簽、重復(fù)和偏置。因此,“過(guò)度擬合”一個(gè)數(shù)據(jù)集可能不一定會(huì)導(dǎo)致更好的模型行為。?
相比之下,以數(shù)據(jù)為中心的人工智能專(zhuān)注于提高用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的質(zhì)量和數(shù)量。這意味著,注意力將集中在數(shù)據(jù)本身,而模型相對(duì)來(lái)說(shuō)更固定。以數(shù)據(jù)為中心的方法開(kāi)發(fā)人工智能系統(tǒng)在現(xiàn)實(shí)世界中具有更大的潛力,因?yàn)橛糜谟?xùn)練的數(shù)據(jù)最終決定了模型的最大能力。?
值得注意的是,“以數(shù)據(jù)為中心”與“數(shù)據(jù)驅(qū)動(dòng)”有根本不同,因?yàn)楹笳咧粡?qiáng)調(diào)使用數(shù)據(jù)來(lái)指導(dǎo)人工智能開(kāi)發(fā),而人工智能開(kāi)發(fā)通常仍以開(kāi)發(fā)模型而非工程數(shù)據(jù)為中心。?
以數(shù)據(jù)為中心的人工智能與以模型為中心的AI的比較(圖片來(lái)自https://arxiv.org/abs/2301.04819論文作者)?
總體來(lái)看,以數(shù)據(jù)為中心的人工智能框架由三個(gè)目標(biāo)組成:?
- 訓(xùn)練數(shù)據(jù)開(kāi)發(fā)是收集和產(chǎn)生豐富、高質(zhì)量的數(shù)據(jù),以支持機(jī)器學(xué)習(xí)模型的訓(xùn)練。?
- 推理數(shù)據(jù)開(kāi)發(fā)是為了創(chuàng)建新的評(píng)估集,這些評(píng)估集可以為模型提供更精細(xì)的見(jiàn)解,或者通過(guò)工程數(shù)據(jù)輸入觸發(fā)模型的特定能力。?
- 數(shù)據(jù)維護(hù)是為了確保數(shù)據(jù)在動(dòng)態(tài)環(huán)境中的質(zhì)量和可靠性。數(shù)據(jù)維護(hù)至關(guān)重要,因?yàn)楝F(xiàn)實(shí)世界中的數(shù)據(jù)不是一次性創(chuàng)建的,而是需要持續(xù)維護(hù)的。
以數(shù)據(jù)為中心的人工智能框架(圖像來(lái)自論文??https://arxiv.org/abs/2303.10158??的作者)?
為什么以數(shù)據(jù)為中心的人工智能使GPT模型如此成功??
幾個(gè)月前,人工智能界大佬Yann LeCun在其推特上表示,ChatGPT并不是什么新鮮事。事實(shí)上,在ChatGPT和GPT-4中使用的所有技術(shù)(Transformer和從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)等)都不是新技術(shù)。然而,他們確實(shí)取得了以前的模型無(wú)法取得的令人難以置信的成績(jī)。那么,他們成功的動(dòng)力是什么呢??
首先,加強(qiáng)訓(xùn)練數(shù)據(jù)開(kāi)發(fā)。通過(guò)更好的數(shù)據(jù)收集、數(shù)據(jù)標(biāo)記和數(shù)據(jù)準(zhǔn)備策略,用于訓(xùn)練GPT模型的數(shù)據(jù)的數(shù)量和質(zhì)量顯著提高。?
- GPT-1:??BooksCorpus數(shù)據(jù)集??用于訓(xùn)練。該數(shù)據(jù)集包含4629MB的原始文本,涵蓋了冒險(xiǎn)、幻想和浪漫等一系列流派的書(shū)籍。
- 沒(méi)有使用以數(shù)據(jù)為中心的人工智能策略。?
- 訓(xùn)練結(jié)果:在該數(shù)據(jù)集上應(yīng)用GPT-1可以通過(guò)微調(diào)來(lái)提高下游任務(wù)的性能。?
- 采用了以數(shù)據(jù)為中心的人工智能策略:(1)僅使用Reddit的出站鏈接來(lái)控制/過(guò)濾數(shù)據(jù),該鏈接至少收到3個(gè)結(jié)果;(2)使用工具Dragnet和Newspaper提取“干凈”的內(nèi)容;(3)采用重復(fù)數(shù)據(jù)消除和其他一些基于啟發(fā)式的凈化方法(論文中沒(méi)有提到細(xì)節(jié))。?
- 訓(xùn)練結(jié)果:凈化后得到40GB的文本。GPT-2無(wú)需微調(diào)即可實(shí)現(xiàn)強(qiáng)大的零樣本結(jié)果。?
- 使用了以數(shù)據(jù)為中心的人工智能策略:(1)訓(xùn)練分類(lèi)器,根據(jù)每個(gè)文檔與WebText的相似性篩選出低質(zhì)量文檔,WebText是高質(zhì)量文檔的代理。(2)使用Spark的MinHashLSH對(duì)文檔進(jìn)行模糊的重復(fù)數(shù)據(jù)消除。(3)使用WebText、圖書(shū)語(yǔ)料庫(kù)和維基百科來(lái)增強(qiáng)數(shù)據(jù)。?
- 訓(xùn)練結(jié)果:從45TB的明文中過(guò)濾得到570GB的文本(在本次質(zhì)量過(guò)濾中僅選擇1.27%的數(shù)據(jù))。在零樣本設(shè)置中,GPT-3顯著優(yōu)于GPT-2。?
- 使用了以數(shù)據(jù)為中心的人工智能策略:(1)使用人工提供的提示答案,通過(guò)監(jiān)督訓(xùn)練調(diào)整模型。(2)收集比較數(shù)據(jù)以訓(xùn)練獎(jiǎng)勵(lì)模型,然后使用該獎(jiǎng)勵(lì)模型通過(guò)來(lái)自人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)來(lái)調(diào)整GPT-3。?
- 訓(xùn)練結(jié)果:InstructGPT顯示出更好的真實(shí)性和更少的偏差,即更好的一致性。?
- GPT-2:使用??WebText??來(lái)進(jìn)行訓(xùn)練。這是OpenAI中的一個(gè)內(nèi)部數(shù)據(jù)集,通過(guò)從Reddit中抓取出站鏈接創(chuàng)建。
- GPT-3:GPT-3的訓(xùn)練主要基于??Common Crawl工具??。
- InstructGPT:讓人類(lèi)評(píng)估調(diào)整GPT-3的答案,使其能夠更好地符合人類(lèi)的期望。他們?yōu)樽⑨屍髟O(shè)計(jì)了測(cè)試,只有那些能夠通過(guò)測(cè)試的人才有資格進(jìn)行注釋。此外,他們甚至還設(shè)計(jì)了一項(xiàng)調(diào)查,以確保注釋者喜歡注釋過(guò)程。?
- ChatGPT/GPT-4:OpenAI未披露詳細(xì)信息。但眾所周知,ChatGPT/GPT-4在很大程度上遵循了以前GPT模型的設(shè)計(jì),它們?nèi)匀皇褂肦LHF來(lái)調(diào)整模型(可能有更多、更高質(zhì)量的數(shù)據(jù)/標(biāo)簽)。人們普遍認(rèn)為,隨著模型權(quán)重的增加,GPT-4使用了更大的數(shù)據(jù)集。?
其次,進(jìn)行推理數(shù)據(jù)開(kāi)發(fā)。由于最近的GPT模型已經(jīng)足夠強(qiáng)大,我們可以通過(guò)在固定模型的情況下調(diào)整提示(或調(diào)整推理數(shù)據(jù))來(lái)實(shí)現(xiàn)各種目標(biāo)。例如,我們可以通過(guò)提供摘要的文本以及“summarize it”或“TL;DR”等指令來(lái)進(jìn)行文本摘要,以指導(dǎo)推理過(guò)程。?
??提示符微調(diào)??,圖片由作者提供
設(shè)計(jì)正確的推理提示是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。它在很大程度上依賴(lài)于啟發(fā)式技術(shù)。一項(xiàng)很好的調(diào)查總結(jié)了目前為止人們使用的不同的提示方法。有時(shí),即使在語(yǔ)義上相似的提示也可能具有非常不同的輸出。在這種情況下,可能需要基于軟提示的校準(zhǔn)來(lái)減少差異。?
基于軟提示符的校準(zhǔn)。本圖像來(lái)自于論文https://arxiv.org/abs/2303.13035v1,經(jīng)原作者許可?
大型語(yǔ)言模型推理數(shù)據(jù)開(kāi)發(fā)的研究仍處于早期階段。在不久的將來(lái),已經(jīng)在其他任務(wù)中使用的更多推理數(shù)據(jù)開(kāi)發(fā)技術(shù)可能會(huì)應(yīng)用于大型語(yǔ)言模型領(lǐng)域。?
就數(shù)據(jù)維護(hù)方面來(lái)說(shuō),ChatGPT/GPT-4作為一種商業(yè)產(chǎn)品,并不僅僅是訓(xùn)練一次成功的,而是需要不斷更新和維護(hù)。顯然,我們不知道數(shù)據(jù)維護(hù)是如何在OpenAI之外執(zhí)行的。因此,我們討論了一些以數(shù)據(jù)為中心的通用人工智能策略,這些策略很可能已用于或?qū)⒂糜贕PT模型:?
- 持續(xù)數(shù)據(jù)收集:當(dāng)我們使用ChatGPT/GPT-4時(shí),我們的提示/反饋反過(guò)來(lái)可以被OpenAI用來(lái)進(jìn)一步推進(jìn)他們的模型??赡芤呀?jīng)設(shè)計(jì)和實(shí)施了質(zhì)量指標(biāo)和保證策略,以便在此過(guò)程中收集高質(zhì)量的數(shù)據(jù)。?
- 數(shù)據(jù)理解工具:有可能已經(jīng)開(kāi)發(fā)出各種工具來(lái)可視化和理解用戶(hù)數(shù)據(jù),促進(jìn)更好地理解用戶(hù)的需求,并指導(dǎo)未來(lái)的改進(jìn)方向。?
- 高效的數(shù)據(jù)處理:隨著ChatGPT/GPT-4用戶(hù)數(shù)量的快速增長(zhǎng),需要一個(gè)高效的數(shù)據(jù)管理系統(tǒng)來(lái)實(shí)現(xiàn)快速的數(shù)據(jù)采集。
ChatGPT/GPT-4系統(tǒng)能夠通過(guò)如圖所示的“拇指向上”和“拇指向下”兩個(gè)圖標(biāo)按鈕收集用戶(hù)反饋,以進(jìn)一步促進(jìn)他們的系統(tǒng)發(fā)展。此處屏幕截圖來(lái)自于https://chat.openai.com/chat。?
數(shù)據(jù)科學(xué)界能從這一波大型語(yǔ)言模型中學(xué)到什么?
大型語(yǔ)言模型的成功徹底改變了人工智能。展望未來(lái),大型語(yǔ)言模型可能會(huì)進(jìn)一步徹底改變數(shù)據(jù)科學(xué)的生命周期。為此,我們做出兩個(gè)預(yù)測(cè):?
- 以數(shù)據(jù)為中心的人工智能變得更加重要。經(jīng)過(guò)多年的研究,模型設(shè)計(jì)已經(jīng)非常成熟,尤其是在Transformer之后。工程數(shù)據(jù)成為未來(lái)改進(jìn)人工智能系統(tǒng)的關(guān)鍵(或可能是唯一)方法。此外,當(dāng)模型變得足夠強(qiáng)大時(shí),我們不需要在日常工作中訓(xùn)練模型。相反,我們只需要設(shè)計(jì)適當(dāng)?shù)耐评頂?shù)據(jù)(即時(shí)工程)來(lái)從模型中探索知識(shí)。因此,以數(shù)據(jù)為中心的人工智能的研發(fā)將推動(dòng)未來(lái)的進(jìn)步。?
- 大型語(yǔ)言模型將實(shí)現(xiàn)更好的以數(shù)據(jù)為中心的人工智能解決方案。在大型語(yǔ)言模型的幫助下,許多乏味的數(shù)據(jù)科學(xué)工作可以更有效地進(jìn)行。例如,ChaGPT/GPT-4已經(jīng)可以編寫(xiě)可操作的代碼來(lái)處理和清理數(shù)據(jù)。此外,大型語(yǔ)言模型甚至可以用于創(chuàng)建用于訓(xùn)練的數(shù)據(jù)。例如,最近的工作表明,使用大型語(yǔ)言模型生成合成數(shù)據(jù)可以提高臨床文本挖掘中的模型性能。?
使用大型語(yǔ)言模型生成合成數(shù)據(jù)以訓(xùn)練模型,此處圖像來(lái)自論文https://arxiv.org/abs/2303.04360,經(jīng)原作者許可?
參考資料
我希望這篇文章能在你自己的工作中給你帶來(lái)啟發(fā)。您可以在以下論文中了解更多關(guān)于以數(shù)據(jù)為中心的人工智能框架及其如何為大型語(yǔ)言模型帶來(lái)好處:?
[1]??以數(shù)據(jù)為中心的人工智能綜述??。
[2]??以數(shù)據(jù)為中心的人工智能前景與挑戰(zhàn)??。
注意,我們還維護(hù)了一個(gè)??GitHub代碼倉(cāng)庫(kù)??,它將定期更新相關(guān)的以數(shù)據(jù)為中心的人工智能資源。
在以后的文章中,我將深入研究以數(shù)據(jù)為中心的人工智能的三個(gè)目標(biāo)(訓(xùn)練數(shù)據(jù)開(kāi)發(fā)、推理數(shù)據(jù)開(kāi)發(fā)和數(shù)據(jù)維護(hù)),并介紹具有代表性的方法。?
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專(zhuān)家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。?
原文標(biāo)題:??What Are the Data-Centric AI Concepts behind GPT Models???,作者:Henry Lai?