一份來自Huggingface的大模型進(jìn)化指南:沒有必要完全復(fù)現(xiàn)GPT-4
大數(shù)據(jù)文摘出品
ChatGPT爆火之后,AI界進(jìn)行了一場“百模大戰(zhàn)”。近日,Huggingface的機(jī)器學(xué)習(xí)科學(xué)家Nathan Lambert,在一篇博文中對當(dāng)前入局大模型的力量,從開源視角進(jìn)行了梳理,并提出了很多深刻的見解。
What this looks like is instead of taking the giant scorecard that GPT4 was touted on, you take 10-50% as the targets for an open-source model and beat GPT4。
開源的模型不要試圖在所有方面都超越GPT4,而只專注于在部分領(lǐng)域(占總指標(biāo)的10-50%)取得優(yōu)勢。
至于原因,他提到語言模型在推理能力、預(yù)測能力、控制程度等方面具有很大的多樣性,僅僅“瞄準(zhǔn)”復(fù)現(xiàn)ChatGPT可能只是一種氛圍目標(biāo),并不必要。
此外,他還提到OpenAI的成功有運(yùn)氣成分,這可能是開源社區(qū)無法實(shí)現(xiàn)的。
圖片
以下是中文翻譯,文摘菌做了不改變原意的修改。
ChatGPT沒出來之前,大家一直以為語言模型只是學(xué)者們的研究項(xiàng)目,即易用性和成本擴(kuò)展非常粗糙,表現(xiàn)為模型難以上手、難以部署。ChatGPT發(fā)布之后,突然,大家期望正在實(shí)驗(yàn)室“待著”的語言模型,都能和ChatGPT一樣出色。實(shí)際上,這種期望并不現(xiàn)實(shí),語言模型在推理能力、預(yù)測能力、控制程度等方面具有很大的多樣性,而我們正處在初步探索階段。因此,重現(xiàn)ChatGPT更像是一種“氛圍”目標(biāo),并不必要。
接下來,開源社區(qū)可能針對特定需求開發(fā)具有更多特定功能的大型語言模型(LLM),但這些模型在總體能力上可能不如GPT4。開源的模型不會試圖在所有方面都超越GPT4,而只專注于在部分領(lǐng)域(占總指標(biāo)的10-50%)取得優(yōu)勢。在其他指標(biāo)上,開源模型可能更落后,而非與GPT4持平。差異表現(xiàn)在以下幾個方面:
不同的模型和數(shù)據(jù)起點(diǎn):在ChatGPT成為熱門話題時,GPT-3 還沒有開源。如今,數(shù)據(jù)標(biāo)準(zhǔn)已經(jīng)提高了很多,同時還有RLHF(從人類反饋中強(qiáng)化學(xué)習(xí)),一個已經(jīng)證實(shí)存在的技術(shù)實(shí)現(xiàn)。
在基礎(chǔ)模型的開發(fā)過程中,關(guān)鍵在于使用數(shù)據(jù)和基礎(chǔ)設(shè)施創(chuàng)建較小的基礎(chǔ)模型,然后微調(diào)參數(shù),以便在某個小領(lǐng)域中提高性能。然后,進(jìn)行最終大模型的訓(xùn)練。顯然,目前的模型和基礎(chǔ)設(shè)施正在引領(lǐng)一系列與幾年前 OpenAI 不同的實(shí)驗(yàn)路徑。
不同的數(shù)據(jù)集和評估:目前許多開源項(xiàng)目的進(jìn)展取決于GPT4對模型的評估。然而,顯然OpenAI在制定內(nèi)部決策時,并沒有根據(jù)其正在開發(fā)的語言模型的實(shí)際運(yùn)行情況來進(jìn)行評估,因此就有了不同的評估方法和風(fēng)格。也得益于不同的數(shù)據(jù)集和評估方法,開源團(tuán)隊能夠更快地收到關(guān)于他們模型的反饋,減少了模型完成到發(fā)布之間的等待時間。
不同的團(tuán)隊:據(jù)說OpenAI和Google的團(tuán)隊結(jié)構(gòu)非常模塊化,各個小團(tuán)隊負(fù)責(zé)模型的某個部分。這導(dǎo)致GPT模型的歷史發(fā)展沿著一條非常狹窄的路徑,每個團(tuán)隊不斷迭代和優(yōu)化他們負(fù)責(zé)的部分。相反,在開源領(lǐng)域,許多小團(tuán)隊在嘗試和復(fù)制各種不同的想法,使得辨別“哪些方法是可靠且有效的,哪些方法只是僥幸成功”更加容易。說實(shí)話,OpenAI的成功有運(yùn)氣成分,這可能是開源社區(qū)無法實(shí)現(xiàn)的。
因此,在上述觀點(diǎn)下,基礎(chǔ)模型的稀缺可能會為開源社區(qū)創(chuàng)造更多的創(chuàng)新空間,而企業(yè)則可能會通過持續(xù)優(yōu)化現(xiàn)有模型來取得穩(wěn)定的進(jìn)步。顯然,LLaMA項(xiàng)目的發(fā)展路徑中,已經(jīng)驗(yàn)證了這一趨勢。
圖片
圖注:大語言模型的演化樹:同一分支上的模型具有較為緊密的關(guān)系?;赥ransformer的模型以非灰色顯示:藍(lán)色分支中的僅解碼器模型,粉色分支中的僅編碼器模型,以及綠色分支中的編碼器-解碼器模型。模型在時間線上的垂直位置表示它們的發(fā)布日期。開源模型由實(shí)心正方形表示,而閉源模型由空心正方形表示。右下角的堆疊條形圖顯示了來自各個公司和機(jī)構(gòu)的模型數(shù)量。
盡管我們希望重現(xiàn)ChatGPT這樣的模型,但應(yīng)該接受差距。即使在計算能力方面投入數(shù)千萬美元的公司,實(shí)際獲得的計算能力(如AWS GPU或TPU),其訓(xùn)練吞吐量也可能有2-4倍的差異。
OpenAI和Google已經(jīng)解決了這些問題。因?yàn)樗鼈冊谡麄€技術(shù)棧的每個環(huán)節(jié)進(jìn)行優(yōu)化時會產(chǎn)生極大的協(xié)同效應(yīng)。也正是這種協(xié)同效應(yīng)的存在,我們無法短時間內(nèi)達(dá)到OpenAI和Google等大公司的技術(shù)水平。
在當(dāng)前的大環(huán)境下,有幾個不同類型的參與者將在接下來的幾個月里影響大型語言模型發(fā)展方向的競爭。我們現(xiàn)在正處于一個資源豐富的時代,所以這些參與者如何看待成功,實(shí)際上取決于它們與行業(yè)內(nèi)其他參與者之間的相對差距。在這些參與者之間最有趣的對比是:a) 它們?nèi)绾斡?xùn)練模型,b) 它們?nèi)绾问褂眠@些模型,c) 誰在使用這些模型。
一、垂直領(lǐng)域的科技公司:也即大語言模型運(yùn)動的先驅(qū)者,如OpenAI等,他們自己訓(xùn)練模型并使用這些成果。但除了文本輸出之外,好像其他所有事情都“秘而不宣”。這是相對單調(diào)、缺乏創(chuàng)新的發(fā)展路徑。
二、橫向大科技公司:這些公司將模型用于內(nèi)部服務(wù),但推理過程可以在分布式環(huán)境中進(jìn)行,例如用戶在邊緣設(shè)備中生成視頻。這些公司希望開源模式得到廣泛傳播,并將流行系統(tǒng)的優(yōu)化整合到他們的生態(tài)系統(tǒng)中。我預(yù)計,Meta公司會繼續(xù)開放機(jī)器學(xué)習(xí)模型,但是由于他們在信息傳播方面的限制,他們的迭代速度將不如完全開放的開源項(xiàng)目。
三、開源力量:許多人參與訓(xùn)練模型,而且更多的人在各種商業(yè)和非商業(yè)任務(wù)中使用這些模型。由于更新頻率更高(發(fā)展速度快,有更多獨(dú)立的團(tuán)隊參與其中),開源領(lǐng)域很可能會繼續(xù)成為大語言模型發(fā)展的核心推動力。
四、學(xué)術(shù)界:在學(xué)術(shù)領(lǐng)域,研究人員可能會集中精力開發(fā)新方法,以便從較少的資源中獲得更多成果或提高性能上限。
在最后三個群體(橫向大型科技公司、開源領(lǐng)域和學(xué)術(shù)界)中,它們會在彼此之間分享和整合技術(shù)成果,這使得發(fā)展路徑在初始階段看起來相互交織。
當(dāng)然,有些公司在這些分類之間存在交叉或模糊地帶,這類公司往往同時展示出上述不同群體的特點(diǎn)。
在討論諸如Vicuna和Koala等具有學(xué)術(shù)性且取得重大進(jìn)步的項(xiàng)目之前,我們應(yīng)該認(rèn)識到這些成果更多地是由快速變化的環(huán)境帶來的,而不僅僅是核心學(xué)術(shù)界的持續(xù)貢獻(xiàn)。絕大多數(shù)學(xué)者將致力于展示最新的人類反饋或微調(diào)技術(shù)等方面的成果,而不是定期發(fā)布頂級模型。
文摘菌注:Vicuna和Koala都是基于LLaMA模型的開源大模型。
目前,我們正處于開放模型從指令微調(diào)(IFT)過渡到完全基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的階段。顯然,未來,并非所有成功應(yīng)用RLHF的組織都能發(fā)布具有強(qiáng)大指令/聊天調(diào)優(yōu)能力的模型。
說實(shí)話,在當(dāng)前階段,我對目前的學(xué)術(shù)界有些看不清。大語言模型作為產(chǎn)品階段之前,人工智能研究的發(fā)展相對穩(wěn)定。
有傳言稱,在ChatGPT問世之前,自然語言處理(NLP)研究已經(jīng)逐漸式微,只剩下針對GPT-3的微調(diào)工作。目前對大語言模型的關(guān)注和研究熱潮并不是全新的現(xiàn)象,這種狂熱只是加速了自然語言處理(NLP)研究逐漸聚焦于大語言模型微調(diào)等領(lǐng)域的過程。
大語言模型成為研究熱點(diǎn)之后,學(xué)術(shù)界與產(chǎn)業(yè)界的合作研究可能仍然延續(xù)之前的方式。然而,對于那些沒有參與到這些特殊合作關(guān)系中的研究人員(他們實(shí)際上占據(jù)了大多數(shù)),可能會選擇采用不同的研究方法。
換句話說,獨(dú)立學(xué)術(shù)研究者的工作很可能在很大程度上預(yù)示了該領(lǐng)域發(fā)展的趨勢。
盡管學(xué)術(shù)體系存在諸多缺陷,但它確實(shí)會定期產(chǎn)生洞見?,F(xiàn)在,隨著該領(lǐng)域在工業(yè)和開源競爭方面的增長,人們將開始探索如何開展除了微調(diào)OpenAI API之外的大語言模型研究。然而,新的研究激勵措施(如大量用于LLM研究的AI安全資金)需要一定時間才能見效。
復(fù)現(xiàn)降低熱潮
我一直在嘗試尋找支持開源語言模型和研究的更多理由,而不僅僅停留在“我們一直都是這樣做的”和“問責(zé)制”這兩個方面,因?yàn)槠髽I(yè)總是會很快對這兩點(diǎn)妥協(xié)。
我很想進(jìn)行的反事實(shí)分析是:發(fā)布ChatGPT和GPT-4以及完整的技術(shù)論文,是否能消解目前社會中普遍存在的炒作現(xiàn)象?當(dāng)過程變得不透明時,企業(yè)和意見領(lǐng)袖更容易操控基于情感而非現(xiàn)實(shí)的傳播趨勢。
開放和復(fù)現(xiàn)目前已經(jīng)成為越來越罕見的話題,我希望有更多的團(tuán)隊愿意公開分享大語言模型的進(jìn)展,這樣我們社會的交流就能更加實(shí)事求是。
via
https://www.interconnects.ai/p/llm-development-paths