BLOOM可以為人工智能研究創(chuàng)造一種新的文化,但挑戰(zhàn)依然存在
譯文?譯者 | 李睿
審校 | 孫淑娟
BigScience研究項目日前發(fā)布了一個大型語言模型BLOOM,乍一看,它看起來像是復制OpenAI的GPT-3的又一次嘗試。
但BLOOM與其他大型自然語言模型(LLM)的不同之處在于,它在研究、開發(fā)、培訓和發(fā)布機器學習模型方面所做的努力。
近年來,大型科技公司將大型自然語言模型(LLM)就像嚴守商業(yè)機密一樣隱藏起來,而BigScience團隊從項目一開始就把透明與開放放在了BLOOM的中心。
其結果是一個大型語言模型,可以供研究和學習,并可供所有人使用。BLOOM所建立的開源和開放合作示例對大型自然語言模型(LLM)和其他人工智能領域的未來研究非常有益。但仍有一些需要解決的大型語言模型固有的一些挑戰(zhàn)。
什么是BLOOM?
BLOOM是“BigScience大型開放科學開放獲取多語言模型”的簡稱。從數據來看,它與GPT-3和OPT-175B并沒有太大的區(qū)別。它是一個非常大的Transformer 模型,擁有1760億個參數,使用1.6TB的數據進行訓練,其中包括自然語言和軟件源代碼。
與GPT-3一樣,它可以通過零鏡頭或少鏡頭學習執(zhí)行許多任務,其中包括文本生成、摘要、問題回答和編程等。
但BLOOM的重要性在于其背后的組織和構建過程。
BigScience是一個研究項目,由機器學習模型中心“Hugging Face”于2021年啟動。根據其網站的描述,該項目“旨在展示在人工智能/自然語言處理研究社區(qū)內創(chuàng)建、學習和共享大型語言模型和大型研究工件的另一種方式。”
在這方面,BigScience從歐洲核子研究中心(CERN)和大型強子對撞機(LHC)等科學創(chuàng)造計劃中獲得了靈感,在這些計劃中,開放的科學合作促進了對整個研究社區(qū)有用的大規(guī)模人工制品的創(chuàng)造。
從2021年5月以來的一年時間里,來自60個國家和250多個機構的1000多名研究人員在BigScience共同創(chuàng)造了BLOOM。
透明度、開放性和包容性
雖然大多數主要的大型自然語言模型(LLM)都只接受英語文本的訓練,但BLOOM的訓練語料庫包括46種自然語言和13種編程語言。這對于主要語言不是英語的許多地區(qū)都很有用。
BLOOM也打破了對大型科技訓練公司模型的實際依賴。大型自然語言模型(LLM)的主要問題之一是訓練和調整成本過高。這一障礙使得具有1000億個參數大型自然語言模型(LLM)成為擁有雄厚資金的大型科技公司的專屬領域。近年來,人工智能實驗室被大型科技公司吸引,以獲得補貼的云計算資源,并為其研究提供資金。
相比之下,BigScience研究團隊獲得了法國國家科學研究中心的300萬歐元資助,用于在超級計算機Jean Zay上訓練BLOOM。而沒有任何協議授予商業(yè)公司這項技術的獨家許可,也沒有承諾將該模型實現商業(yè)化,并將其轉化為可盈利的產品。
此外,BigScience團隊對模型訓練的整個過程是完全透明的。他們發(fā)布了數據集、會議記錄、討論和代碼,以及訓練模型的日志和技術細節(jié)。
研究人員正在研究該模型的數據和元數據,并發(fā)布有趣的發(fā)現。
例如,研究人中David McClure于2022年7月12日在推特上表示,“我一直在研究來自Bigscience和Hugging Face的非常酷的BLOOM模型背后的訓練數據集。其中有來自英語語料庫的1000萬塊樣本,大約占總數的1.25%、用'all-distilroberta-v1'編碼,然后從UMAP到2d?!?/p>
當然,經過訓練的模型本身可以在Hugging Face的平臺上下載,這減輕了研究人員花費數百萬美元進行訓練的痛苦。
Facebook公上個月在一些限制下開源了其中一個大型自然語言模型(LLM)。然而,BLOOM帶來的透明度是前所未有的,并有望為該行業(yè)設立一個新的標準。
BLOOM訓練聯合負責人Teven LeScao表示,“與工業(yè)人工智能研究實驗室的保密性相比,BLOOM證明了最強大的人工智能模型可以由更廣泛的研究社區(qū)以負責和開放的方式進行訓練和發(fā)布?!?
挑戰(zhàn)依然存在
雖然BigScience為人工智能研究和大型語言模型帶來開放性和透明度的努力值得稱贊,但該領域固有的挑戰(zhàn)仍然沒有改變。
大型自然語言模型(LLM)研究正朝著越來越大的模型發(fā)展,這將進一步增加訓練和運行成本。BLOOM使用384個Nvidia Tesla A100 GPU (每個價格約為約3.2萬美元)進行訓練。而更大的模型將需要更大的計算集群。BigScience團隊已經宣布將繼續(xù)創(chuàng)建其他開源大型自然語言模型(LLM),但該團隊將如何為其日益昂貴的研究提供資金還有待觀察。例如,OpenAI最初是一家非盈利組織,后來變成了一家銷售產品、依賴微軟資金的盈利性組織。
另一個有待解決的問題是運行這些模型的巨大成本。壓縮后的BLOOM模型的大小為227GB,運行它需要擁有數百GB內存的專用硬件。作為比較,GPT-3需要的計算集群相當于Nvidia DGX 2,其價格約為40萬美元?!癏ugging Face”計劃推出一個API平臺,使研究人員能夠以每小時40美元左右的價格使用該模型,這是一筆不小的成本。
運行BLOOM的成本還將影響希望構建由大型自然語言模型(LLM)支持的產品的應用機器學習社區(qū)、初創(chuàng)公司和組織。目前,OpenAI提供的GPT-3API更適合產品開發(fā)。而了解BigScience和Hugging Face將朝哪個方向發(fā)展,使開發(fā)者能夠在其有價值的研究基礎上開發(fā)產品,這將成為一件有趣的事情。
在這方面,人們期待BigScience在未來發(fā)布的模型中有更小的版本。與媒體經常描述的相反,大型自然語言模型(LLM)仍然遵循“沒有免費的午餐”的原則。這意味著在應用機器學習時,一個針對特定任務進行微調的更緊湊的模型比一個在許多任務上具有平均性能的非常大的模型更有效。例如,Codex是GPT-3的一個修改版本,它以GPT-3的一小部分規(guī)模和成本為編程提供了很好的幫助。GitHub目前提供基于Codex的產品Copilot,每月收費10美元。
隨著BLOOM希望建立的新文化,而研究未來學術和應用人工智能走向何方將是一件有趣的事情。
原文標題:??BLOOM can set a new culture for AI research—but challenges remain???,作者:Ben Dickson?