2024年大語言模型(LLM)技術(shù)深度洞察:進(jìn)展、問題、趨勢(shì)
本文轉(zhuǎn)載自旺知識(shí),作者旺知識(shí)
對(duì)大型語言模型(LLMs)的興趣正在上升,特別是在2022年11月ChatGPT發(fā)布之后(見圖1)。近年來,LLMs已經(jīng)轉(zhuǎn)變了各個(gè)行業(yè),生成類似人類的文本并解決廣泛的應(yīng)用。然而,它們的效果受到偏見、不準(zhǔn)確和毒性問題的阻礙,這限制了它們更廣泛的采用并引發(fā)了道德?lián)鷳n。
圖1. 過去一年大型語言模型的谷歌搜索趨勢(shì)。來源:谷歌趨勢(shì)
本文通過深入探討有前景的方法,如自我訓(xùn)練、事實(shí)檢查和稀疏專業(yè)知識(shí),來解決這些問題并釋放這些模型的全部潛力,從而探索大型語言模型的未來。
1 - 大語言模型簡(jiǎn)介
大型語言模型是一種旨在通過分析大量數(shù)據(jù)生成和理解類似人類文本的人工智能模型。這些基礎(chǔ)模型基于深度學(xué)習(xí)技術(shù),通常涉及許多層和大量參數(shù)的神經(jīng)網(wǎng)絡(luò),使它們能夠捕捉到它們訓(xùn)練的數(shù)據(jù)中的復(fù)雜模式。
大型語言模型的主要目標(biāo)是理解自然語言的結(jié)構(gòu)、語法、語義和上下文,以便它能夠生成連貫且上下文適當(dāng)?shù)捻憫?yīng)或用相關(guān)信息完成給定的文本輸入。
這些模型在包括書籍、文章、網(wǎng)站和其他文本內(nèi)容在內(nèi)的多樣化文本數(shù)據(jù)源上進(jìn)行訓(xùn)練,這使它們能夠?qū)V泛的主題生成響應(yīng)。
2 - 大語言模型當(dāng)前發(fā)展進(jìn)展和問題
大型語言模型的當(dāng)前階段以其在理解和生成廣泛主題和應(yīng)用的類似人類文本方面的令人印象深刻的能力為標(biāo)志。這些模型使用先進(jìn)的深度學(xué)習(xí)技術(shù)構(gòu)建,并在大量數(shù)據(jù)上進(jìn)行訓(xùn)練,例如OpenAI的GPT-3和谷歌的BERT,已顯著影響自然語言處理領(lǐng)域。
當(dāng)前的LLMs在各種任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能,如:
- 情感分析
- 文本摘要
- 翻譯
- 問答
- 代碼生成
盡管取得了這些成就,語言模型仍然存在各種需要在未來模型中解決和修復(fù)的限制。
2.1 - 準(zhǔn)確性
大型語言模型使用機(jī)器學(xué)習(xí)來推斷信息,這引發(fā)了關(guān)于潛在不準(zhǔn)確性的擔(dān)憂。此外,預(yù)訓(xùn)練的大型語言模型難以動(dòng)態(tài)適應(yīng)新信息,導(dǎo)致可能的錯(cuò)誤響應(yīng),這需要在未來的發(fā)展中進(jìn)一步審查和改進(jìn)。圖3顯示了一些LLMs在準(zhǔn)確性方面的比較。
圖片
圖3. 在5次HELM基準(zhǔn)測(cè)試中各種語言模型的結(jié)果,用于準(zhǔn)確性。來源:“BLOOM: A 176B-Parameter Open-Access Multilingual Language Model”
2.2 - 偏見
大型語言模型通過語音和文本促進(jìn)類似人類的交流。然而,最近的發(fā)現(xiàn)表明,更先進(jìn)和龐大的系統(tǒng)傾向于吸收其訓(xùn)練數(shù)據(jù)中存在的社會(huì)偏見,導(dǎo)致在線社區(qū)中出現(xiàn)性別歧視、種族歧視或能力歧視的傾向(圖4)。
圖4. 大型語言模型的毒性指數(shù)。來源:斯坦福大學(xué)人工智能指數(shù)報(bào)告2022
例如,最近的一個(gè)2800億參數(shù)模型與2018年的1.17億參數(shù)模型相比,毒性水平顯著增加了29%。隨著這些系統(tǒng)的不斷發(fā)展,成為AI研究和開發(fā)的更強(qiáng)大的工具,偏見風(fēng)險(xiǎn)的潛在增加也在增長(zhǎng)。圖5比較了一些LLMs的偏見潛力。
圖片
圖5. 在5次HELM基準(zhǔn)測(cè)試中各種語言模型的結(jié)果,用于偏見。來源:“BLOOM: A 176B-Parameter Open-Access Multilingual Language Model”
2.3 - 毒性
大型語言模型的毒性問題指的是這些模型在響應(yīng)中無意中生成有害、冒犯性或不適當(dāng)?shù)膬?nèi)容的問題。這個(gè)問題的出現(xiàn)是因?yàn)檫@些模型是在包含偏見、冒犯性語言或有爭(zhēng)議觀點(diǎn)的大量文本數(shù)據(jù)上訓(xùn)練的。
圖片
圖6. 在5次HELM基準(zhǔn)測(cè)試中各種語言模型的結(jié)果,用于毒性.來源:“BLOOM: A 176B-Parameter Open-Access Multilingual Language Model”
解決未來大型語言模型中的毒性問題需要多方面的方法,包括研究、合作和持續(xù)改進(jìn)。一些可能的策略來減輕未來模型中的毒性可以包括:
- 策劃和改進(jìn)訓(xùn)練數(shù)據(jù)
- 開發(fā)更好的微調(diào)技術(shù)
- 納入用戶反饋
- 內(nèi)容審核策略
2.4 - 容量限制
每個(gè)大型語言模型都有一個(gè)特定的內(nèi)存容量,這限制了它作為輸入可以處理的令牌數(shù)量。例如,ChatGPT有一個(gè)2048令牌限制(大約1500個(gè)單詞),阻止它理解和為超過這個(gè)令牌閾值的輸入生成輸出。
GPT-4將容量擴(kuò)展到25000字,遠(yuǎn)遠(yuǎn)超過了依賴GPT-3.5的ChatGPT模型(圖7)。
圖7. ChatGPT和GPT-4之間的字?jǐn)?shù)限制比較.來源:OpenAI
2.5 - 預(yù)訓(xùn)練知識(shí)集
語言模型是在固定數(shù)據(jù)集上訓(xùn)練的,這些數(shù)據(jù)集代表了某個(gè)時(shí)間點(diǎn)的知識(shí)快照。一旦訓(xùn)練完成,模型的知識(shí)就被凍結(jié),無法訪問最新的信息。這意味著在訓(xùn)練數(shù)據(jù)收集后發(fā)生的任何信息或變化都不會(huì)反映在大型語言模型的響應(yīng)中。
這導(dǎo)致了幾個(gè)問題,例如:
- 過時(shí)或錯(cuò)誤的信息
- 無法處理最近的事件
- 在技術(shù)、金融或醫(yī)學(xué)等動(dòng)態(tài)領(lǐng)域中的相關(guān)性較低
3 - 大語言模型的未來發(fā)展趨勢(shì)
不可能預(yù)見未來的語言模型將如何演變。然而,有關(guān)LLMs的有前景的研究,專注于我們上面解釋的共同問題。我們?yōu)槲磥淼恼Z言模型指出幾個(gè)重要的變化趨勢(shì)。
3.1 - 多模態(tài)LLM
具有整合多種類型輸入的能力,包括文本、照片和視頻,多模態(tài)LLM是人工智能的重大進(jìn)步。這些模型非常適合各種應(yīng)用,因?yàn)樗鼈兡軌蚶斫夂蜕煽缍喾N模態(tài)的材料。通過在各種數(shù)據(jù)集上進(jìn)行大規(guī)模訓(xùn)練,多模態(tài)LLM被構(gòu)建來執(zhí)行更復(fù)雜和細(xì)致的任務(wù),例如回答關(guān)于圖像的問題或根據(jù)文本描述制作深入的視頻材料。
例子 –
- OpenAI的Sora – 在人工智能方面,OpenAI的Sora在文本到視頻生成方面取得了顯著進(jìn)展。該模型使用各種視頻和圖像數(shù)據(jù),如不同的時(shí)長(zhǎng)、分辨率和寬高比,來訓(xùn)練文本條件擴(kuò)散模型。Sora通過處理視頻和圖像潛在代碼的空間時(shí)間補(bǔ)丁,并使用先進(jìn)的變換器架構(gòu),生成高達(dá)一分鐘的高保真電影。
- Gemini – Google的Gemini多模態(tài)模型系列非常擅長(zhǎng)理解和生成基于文本、音頻、視頻和圖像的材料。Gemini有Ultra、Pro和Nano版本,可以處理從內(nèi)存受限的設(shè)備使用案例到復(fù)雜的推理活動(dòng)的各種應(yīng)用。評(píng)估結(jié)果顯示,Gemini Ultra模型在所有20個(gè)多模態(tài)基準(zhǔn)測(cè)試中提高了最先進(jìn)的水平,并在32個(gè)基準(zhǔn)測(cè)試中的30個(gè)中達(dá)到了人類專家在MMLU測(cè)試基準(zhǔn)上的表現(xiàn),等等。
- LLaVA – LLaVA是一個(gè)先進(jìn)的AI模型,它通過提高多模態(tài)學(xué)習(xí)能力,彌合了語言和視覺理解之間的差距。它非常適合需要對(duì)這兩種格式都有深刻理解的應(yīng)用,因?yàn)樗梢酝ㄟ^將視覺數(shù)據(jù)整合到語言模型中,分析和生成結(jié)合文本和圖像的內(nèi)容。
3.2 - 開源LLM
作為開源軟件提供的LLM已經(jīng)通過使全球社區(qū)能夠訪問復(fù)雜的模型及其背后的訓(xùn)練過程,民主化了AI研究。此外,這種透明度確保了AI研究中的可復(fù)制性,除了促進(jìn)合作和加速發(fā)現(xiàn)之外,還提供了對(duì)模型設(shè)計(jì)、訓(xùn)練數(shù)據(jù)和代碼實(shí)現(xiàn)的透明訪問。
例子
- LLM360 – LLM360旨在通過促進(jìn)模型創(chuàng)建的完全透明度來改變LLM領(lǐng)域。該項(xiàng)目公開了AMBER和CRYSTALCODER等模型的訓(xùn)練數(shù)據(jù)、代碼和中間結(jié)果以及最終權(quán)重。LLM360通過使整個(gè)訓(xùn)練過程開源,鼓勵(lì)可復(fù)制性和合作研究,為道德AI開發(fā)樹立了新的基準(zhǔn)。
- LLaMA – 擁有從7B到65B參數(shù)的模型,LLaMA在開源LLM方面取得了重大進(jìn)步。僅在公開可訪問的數(shù)據(jù)集上訓(xùn)練的LLaMA-13B在一系列基準(zhǔn)測(cè)試中的表現(xiàn)超過了更大的專有模型。該項(xiàng)目展示了對(duì)開放性和社區(qū)驅(qū)動(dòng)的AI研究的承諾。
- OLMo – AI2的OLMo(Open Language Model)為7B規(guī)模的模型提供了訓(xùn)練代碼、數(shù)據(jù)和模型權(quán)重的完全訪問。OLMo通過強(qiáng)調(diào)開放性和可復(fù)制性,鼓勵(lì)語言模型研究的進(jìn)步,使研究人員和學(xué)者能夠共同創(chuàng)造。
- Llama-3 – Meta Llama,以其8B和70B參數(shù)模型針對(duì)各種應(yīng)用進(jìn)行了優(yōu)化,在Llama-3中被引入。這些模型以其在推理和其他任務(wù)中的最新性能,在不同領(lǐng)域的開源AI開發(fā)中樹立了標(biāo)準(zhǔn)。
3.3 - 特定領(lǐng)域LLM
特定領(lǐng)域LLM旨在通過利用特定領(lǐng)域的數(shù)據(jù)和微調(diào)策略來更好地執(zhí)行專業(yè)任務(wù),例如編程和生物醫(yī)學(xué)。這些模型不僅提高了工作性能,還展示了AI如何被用來解決各種專業(yè)領(lǐng)域中的復(fù)雜問題。
例子
- BioGPT – BioGPT具有針對(duì)生物醫(yī)學(xué)領(lǐng)域的特殊架構(gòu),改進(jìn)了生物醫(yī)學(xué)信息提取和文本合成等活動(dòng)。在許多生物醫(yī)學(xué)自然語言處理任務(wù)中,它的表現(xiàn)優(yōu)于以前的模型,證明了其理解和生成生物醫(yī)學(xué)文本的能力。
- StarCoder – StarCoder專注于理解編程語言和生成代碼。由于在大型代碼數(shù)據(jù)集上進(jìn)行了深入訓(xùn)練,它在軟件開發(fā)活動(dòng)中非常熟練。它具有很強(qiáng)的理解復(fù)雜編程邏輯和創(chuàng)建代碼片段的能力。
- MathVista – MathVista解決了視覺理解和數(shù)學(xué)思維的交匯點(diǎn)。它在AI研究中處理數(shù)學(xué)和視覺數(shù)據(jù)方面顯示出改進(jìn),并為評(píng)估LLM在數(shù)學(xué)任務(wù)上的表現(xiàn)提供了標(biāo)準(zhǔn)。
3.4 - LLM智能體
大型語言模型驅(qū)動(dòng)的LLM智能體是復(fù)雜的AI系統(tǒng)。它們利用強(qiáng)大的語言能力在內(nèi)容開發(fā)和客戶服務(wù)等工作中脫穎而出。這些智能體處理自然語言查詢并執(zhí)行各種領(lǐng)域的任務(wù),如提出建議或制作藝術(shù)作品。當(dāng)它們被集成到聊天機(jī)器人和虛擬助手等應(yīng)用程序中時(shí),LLM智能體簡(jiǎn)化了交互。這展示了它們的多功能性以及它們?nèi)绾胃纳聘鞣N行業(yè)的用戶體驗(yàn)。
例子
- ChemCrow – ChemCrow將18個(gè)專業(yè)工具整合到一個(gè)平臺(tái)中,改變了計(jì)算化學(xué)。這個(gè)基于LLM的智能體能獨(dú)立合成驅(qū)蟲劑、有機(jī)催化劑和新的色團(tuán)。它在化學(xué)合成、藥物發(fā)現(xiàn)和材料設(shè)計(jì)方面也表現(xiàn)出色。與標(biāo)準(zhǔn)LLM不同,ChemCrow使用外部知識(shí)源,提高了其在具有挑戰(zhàn)性的化學(xué)工作中的表現(xiàn)。
- ToolLLM – ToolLLM通過強(qiáng)調(diào)工具的可用性,改進(jìn)了開源LLM。它使用ChatGPT進(jìn)行API收集、指令生成和解決方案路線注釋,以及ToolBench,一個(gè)指令調(diào)整數(shù)據(jù)集。與ChatGPT等閉源模型相當(dāng),ToolLLaMA在執(zhí)行復(fù)雜指令和推廣到未知數(shù)據(jù)源方面表現(xiàn)出色。
- OS-Copilot – 通過與操作系統(tǒng)交互,OS-Copilot擴(kuò)展了LLM的能力,并創(chuàng)建了FRIDAY,這是一個(gè)能夠很好地執(zhí)行各種工作的自治智能體。在GAIA基準(zhǔn)測(cè)試中,F(xiàn)RIDAY的表現(xiàn)優(yōu)于以前的方法,展示了在PowerPoint和Excel等任務(wù)中靈活使用的能力,需要的監(jiān)督更少。OS-Copilot的框架擴(kuò)展了AI在通用計(jì)算中的潛力,表明在自治智能體開發(fā)和更廣泛的AI研究中取得了實(shí)質(zhì)性進(jìn)展。
3.5 - 較小的LLM(包括量化LLM)
較小的LLM,如量化版本,適用于資源受限的設(shè)備部署,因?yàn)樗鼈兎?wù)于需要較少精度或較少參數(shù)的應(yīng)用。這些模型通過在有限的計(jì)算資源環(huán)境中提供更廣泛的可訪問性和應(yīng)用大規(guī)模語言處理能力,促進(jìn)了邊緣計(jì)算、移動(dòng)設(shè)備和其他需要有效AI解決方案的場(chǎng)景中的部署。
例子
- BitNet – BitNet是首個(gè)作為BitNet b1.58引入研究的1位LLM。每個(gè)參數(shù)具有三元權(quán)重{-1, 0, 1},該模型在成本效率方面大大提高,同時(shí)在困惑度和任務(wù)性能方面與全精度模型相當(dāng)。BitNet在能源消耗、吞吐量、延遲和內(nèi)存利用率方面優(yōu)于其他模型。它還提出了一種新的處理范式,并為訓(xùn)練高性能、低成本LLM創(chuàng)建了一個(gè)新的縮放定律。
- Gemma 1B – 基于與Gemini系列相同的技術(shù),現(xiàn)代輕量級(jí)開放變體稱為Gemma 1B。這些模型在語言解釋、推理和安全基準(zhǔn)測(cè)試中表現(xiàn)出色,參數(shù)大小為20億和70億。Gemma在18個(gè)基于文本的任務(wù)中的11個(gè)上的表現(xiàn)優(yōu)于同樣大小的開放模型。發(fā)布強(qiáng)調(diào)了AI使用中的安全性和責(zé)任性,包括預(yù)訓(xùn)練和細(xì)化檢查。
- Lit-LLaMA – Lit-LLaMA基于nanoGPT,旨在提供一個(gè)純凈、完全開放和安全的LLaMA源代碼實(shí)現(xiàn)。該項(xiàng)目?jī)?yōu)先考慮社區(qū)驅(qū)動(dòng)的開發(fā)和簡(jiǎn)單性。因此,沒有樣板代碼,實(shí)現(xiàn)簡(jiǎn)單。Lit-LLaMA支持參數(shù)高效的微調(diào)方法,如LLaMA-Adapter和LoRA,使得在消費(fèi)設(shè)備上的有效使用成為可能。利用PyTorch Lightning和Lightning Fabric等庫(kù),Lit-LLaMA專注于模型實(shí)現(xiàn)和訓(xùn)練的關(guān)鍵方面,堅(jiān)持單一文件方法,以生產(chǎn)最優(yōu)質(zhì)的LLaMA實(shí)現(xiàn),完全開放源代碼,為快速進(jìn)步和探索做好準(zhǔn)備。
3.6 - 非Transformer架構(gòu)LLM
被稱為非變換器LLM的語言模型經(jīng)常引入如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等組件,從而脫離了傳統(tǒng)的變換器架構(gòu)。這些方法通過研究替代設(shè)計(jì)來解決變換器的一些主要缺點(diǎn)和問題,如昂貴的計(jì)算成本和對(duì)序列數(shù)據(jù)處理不當(dāng)。非變換器LLM通過探索替代設(shè)計(jì)來提供獨(dú)特的方法來提高模型性能和效率,這擴(kuò)大了高級(jí)語言處理工作的應(yīng)用范圍,并增加了AI開發(fā)的工具數(shù)量。
例子
- Mamba – 由于Mamba解決了變換器架構(gòu)的計(jì)算效率問題,特別是處理擴(kuò)展序列時(shí),它在基礎(chǔ)模型中提供了重大發(fā)展。與傳統(tǒng)模型不同,Mamba不受次二次時(shí)間架構(gòu)的限制,這些架構(gòu)在基于內(nèi)容的推理方面存在困難。這些設(shè)計(jì)的例子包括線性注意力和循環(huán)模型。Mamba通過允許結(jié)構(gòu)化狀態(tài)空間模型(SSM)參數(shù)根據(jù)輸入工作來增強(qiáng)離散模態(tài)處理。這一突破和硬件感知并行算法導(dǎo)致了一種簡(jiǎn)化的神經(jīng)網(wǎng)絡(luò)架構(gòu),摒棄了MLP塊和注意力。Mamba在包括語言、音樂和基因組學(xué)在內(nèi)的多個(gè)模態(tài)中的表現(xiàn)超過了相同甚至更大尺寸的變換器,
3.7 - LLM自我事實(shí)檢查
旨在緩解大型語言模型的事實(shí)不可靠和靜態(tài)知識(shí)庫(kù)限制的一系列有前景的進(jìn)展。這些新穎的技術(shù)對(duì)于準(zhǔn)備LLMs進(jìn)行廣泛的現(xiàn)實(shí)世界實(shí)施至關(guān)重要。這樣做需要兩種能力:
- 訪問外部資源的能力
- 為答案提供引用和參考資料的能力
在這個(gè)領(lǐng)域的重大初步研究包括谷歌的REALM和Facebook的RAG,兩者都在2020年推出。
2022年6月,OpenAI推出了一個(gè)名為WebGPT的經(jīng)過微調(diào)的GPT模型版本,它利用微軟Bing瀏覽互聯(lián)網(wǎng)并生成更精確和全面的答案。WebGPT的運(yùn)作類似于人類用戶:
- 向Bing提交搜索查詢
- 點(diǎn)擊鏈接
- 滾動(dòng)網(wǎng)頁(yè)
- 使用像Ctrl+F這樣的功能來定位術(shù)語
當(dāng)模型將互聯(lián)網(wǎng)上的相關(guān)信息納入其輸出時(shí),它會(huì)包括引用,允許用戶驗(yàn)證信息的來源。研究結(jié)果表明,所有WebGPT模型在準(zhǔn)確響應(yīng)的比例和提供真實(shí)和有信息量的答案的百分比方面都超過了每個(gè)GPT-3模型。
圖8. 比較GPT-3和WebGPT模型的TruthfulQA結(jié)果
來源:“WebGPT: Browser-assisted question-answering with human feedback”
DeepMind正在積極探索類似的研究途徑。幾個(gè)月前,他們推出了一個(gè)名為Sparrow的新模型。像ChatGPT一樣,Sparrow以對(duì)話為基礎(chǔ)運(yùn)作,像WebGPT一樣,它可以搜索互聯(lián)網(wǎng)以獲取新信息并提供支持其主張的引用。
圖9. Sparrow提供最新答案和事實(shí)聲明的證據(jù)
來源:“Improving alignment of dialogue agents via targeted human judgements”
盡管現(xiàn)在下結(jié)論說準(zhǔn)確性、事實(shí)檢查和靜態(tài)知識(shí)庫(kù)問題可以在未來的模型中被克服還為時(shí)過早,但當(dāng)前的研究成果對(duì)未來是充滿希望的。這可能會(huì)減少使用提示工程來交叉檢查模型輸出的需求,因?yàn)槟P鸵呀?jīng)交叉檢查了其結(jié)果。
3.8 - 合成訓(xùn)練數(shù)據(jù)LLM
為了解決我們上面提到的一些限制,例如那些由訓(xùn)練數(shù)據(jù)引起的限制,研究人員正在研究能夠生成自己的訓(xùn)練數(shù)據(jù)集(即生成合成訓(xùn)練數(shù)據(jù)集)的大型語言模型。
在最近的一項(xiàng)研究中,谷歌研究人員開發(fā)了一個(gè)大型語言模型,能夠創(chuàng)建問題、生成全面答案、篩選其響應(yīng)以獲得最高質(zhì)量的輸出,并使用策劃的答案對(duì)自己進(jìn)行微調(diào)。令人印象深刻的是,這在多個(gè)語言任務(wù)中實(shí)現(xiàn)了新的最先進(jìn)的性能。
例如,該模型的性能從74.2%提高到82.1%在GSM8K上,從78.2%提高到83.0%在DROP上,這是兩個(gè)廣泛用于評(píng)估LLM性能的基準(zhǔn)。
最近的一項(xiàng)研究專注于增強(qiáng)一個(gè)關(guān)鍵的LLM技術(shù),稱為“指令微調(diào)”,它構(gòu)成了像ChatGPT這樣的產(chǎn)品的基礎(chǔ)。雖然ChatGPT和類似的指令微調(diào)模型依賴于人工制作的指令,但研究團(tuán)隊(duì)開發(fā)了一個(gè)能夠生成自己的自然語言指令并隨后使用這些指令對(duì)自己進(jìn)行微調(diào)的模型。
性能提升是顯著的,因?yàn)檫@種方法將基礎(chǔ)GPT-3模型的性能提高了33%,幾乎等同于OpenAI自己的指令調(diào)整模型(圖11)。
圖11. 由人類專家評(píng)估的GPT3模型及其指令調(diào)整變體的性能
來源:“Self-Instruct: Aligning Language Model with Self Generated Instructions”
有了這樣的未來模型,有可能減少模型輸出的偏見和毒性,并提高微調(diào)所需數(shù)據(jù)集的效率,這意味著模型學(xué)會(huì)自我優(yōu)化。
3.9 - 稀疏專家LLM模型
盡管每個(gè)模型的參數(shù)、訓(xùn)練數(shù)據(jù)、算法等導(dǎo)致性能差異,但所有今天公認(rèn)的語言模型——如OpenAI的GPT-3、Nvidia/Microsoft的Megatron-Turing、谷歌的BERT——在最終設(shè)計(jì)上都共享一個(gè)基本特征。它們是:
- 自回歸
- 自監(jiān)督
- 預(yù)訓(xùn)練
- 使用密集激活的基于變換器的架構(gòu)
密集語言模型意味著所有這些模型都使用它們所有的參數(shù)來創(chuàng)建對(duì)提示的響應(yīng)。正如你可能猜到的,這不是很有效,也很麻煩。
稀疏專家模型的想法是,模型能夠激活只有一組相關(guān)的參數(shù)來回答給定的提示。目前開發(fā)的超過1萬億參數(shù)的LLMs被認(rèn)為是稀疏模型。2 這些模型的一個(gè)例子是谷歌的GLam,擁有1.2萬億參數(shù)。
據(jù)《福布斯》報(bào)道,谷歌的GLaM比GPT-3大七倍,但訓(xùn)練能耗少了三分之二。它只需要一半的計(jì)算資源進(jìn)行推理,并在許多自然語言任務(wù)上超過了GPT-3的性能。
稀疏專家模型意味著以這種方式開發(fā)未來的語言模型更有效,能耗更低。
參考資料
Cem Dilmegani, The Future of Large Language Models in 2024.
Tanya Malhotra, The Next Big Trends in Large Language Model (LLM) Research.