使用小型語言模型以預(yù)算部署AI
SLM 是一種更具成本效益的方法,它允許公司在安全的環(huán)境中將模型適應(yīng)其專有數(shù)據(jù)。
譯自Use Small Language Models To Deploy AI on a Budget,作者 Emily Freeman。
AI 正在顛覆科技行業(yè)。關(guān)于通用人工智能(AGI) 及其取代人類的能力的討論無處不在。無論未來是在十年后還是一年后,許多團(tuán)隊(duì)都需要幫助充分利用 AI。
只有少數(shù)公司維護(hù)我們所知的 LLM——GPT、Claude、Bard、LaMDA、LLaMA 等——因?yàn)橛?xùn)練所需的資源極其昂貴。LLM在海量數(shù)據(jù)集上進(jìn)行訓(xùn)練。
這些模型僅僅是開始。它們提供了一個令人難以置信的平臺來構(gòu)建更有效、更定制的解決方案:在您的特定數(shù)據(jù)上訓(xùn)練的小型語言模型 (SLM)。
是什么讓 SLM 變小?
簡而言之——參數(shù)數(shù)量。要理解 SLM 對現(xiàn)實(shí)世界應(yīng)用的價(jià)值,您必須了解 LLM 的冗長性。OpenAI 的 GPT-3 有 1750 億個參數(shù),而 Meta 的 Llama 3.1 有一個包含 4050 億個參數(shù)的版本。但這意味著什么?
LLM 使用 Transformer 模型來標(biāo)記和分析數(shù)據(jù),利用參數(shù)來消費(fèi)、解釋和生成人類語言。如果您閱讀過任何資料,您可能會發(fā)現(xiàn)“標(biāo)記”和“參數(shù)”可以互換使用,但它們是不同的。
標(biāo)記是 LLM 的離散數(shù)據(jù)單元。在下面的示例中,每個詞都被 LLM 作為標(biāo)記攝取。根據(jù)模型的不同,標(biāo)記可以是詞語、短語、字符等。標(biāo)記允許 LLM 將數(shù)據(jù)分解并有效地評估它。例如,LLM 可能將“cats”一詞解釋為與“cat”相同,以標(biāo)準(zhǔn)化信息。
圖片
簡而言之,參數(shù)是 LLM 用于評估數(shù)據(jù)的規(guī)則——權(quán)重和偏差。參數(shù)允許 LLM 更強(qiáng)調(diào)特定詞語以建立上下文和含義。參數(shù)還將詞語鏈接起來;在下面的示例中,“future”和“it’s”指的是同一件事。
圖片
您可能在問自己,“更多的參數(shù)更好嗎?”好吧,就像科技中的所有事物一樣,這取決于情況。如果您需要在墻上掛一幅畫,Home Depot 中的每種工具都比錘子和釘子更好嗎?
LLM 是令人難以置信的技術(shù)壯舉,它們計(jì)算大量信息的能力越來越好,速度也越來越快。但是,訓(xùn)練和微調(diào) LLM 所需的成本和時間對于大多數(shù)公司來說是不可取的。它們太大了。大多數(shù)企業(yè)不需要一個萬能工具,而需要一個針對特定任務(wù)的特定工具。
這就是 SLM 閃耀的地方。
在您的數(shù)據(jù)上訓(xùn)練模型
雖然 LLM 必須使用大量的云資源進(jìn)行訓(xùn)練,但訓(xùn)練 SLM 使用專有數(shù)據(jù),并且計(jì)算效率高且成本效益高。
假設(shè)您是一家政府承包商,負(fù)責(zé)響應(yīng)招標(biāo)書 (RFP) 以獲得合同。通常,您將有一個團(tuán)隊(duì)審查這些 RFP,手動收集響應(yīng)所需的相關(guān)信息,回答有關(guān)您的公司如何滿足合同需求的詳細(xì)問題,并編寫完整的提案,包括所需的工作角色以及這些工作的相應(yīng)政府代碼。
RFP 從未公開發(fā)布,這意味著 LLM 無法在它們上進(jìn)行訓(xùn)練,而您的公司編寫的數(shù)百甚至數(shù)千份提案都是專有的。
想象一下,如果您可以在所有專有數(shù)據(jù)上訓(xùn)練一個 SLM,并讓 SLM 代表您生成詳細(xì)的提案。您能想象您的團(tuán)隊(duì)將節(jié)省多少時間嗎?您可以通過從基礎(chǔ)模型(如Llama 3.1)開始,并在之前的 RFP 和相應(yīng)的提案上微調(diào) SLM 來做到這一點(diǎn)。您還可以使用Arcee.AI等工具。
無論哪種情況,為了充分利用您的 SLM,您需要完成四個關(guān)鍵步驟:1/ 持續(xù)預(yù)訓(xùn)練,2/ 對齊,3/ 模型合并,4/ 檢索增強(qiáng)生成 (RAG) 以及 5/ 持續(xù)適應(yīng)。
了解訓(xùn)練 SLM 的步驟
想象一下,我們的小型語言模型是 Dominique,一個高中二年級的學(xué)生。預(yù)訓(xùn)練是 Dominique 在所有先前年份中學(xué)到的所有東西——數(shù)學(xué)、科學(xué)、語言藝術(shù)、體育、藝術(shù)——所有東西。模型合并是我將擅長數(shù)學(xué)的 Dominique 與擅長科學(xué)的 Asma 配對,讓他們在余下的學(xué)年里一起學(xué)習(xí)和測試。盡管他們在某個特定主題上特別出色,但他們將在兩個主題上都非常出色。
關(guān)于對齊和微調(diào),指令調(diào)優(yōu)(對齊的第一部分)可以被描述為 Dominique 在大二時所接受的課程。批評階段(對齊的第二部分)是對 Dominique 作業(yè)的反饋。RAG 就像給 Dominique 一場開卷考試;她可以查找相關(guān)信息來幫助她取得更好的成績。最后,持續(xù)適應(yīng)會更新 Dominique 的知識,因?yàn)樾畔l(fā)生變化(例如,冥王星不再是行星),所以她擁有最新、最及時信息。
實(shí)施您的模型
在政府承包商的例子中,他們想要構(gòu)建一個 SLM 來撰寫提案。開發(fā)人員將使用一個較小的開源模型,例如 Llama 的較小版本之一(70B 或 8B 參數(shù)),并使用其先前提案、先前 RFP 和任何其他相關(guān)文本數(shù)據(jù)的專有數(shù)據(jù)對其進(jìn)行訓(xùn)練。
然后可以使用開源工具將該模型合并 - 可能是專門用于語言或其他特定領(lǐng)域的更通用的模型。例如,如果他們有一個專門為軍隊(duì)創(chuàng)建提案(使用特定術(shù)語和詞匯)的模型,以及另一個專門為建造火箭撰寫提案的模型,則可以將它們合并以撰寫高度專業(yè)和準(zhǔn)確的建造軍隊(duì)火箭的提案。請記住,只有當(dāng)模型具有相同的架構(gòu)和大小時,才能將它們合并。
從那里,他們將希望對齊這個新合并的模型,以確保它提供所需的結(jié)果。這包括提供預(yù)期結(jié)果的示例,并與模型交互以測試它是否生成所需類型的內(nèi)容。
雖然像 Arcee.AI 這樣的工具可以在沒有 RAG 的情況下獲得相同的結(jié)果,但如果您是從頭開始構(gòu)建,則可以使用 RAG 層來允許它準(zhǔn)確地檢索特定信息并生成更準(zhǔn)確的文本或進(jìn)行實(shí)時數(shù)據(jù)檢索。例如,政府職位代碼將是保存在 RAG 層中的絕佳數(shù)據(jù)。
最后,就像人類一樣,SLM 始終在不斷發(fā)展和學(xué)習(xí)。部署后,模型可以隨著業(yè)務(wù)數(shù)據(jù)和需求的變化而更新。根據(jù)新數(shù)據(jù)的頻率,計(jì)劃每六到十二個月重新訓(xùn)練您的模型。
充分利用 AI
LLM 只能帶您走這么遠(yuǎn),并且沒有真正的市場差異化。畢竟,您使用的是與其他人相同的數(shù)據(jù) - 從(通常是開源)數(shù)據(jù)收集的通用信息。
SLM 是一種更具成本效益的方法,允許公司在安全的環(huán)境中將模型適應(yīng)其專有數(shù)據(jù)。更不用說 SLM 對地球更友好,因?yàn)樗鼈兪褂玫挠?jì)算資源明顯更少,并且在能源方面更環(huán)保。SLM 提供的響應(yīng)能力和適應(yīng)能力水平是當(dāng)前生成式 AI 技術(shù)無法比擬的。它提供了使用生成式 AI 來改善您的業(yè)務(wù)的最終途徑。