部署自己的大語(yǔ)言模型的五種方法
這是歷史上發(fā)展最快的新技術(shù)。生成式人工智能正在改變世界,改變我們創(chuàng)建圖像、視頻、音頻、文本和代碼的方式。
根據(jù)戴爾公司 9 月份對(duì) IT 決策者進(jìn)行的一項(xiàng)調(diào)查,76% 的人表示,生成式人工智能將對(duì)他們的組織產(chǎn)生 “重大(如果不是變革性的)”影響,而且大多數(shù)人預(yù)計(jì)將在未來(lái) 12 個(gè)月內(nèi)看到有意義的成果。
大語(yǔ)言模型(LLM)是生成式人工智能的一種。它側(cè)重于文本和代碼,而不是圖像或音頻,盡管有些模型已經(jīng)開(kāi)始整合不同的模式。目前企業(yè)中最流行的 LLM 包括 ChatGPT 和其他 OpenAI GPT 模型、Anthropic 的 Claude、Meta 的 Llama 2 以及 Technology Innovation Institute in Abu Dhabi 的開(kāi)源模型 Falcon。其中,F(xiàn)alcon 以支持英語(yǔ)以外的語(yǔ)言而著稱(chēng)。
公司部署語(yǔ)言識(shí)別器有幾種方式,如讓員工訪問(wèn)公共應(yīng)用程序,使用提示工程和應(yīng)用程序接口將語(yǔ)言識(shí)別器嵌入現(xiàn)有軟件,使用矢量數(shù)據(jù)庫(kù)提高準(zhǔn)確性和相關(guān)性,微調(diào)現(xiàn)有模型,或建立自己的模型。
01 |部署公共 LLM
Dig Security 是一家以色列云數(shù)據(jù)安全公司,其工程師使用 ChatGPT 編寫(xiě)代碼。"首席執(zhí)行官 Dan Benjamin 說(shuō):“每個(gè)工程師都會(huì)使用一些東西來(lái)幫助他們更快地編寫(xiě)代碼。ChatGPT 是最早也是最簡(jiǎn)單的編碼助手之一。但它也存在一個(gè)問(wèn)題--你永遠(yuǎn)無(wú)法確定你上傳的信息是否會(huì)被用于訓(xùn)練下一代模型。Dig Security 通過(guò)兩種方式解決了這種可能性。首先,公司使用安全網(wǎng)關(guān)檢查上傳的信息。”
Benjamin 說(shuō):“我們的員工知道他們不能上傳任何敏感信息。這些信息都被屏蔽了?!?/p>
其次,公司將工程師輸送到運(yùn)行在私有 Azure 云上的 ChatGPT 版本。這意味著 Dig Security 獲得了自己獨(dú)立的 ChatGPT 實(shí)例。Benjamin 認(rèn)為,即使采用了這種 “帶刺”的安全方法,它也不是一個(gè)完美的解決方案。“沒(méi)有完美的解決方案。任何認(rèn)為有完美解決方案的組織都是在自欺欺人”。
例如,有人可以使用 VPN 或個(gè)人電腦訪問(wèn) ChatGPT 的公共版本。這就需要另一個(gè)層面的風(fēng)險(xiǎn)緩解措施。
他說(shuō):“關(guān)鍵在于員工培訓(xùn),確保他們了解自己需要做什么,并接受過(guò)良好的數(shù)據(jù)安全培訓(xùn)?!?/p>
Dig Security 公司并非孤軍奮戰(zhàn)。
Skyhigh 公司企業(yè)營(yíng)銷(xiāo)總監(jiān) Tracy Holden 指出,2023 年上半年,有近 100 萬(wàn)終端用戶(hù)通過(guò)企業(yè)基礎(chǔ)設(shè)施訪問(wèn) ChatGPT,1 月至 6 月間用戶(hù)量增長(zhǎng)了 1500%。
根據(jù) Netskope Threat Labs 七月份的一份報(bào)告,在 ChatGPT 上發(fā)布的源代碼比任何其他類(lèi)型的敏感數(shù)據(jù)都要多,每萬(wàn)名企業(yè)用戶(hù)每月發(fā)生 158 起事件。
最近,企業(yè)開(kāi)始有了更安全、更適合企業(yè)的選擇,比如微軟的 Copilot,它將易用性與額外的控制和保護(hù)結(jié)合在一起。在 11 月初舉行的 OpenAI DevDay 上,首席執(zhí)行官 Sam Altman 表示,目前有 1 億活躍用戶(hù)在使用該公司的 ChatGPT 聊天機(jī)器人,200 萬(wàn)開(kāi)發(fā)者在使用其 API,超過(guò) 92% 的財(cái)富 500 強(qiáng)企業(yè)正在 OpenAI 平臺(tái)上進(jìn)行開(kāi)發(fā)。
02 |矢量數(shù)據(jù)庫(kù)和 RAG
對(duì)于大多數(shù)希望定制 LLM 的公司來(lái)說(shuō),檢索增強(qiáng)生成(RAG)是必經(jīng)之路。如果有人在談?wù)撉度牖蚴噶繑?shù)據(jù)庫(kù),這通常就是他們的意思。其工作原理是,用戶(hù)提出一個(gè)關(guān)于公司政策或產(chǎn)品的問(wèn)題。這個(gè)問(wèn)題不會(huì)立即被設(shè)置到 LLM 中。而是先進(jìn)行處理。用戶(hù)是否有權(quán)訪問(wèn)該信息?如果有訪問(wèn)權(quán)限,那么就會(huì)檢索所有可能相關(guān)的信息,通常是從矢量數(shù)據(jù)庫(kù)中檢索。然后,問(wèn)題和相關(guān)信息會(huì)被發(fā)送到本地語(yǔ)言管理器,并嵌入到優(yōu)化的提示中,提示中還可能指定本地語(yǔ)言管理器首選的回答格式和語(yǔ)音語(yǔ)調(diào)。
矢量數(shù)據(jù)庫(kù)是將信息組織成一系列列表的一種方式,每個(gè)列表按不同的屬性排序。例如,您可能有一個(gè)按字母順序排列的列表,按字母順序排列的回答越接近,相關(guān)性就越大。
按字母順序排列的列表是一個(gè)一維向量數(shù)據(jù)庫(kù),但向量數(shù)據(jù)庫(kù)可以有無(wú)限多個(gè)維度,讓您可以根據(jù)答案與任意因素的接近程度來(lái)搜索相關(guān)答案。因此,它們非常適合與 LLM 結(jié)合使用。
銷(xiāo)售參與平臺(tái)供應(yīng)商 Salesloft 的首席產(chǎn)品和工程官 Ellie Fields 說(shuō):“現(xiàn)在,我們正在把所有東西都轉(zhuǎn)換成矢量數(shù)據(jù)庫(kù)?!笔堑?,它們正在發(fā)揮作用。
她認(rèn)為,這比使用簡(jiǎn)單的文檔為 LLM 查詢(xún)提供上下文更有效。
該公司主要使用開(kāi)源矢量存儲(chǔ) ChromaDB,其主要用途是 LLM。Salesloft 使用的另一個(gè)矢量數(shù)據(jù)庫(kù)是 Pgvector,這是 PostgreSQL 數(shù)據(jù)庫(kù)的矢量相似性搜索擴(kuò)展。
Fields 表示:“但我們也使用 FAISS 和 Pinecone 做了一些研究。FAISS 即Facebook 人工智能相似性搜索,是 Meta 提供的一個(gè)開(kāi)源庫(kù),支持多媒體文檔的相似性搜索?!?/p>
Pinecone 是一個(gè)基于云的專(zhuān)有矢量數(shù)據(jù)庫(kù),也很受開(kāi)發(fā)者的歡迎,其免費(fèi)層支持多達(dá) 10 萬(wàn)個(gè)矢量。一旦從矢量數(shù)據(jù)庫(kù)中檢索到相關(guān)信息并嵌入提示,查詢(xún)就會(huì)被發(fā)送到運(yùn)行在微軟 Azure 私有實(shí)例中的 OpenAI。
Fields 指出:“我們已將 Azure 認(rèn)證為我們平臺(tái)上的新子處理器。當(dāng)我們有新的處理器時(shí),我們總是會(huì)讓客戶(hù)知道他們的信息?!?/p>
不過(guò),Salesloft 也與谷歌和 IBM 合作,并正在開(kāi)發(fā)使用這些平臺(tái)的生成式人工智能功能。
她說(shuō):“我們肯定會(huì)與不同的供應(yīng)商和不同的模式合作。事情每周都在發(fā)生變化。如果你不關(guān)注不同的模式,你就會(huì)錯(cuò)失良機(jī)。” 因此,RAG 允許企業(yè)將其專(zhuān)有數(shù)據(jù)與模型本身分離開(kāi)來(lái),當(dāng)更好的模型發(fā)布時(shí),可以更容易地交換模型。此外,矢量數(shù)據(jù)庫(kù)可以更新,甚至是實(shí)時(shí)更新,而無(wú)需對(duì)模型進(jìn)行更多的微調(diào)或重新訓(xùn)練。
Fields 表示:“我們已經(jīng)更換過(guò)模型,從OpenAI 到 Azure 上的 OpenAI。我們已經(jīng)在不同的 OpenAI 模型之間進(jìn)行了切換。我們甚至可能為客戶(hù)群的不同部分支持不同的模型?!?/p>
她補(bǔ)充說(shuō),有時(shí)不同的模型有不同的 API。她認(rèn)為:“這可不是小事。但更換一個(gè)模型還是比重新訓(xùn)練要容易得多。我們還沒(méi)有發(fā)現(xiàn)哪種用例更適合微調(diào),而不是矢量數(shù)據(jù)庫(kù)。我相信會(huì)有這樣的用例,但到目前為止,我們還沒(méi)有找到性能更好的用例?!?/p>
Salesloft 推出的 LLMs 的首批應(yīng)用之一是增加一項(xiàng)功能,讓客戶(hù)可以向潛在客戶(hù)發(fā)送銷(xiāo)售電子郵件。Fields 說(shuō):“客戶(hù)花了很多時(shí)間來(lái)撰寫(xiě)這些電子郵件?!边@很難開(kāi)頭兒,而且有很多寫(xiě)作障礙。因此,現(xiàn)在客戶(hù)可以指定目標(biāo)角色、價(jià)值主張和行動(dòng)號(hào)召--他們會(huì)收到三封不同的電子郵件草稿,可以進(jìn)行個(gè)性化設(shè)置。Fields 說(shuō),Salesloft 使用 OpenAI 的 GPT 3.5 來(lái)編寫(xiě)電子郵件。
03 |本地運(yùn)行的開(kāi)源模型
總部位于波士頓的 Ikigai Labs 提供了一個(gè)平臺(tái),允許公司建立定制的大型圖形模型,或設(shè)計(jì)用于處理結(jié)構(gòu)化數(shù)據(jù)的人工智能模型。但為了使界面更易于使用,Ikigai 在前端使用了 LLM。例如,該公司使用了 Falcon 開(kāi)源 LLM 的 70 億參數(shù)版本,并在自己的環(huán)境中為一些客戶(hù)運(yùn)行。
為了將信息輸入 LLM,Ikigai 使用了一個(gè)同樣在本地運(yùn)行的矢量數(shù)據(jù)庫(kù)。聯(lián)合創(chuàng)始人兼聯(lián)合首席執(zhí)行官 Devavrat Shah 說(shuō),該數(shù)據(jù)庫(kù)建立在邊界森林算法之上。
四年前在 MIT,我和我的一些學(xué)生嘗試了大量的矢量數(shù)據(jù)庫(kù),身兼 Ikigai Labs 人工智能教授的 Shah 說(shuō)。“我知道這很有用,但沒(méi)有這么有用”。
他說(shuō),保持模型和矢量數(shù)據(jù)庫(kù)的本地化意味著數(shù)據(jù)不會(huì)泄露給第三方。Shah 說(shuō):“對(duì)于可以向他人發(fā)送查詢(xún)的客戶(hù),我們使用 OpenAI。我們與 LLM 無(wú)關(guān)?!?/p>
Pricewaterhouse Coopers 建立了自己的 ChatPWC 工具,該工具也與 LLM 無(wú)關(guān)。該公司的合伙人兼 gen AI 上市戰(zhàn)略負(fù)責(zé)人 Bret Greenstein 說(shuō):“ChatPWC 讓我們的員工更有能力。”例如,它包括用于生成職位描述的預(yù)置提示。他說(shuō):“它有我所有的格式、模板和術(shù)語(yǔ)。我們有人力資源、數(shù)據(jù)和提示專(zhuān)家,我們?cè)O(shè)計(jì)的東西能生成非常好的招聘信息?,F(xiàn)在,沒(méi)有人需要知道如何進(jìn)行生成職位描述的驚人提示?!?/p>
該工具構(gòu)建于微軟 Azure 之上,但公司也為谷歌云平臺(tái)和 AWS 構(gòu)建了該工具。Greenstein:“我們必須為我們的客戶(hù)服務(wù),他們存在于每一個(gè)云上。同樣,它也對(duì)后端使用不同模型進(jìn)行了優(yōu)化,因?yàn)榭蛻?hù)希望這樣做。我們的每種模式都能發(fā)揮作用。Llama 2、Falcon--我們什么都有?!?/p>
他說(shuō):“人們可以做很多事情。比如建立獨(dú)立于模型的數(shù)據(jù),以及建立治理結(jié)構(gòu)。這樣,當(dāng)市場(chǎng)發(fā)生變化,新的模型出現(xiàn)時(shí),數(shù)據(jù)和管理結(jié)構(gòu)仍然是相關(guān)的。”
04 |微調(diào)
管理咨詢(xún)公司 AArete 采用開(kāi)源模型 GPT 2,并根據(jù)自己的數(shù)據(jù)進(jìn)行了微調(diào)。該公司數(shù)字技術(shù)服務(wù)副總裁 Priya Iragavarapu 說(shuō):“它很輕便。我們想要一個(gè)開(kāi)源的,以便能夠在我們的內(nèi)部環(huán)境中使用和發(fā)布?!?/p>
如果 AArete 使用托管模型并通過(guò) API 與之連接,信任問(wèn)題就會(huì)出現(xiàn)。她說(shuō):“我們擔(dān)心來(lái)自提示的數(shù)據(jù)最終會(huì)流向哪里。我們不想冒這些風(fēng)險(xiǎn)?!?/p>
在選擇開(kāi)源模型時(shí),她會(huì)考慮該模型之前的下載次數(shù)、社區(qū)支持以及硬件要求。
她說(shuō):“基礎(chǔ)模型還應(yīng)具有一定的任務(wù)相關(guān)性。有一些模型是針對(duì)特定任務(wù)的。例如,我最近研究了一個(gè)擁抱臉模型,它可以將 PDF 中的內(nèi)容解析為結(jié)構(gòu)化格式?!?/p>
金融界和醫(yī)療保健行業(yè)的許多公司都在根據(jù)自己的附加數(shù)據(jù)集對(duì) LLM 進(jìn)行微調(diào)。
她說(shuō):“基本的 LLM 是在整個(gè)互聯(lián)網(wǎng)上訓(xùn)練出來(lái)的。通過(guò)微調(diào),公司可以創(chuàng)建一個(gè)專(zhuān)門(mén)針對(duì)其業(yè)務(wù)用例的模型。”
一種常見(jiàn)的方法是創(chuàng)建一個(gè)問(wèn)題和答案列表,然后根據(jù)這些問(wèn)題和答案對(duì)模型進(jìn)行微調(diào)。事實(shí)上,OpenAI 在 8 月份就開(kāi)始允許使用問(wèn)答方式對(duì)其 GPT 3.5 模型進(jìn)行微調(diào),并在 11 月份的 DevDay 上為 GPT 4 推出了一套新的微調(diào)、定制和 RAG 選項(xiàng)。
這對(duì)客戶(hù)服務(wù)和服務(wù)臺(tái)應(yīng)用特別有用,因?yàn)楣究赡芤呀?jīng)擁有一個(gè)常見(jiàn)問(wèn)題數(shù)據(jù)庫(kù)。
另外,在 DELL 的調(diào)查中,21% 的公司傾向于在自己的環(huán)境中使用自己的數(shù)據(jù)重新訓(xùn)練現(xiàn)有模型。
Constellation Research Inc. 副總裁兼首席分析師 Andy Thurai 說(shuō):“最受歡迎的選擇似乎是 Llama 2。Llama 2 有三種不同的尺寸,對(duì)月用戶(hù)少于 7 億的公司免費(fèi)。”他認(rèn)為,公司可以在自己的數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào),并很快擁有一個(gè)新的定制模型。事實(shí)上,Hugging Face LLM 排行榜目前由不同微調(diào)和定制的 Llama 2 所占據(jù)。在 Llama 2 之前,F(xiàn)alcon 是最流行的開(kāi)源 LLM?!艾F(xiàn)在是一場(chǎng)軍備競(jìng)賽。他說(shuō),微調(diào)可以為特定業(yè)務(wù)用例創(chuàng)建更準(zhǔn)確的模型。”如果使用通用的 Llama 模型,準(zhǔn)確度可能會(huì)很低。
與 RAG 嵌入相比,微調(diào)也有一些優(yōu)勢(shì)。使用嵌入法時(shí),公司必須為每次查詢(xún)進(jìn)行矢量數(shù)據(jù)庫(kù)搜索。Thurai 說(shuō):“而且你還得實(shí)施數(shù)據(jù)庫(kù)。這也不是件容易的事?!?/p>
微調(diào)也沒(méi)有上下文窗口限制。通過(guò)嵌入,可以添加到提示中的信息有限。如果一家公司進(jìn)行微調(diào),他們也不會(huì)經(jīng)常這樣做,只是在發(fā)布基礎(chǔ)人工智能模型的重大改進(jìn)版本時(shí)才會(huì)這樣做。
最后,如果公司擁有快速變化的數(shù)據(jù)集,微調(diào)可以與嵌入結(jié)合使用。他說(shuō):“你可以先進(jìn)行微調(diào),然后對(duì)增量更新進(jìn)行 RAG?!?/p>
Forrester Research 公司的分析師 Rowan Curran 預(yù)計(jì),在未來(lái)一年左右的時(shí)間里,將會(huì)出現(xiàn)大量經(jīng)過(guò)微調(diào)的特定領(lǐng)域模型。他說(shuō),但只有少數(shù)公司(10% 或更少)會(huì)這樣做。
Pricewaterhouse Coopers 的 Greenstein 說(shuō),構(gòu)建 SaaS 應(yīng)用程序等應(yīng)用軟件的軟件公司可能會(huì)使用微調(diào)技術(shù)。他說(shuō):“如果你有一個(gè)高度可重復(fù)的模式,微調(diào)可以降低你的成本。但對(duì)于企業(yè)部署來(lái)說(shuō),RAG 在 90% 到 95% 的情況下更有效率?!?/p>
加拿大企業(yè)搜索和推薦公司 Coveo 的 ML 副總裁 Sebastien Paquet 補(bǔ)充說(shuō):“我們實(shí)際上正在研究針對(duì)特定垂直行業(yè)的微調(diào)模式。我們有一些具有專(zhuān)門(mén)詞匯的專(zhuān)業(yè)垂直領(lǐng)域,比如醫(yī)療垂直領(lǐng)域。銷(xiāo)售卡車(chē)零部件的企業(yè)有自己的零部件命名方式?!?/p>
不過(guò),該公司目前使用的是運(yùn)行在私有 Azure 云上的 OpenAI 的 GPT 3.5 和 GPT 4,LLM API 調(diào)用是隔離的,因此 Coveo 可以在需要時(shí)切換到不同的模型。該公司還在特定用例中使用了一些來(lái)自 Hugging Face 的開(kāi)源 LLM。
05 |從零開(kāi)始構(gòu)建 LLM
很少有公司會(huì)從頭開(kāi)始構(gòu)建自己的 LLM。畢竟,顧名思義,這些公司都相當(dāng)龐大。OpenAI 的 GPT 3 擁有 1,750 億個(gè)參數(shù),在 45 TB 的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,訓(xùn)練成本高達(dá) 460 萬(wàn)美元。據(jù) OpenAI 首席執(zhí)行官 Sam Altman 稱(chēng),GPT 4 的成本超過(guò) 1 億美元。
正是這種規(guī)模賦予了 LLM 魔力和處理人類(lèi)語(yǔ)言的能力,使其具備一定程度的常識(shí)和聽(tīng)從指令的能力。
Insight 公司的杰出工程師 Carm Taglienti 說(shuō):“你不能只用自己的數(shù)據(jù)來(lái)訓(xùn)練它。在數(shù)以千萬(wàn)計(jì)的參數(shù)上進(jìn)行訓(xùn)練才有價(jià)值。”
如今,幾乎所有的 LLM 都來(lái)自大型超級(jí)計(jì)算機(jī)或 OpenAI 和 Anthropic 等專(zhuān)注于人工智能的初創(chuàng)公司。
即使是那些在構(gòu)建自己的模型方面擁有豐富經(jīng)驗(yàn)的公司,也在遠(yuǎn)離創(chuàng)建自己的 LLM。
例如,Salesloft 多年來(lái)一直在構(gòu)建自己的人工智能和機(jī)器學(xué)習(xí)模型,包括使用早期技術(shù)的生成式人工智能模型,但對(duì)于從頭開(kāi)始構(gòu)建全新的尖端基礎(chǔ)模型卻猶豫不決。
Fields 說(shuō):“這是一個(gè)龐大的計(jì)算步驟,至少在現(xiàn)階段,我不認(rèn)為我們會(huì)去做。”
來(lái)源:www.cio.com