AIGC大模型應(yīng)用的推理場(chǎng)景優(yōu)化
在大模型和AIGC的新紀(jì)元,我們正見(jiàn)證一個(gè)前所未有的技術(shù)革命。從更自然的人機(jī)對(duì)話,到圖片、視頻生成,AIGC技術(shù)正在徹底改變我們創(chuàng)造、學(xué)習(xí)和交流的方式。
然而,這一切進(jìn)步的背后,是對(duì)存儲(chǔ)技術(shù)的極端要求。舉個(gè)例子,一家致力于開(kāi)發(fā)AIGC應(yīng)用的公司,如何高效地處理和存儲(chǔ)大量的數(shù)據(jù),以不斷訓(xùn)練和優(yōu)化其AI大模型。這不僅要求存儲(chǔ)系統(tǒng)能夠處理PB級(jí)的數(shù)據(jù)量,還要求在數(shù)據(jù)采集、清洗、訓(xùn)練及推理的每一個(gè)環(huán)節(jié),都能提供高速、可靠的數(shù)據(jù)訪問(wèn)。
隨著大模型參數(shù)規(guī)模的持續(xù)擴(kuò)大,對(duì)計(jì)算基礎(chǔ)設(shè)施三大件——算力、網(wǎng)絡(luò)、存儲(chǔ),都提出了新的要求。目前,支撐大模型的算力、網(wǎng)絡(luò)在快速迭代。算力方面,英偉達(dá)用了兩年的時(shí)間從H100升級(jí)到了H200,讓模型訓(xùn)練性能提升了5倍;在網(wǎng)絡(luò)方面,已經(jīng)從以前的25G、50G、100G,逐步發(fā)展到200G的網(wǎng)絡(luò),帶寬提升了超過(guò)6倍。
那么,對(duì)于存儲(chǔ)而言,包含了數(shù)據(jù)采集與清洗、模型訓(xùn)練、以及推理三大關(guān)鍵環(huán)節(jié),每一個(gè)環(huán)節(jié)都對(duì)存儲(chǔ)系統(tǒng)提出了新的要求和挑戰(zhàn)。
數(shù)據(jù)采集與清洗的挑戰(zhàn):數(shù)據(jù)量和多樣性、多協(xié)議支持的需求、高性能和大帶寬的要求。
在AIGC技術(shù)的實(shí)施過(guò)程中,數(shù)據(jù)采集與清洗階段是基礎(chǔ)。這一階段的核心任務(wù)是收集來(lái)自不同源的數(shù)據(jù),進(jìn)行預(yù)處理和清洗,以確保數(shù)據(jù)的質(zhì)量和可用性。這一任務(wù)面臨著幾個(gè)主要問(wèn)題:數(shù)據(jù)量巨大、類型多樣化、需要多協(xié)議支持,以及對(duì)高性能和大帶寬的需求。不同類型的數(shù)據(jù)往往需要通過(guò)不同的協(xié)議進(jìn)行收集和訪問(wèn),高效的數(shù)據(jù)處理不僅需要大容量存儲(chǔ),還需要高性能和大帶寬以支持快速的數(shù)據(jù)讀寫和傳輸。
模型訓(xùn)練的挑戰(zhàn):頻繁的checkpoint保存、高并發(fā)讀寫的需求。
大模型訓(xùn)練過(guò)程中,為了防止數(shù)據(jù)丟失并能夠從最近的進(jìn)度恢復(fù),需要定期保存模型的狀態(tài),即checkpoint。這些checkpoint包含了模型的參數(shù)、超參數(shù)以及優(yōu)化器的狀態(tài)等信息,對(duì)于維持訓(xùn)練的連續(xù)性至關(guān)重要。然而,隨著模型規(guī)模的不斷增大,這些checkpoint的體積也隨之增加,導(dǎo)致保存操作消耗大量時(shí)間和存儲(chǔ)資源,特別是在使用分布式訓(xùn)練時(shí),多個(gè)節(jié)點(diǎn)同時(shí)對(duì)存儲(chǔ)系統(tǒng)進(jìn)行訪問(wèn),對(duì)存儲(chǔ)系統(tǒng)的并發(fā)處理能力和響應(yīng)時(shí)間提出了極高的要求。
推理與數(shù)據(jù)治理的挑戰(zhàn):數(shù)據(jù)安全與可追溯性、內(nèi)容審核與合規(guī)性。
在AIGC應(yīng)用的推理階段,企業(yè)面臨著數(shù)據(jù)安全、可追溯性、內(nèi)容審核和合規(guī)性等一系列挑戰(zhàn)。這些挑戰(zhàn)不僅關(guān)乎技術(shù)的有效實(shí)施,還直接影響到企業(yè)的信譽(yù)和合法運(yùn)營(yíng)。隨著數(shù)據(jù)泄露事件的頻繁發(fā)生,確保敏感信息的安全變得尤為重要。同時(shí),數(shù)據(jù)的可追溯性也至關(guān)重要,這不僅有助于追蹤數(shù)據(jù)流向和處理過(guò)程,以評(píng)估數(shù)據(jù)安全性,還能在發(fā)生安全事件時(shí)迅速定位問(wèn)題。
以一個(gè)基于AIGC技術(shù)的新聞自動(dòng)生成平臺(tái)為例,該平臺(tái)能夠自動(dòng)采集網(wǎng)絡(luò)上的新聞資訊,結(jié)合用戶的閱讀偏好生成個(gè)性化新聞內(nèi)容。存儲(chǔ)系統(tǒng)不僅需要對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行加密,還要記錄詳細(xì)的數(shù)據(jù)處理日志,以實(shí)現(xiàn)數(shù)據(jù)的可追溯性。在新聞內(nèi)容生成后,平臺(tái)還需要對(duì)內(nèi)容進(jìn)行審核,確保不含有誤導(dǎo)性信息、侵權(quán)內(nèi)容或違反法律法規(guī)的信息。這就要求存儲(chǔ)系統(tǒng)能夠支持與內(nèi)容審核工具的高效集成,快速篩查和過(guò)濾內(nèi)容,同時(shí)還要有能力處理大量的內(nèi)容審核請(qǐng)求,保證審核的實(shí)時(shí)性和準(zhǔn)確性。
正如上面所分析的那樣,在大模型、AIGC技術(shù)快速發(fā)展的背景下,數(shù)據(jù)存儲(chǔ)面臨著前所未有的挑戰(zhàn)。巨大的數(shù)據(jù)量、多樣化的數(shù)據(jù)類型、以及對(duì)高速訪問(wèn)的迫切需求,都在推動(dòng)存儲(chǔ)技術(shù)的創(chuàng)新和進(jìn)步。為了應(yīng)對(duì)這些挑戰(zhàn),業(yè)界從多個(gè)方面進(jìn)行創(chuàng)新探索,主要集中在以下幾個(gè)方向:
高性能分布式存儲(chǔ)
為了應(yīng)對(duì)PB級(jí)別數(shù)據(jù)量的處理需求,采用可擴(kuò)展的分布式存儲(chǔ)系統(tǒng)成為了行業(yè)的共識(shí)。這類系統(tǒng)通過(guò)分散數(shù)據(jù)到多個(gè)節(jié)點(diǎn)上,不僅能夠提高存儲(chǔ)容量,還能通過(guò)并行處理提升數(shù)據(jù)訪問(wèn)速度。這種存儲(chǔ)方案的核心優(yōu)勢(shì)在于其彈性擴(kuò)展能力,可以根據(jù)需要?jiǎng)討B(tài)調(diào)整資源,以應(yīng)對(duì)數(shù)據(jù)量的不斷增長(zhǎng)。
并行文件存儲(chǔ)
并行文件存儲(chǔ)系統(tǒng)通過(guò)允許多個(gè)進(jìn)程同時(shí)對(duì)文件系統(tǒng)進(jìn)行讀寫,大幅提高了數(shù)據(jù)處理的效率。這對(duì)于大模型訓(xùn)練尤為關(guān)鍵,因?yàn)樗茱@著縮短模型訓(xùn)練的時(shí)間,加快迭代速度。
數(shù)據(jù)加速與緩存
數(shù)據(jù)加速器和緩存技術(shù)的應(yīng)用,進(jìn)一步提升了數(shù)據(jù)訪問(wèn)速度,實(shí)現(xiàn)了快速數(shù)據(jù)加載和亞毫秒級(jí)的低延遲。通過(guò)將頻繁訪問(wèn)的數(shù)據(jù)存放在更快的存儲(chǔ)介質(zhì)上,如SSD或內(nèi)存中,系統(tǒng)可以迅速響應(yīng)數(shù)據(jù)請(qǐng)求,大幅提高AIGC應(yīng)用的響應(yīng)速度和用戶體驗(yàn)。
多模態(tài)數(shù)據(jù)檢索分析
AIGC技術(shù)的一大特點(diǎn)是處理多模態(tài)數(shù)據(jù),如文本、圖片、視頻等。為此,提供多模態(tài)數(shù)據(jù)檢索和分析工具變得尤為重要。這些工具能夠幫助用戶快速找到所需數(shù)據(jù),優(yōu)化數(shù)據(jù)管理,提高數(shù)據(jù)的可用性和價(jià)值。
數(shù)據(jù)安全與合規(guī)工具
在AIGC領(lǐng)域,數(shù)據(jù)安全和合規(guī)性是不容忽視的重要問(wèn)題。集成的內(nèi)容審核、數(shù)據(jù)加密和合規(guī)性工具能夠確保數(shù)據(jù)在整個(gè)生命周期中的安全性,同時(shí)滿足不同地區(qū)和行業(yè)的法律法規(guī)要求。這不僅保護(hù)了用戶隱私,也為企業(yè)的合法運(yùn)營(yíng)提供了保障。
這些方案的共同目標(biāo)是構(gòu)建一個(gè)既能夠處理海量數(shù)據(jù),又能滿足高速訪問(wèn)需求,同時(shí)確保數(shù)據(jù)安全和合規(guī)性的存儲(chǔ)基礎(chǔ)設(shè)施。
解除存儲(chǔ)瓶頸,AIGC應(yīng)用才能騰飛
傳統(tǒng)推理
GPT-175B 模型約有 1750 億參數(shù),以半精度(FP16)格式計(jì)算,總計(jì)至少占 320GB(計(jì)算 1024 的倍數(shù))的存儲(chǔ)空間,所以需要至少 5 個(gè) A100 GPU,且在推理時(shí),每個(gè) GPU 都起碼需要有 80GB 的內(nèi)存。大多數(shù)的實(shí)際推理部署會(huì)進(jìn)行相關(guān)的模型精簡(jiǎn),業(yè)界常見(jiàn)的優(yōu)化方向包括量化、減枝、蒸餾等。
在經(jīng)典的AIGC場(chǎng)景,推理業(yè)務(wù)對(duì)于基礎(chǔ)平臺(tái)的關(guān)鍵需求從讀取變成了啟動(dòng)。
- 高吞吐:通過(guò)啟上千個(gè)POD,并行對(duì)不同需求進(jìn)行計(jì)算,單個(gè)POD的模型在10~100GB,一般需要數(shù)秒鐘啟動(dòng)。對(duì)源存儲(chǔ)下載帶寬需求在100Gbps左右,性能密度達(dá)2Gbps/TiB
- 高彈性:訪問(wèn)請(qǐng)求是由用戶觸發(fā),日常任務(wù)具有隨機(jī)性(峰值1~100K POD),對(duì)于killer app推理開(kāi)銷遠(yuǎn)大于訓(xùn)練。
- Posix兼容性:大部分仿真軟件均采用posix協(xié)議并發(fā)訪問(wèn)原始數(shù)據(jù)集
- 數(shù)據(jù)緩存:推理階段加載數(shù)據(jù)全部為模型數(shù)據(jù),緩存價(jià)值大
如果是多模態(tài)場(chǎng)景,可能會(huì)有一些存儲(chǔ)性能的需求。
在該場(chǎng)景,核心瓶頸是小文件大量寫入和刪除(mkdir、rmdir、create、remove):建議使用GPFS類文件存儲(chǔ)。
構(gòu)建AI應(yīng)用的變化
構(gòu)建 AI 應(yīng)用遠(yuǎn)不只是調(diào)用模型 API,還有很多問(wèn)題需要解決:
- 大模型只有“腦子”沒(méi)有“手臂”,無(wú)法在外部世界行動(dòng):搜索網(wǎng)頁(yè)、調(diào)用 API 還是查找數(shù)據(jù)庫(kù),這些能力都無(wú)法被 大模型的 API 提供;
- 它的“腦子”也不完美,OpenAI 的訓(xùn)練數(shù)據(jù)截止至 2021 年,并且沒(méi)有任何企業(yè)和個(gè)人的私有數(shù)據(jù),這讓模型只能根據(jù)自己的“記憶”回答問(wèn)題,并且經(jīng)常給出與事實(shí)相悖的答案(幻覺(jué))。一個(gè)解決方法是在 Prompt 中將知識(shí)告訴模型,但是這往往受限于 token 數(shù)量,在 GPT-4 之前一般是 4000 個(gè)字的限制。
- 私域的知識(shí)如何使用,意大利數(shù)據(jù)保護(hù)局Garante以涉嫌違反隱私規(guī)則為由,暫時(shí)禁止了ChatGPT。自三星電子允許部分半導(dǎo)體業(yè)務(wù)員工使用ChatGPT開(kāi)始,短短20天有三起機(jī)密資料外泄事件。
- 黑盒大模型無(wú)法更新知識(shí)和修改,大模型本身對(duì)外是一個(gè)黑盒的模型,無(wú)法對(duì)部分?jǐn)?shù)據(jù)進(jìn)行修改或者刪除,如果需要更新知識(shí)和修改大模型的知識(shí)需要重新訓(xùn)練,成本巨大。
當(dāng)前最需要解決的是如何將大模型應(yīng)用到各行各業(yè)的私域知識(shí),這個(gè)需求帶火了向量數(shù)據(jù)庫(kù)這個(gè)領(lǐng)域,一夜之間所有的數(shù)據(jù)庫(kù)都變成了向量數(shù)據(jù)庫(kù)(優(yōu)勢(shì)熟悉的配方)。
Step 1——語(yǔ)料庫(kù)準(zhǔn)備:
將與行業(yè)相關(guān)的大量知識(shí)或語(yǔ)料上傳至向量數(shù)據(jù)庫(kù),儲(chǔ)存為向量化文本;
Step 2 ——問(wèn)題輸入:
輸入的問(wèn)題被Embedding引擎變成帶有向量的提問(wèn);
Step 3 ——向量搜索:
向量化問(wèn)題進(jìn)入提前準(zhǔn)備好的向量數(shù)據(jù)庫(kù)中,通過(guò)向量搜索引擎計(jì)算向量相似度,匹配出Top N條語(yǔ)義最相關(guān)的Facts(向量數(shù)據(jù)庫(kù)是模糊匹配,輸出的是概率上最近似的答案)
Step 4 ——Prompt優(yōu)化:
輸出的Top N條Facts,和用戶的問(wèn)題一起作為prompt輸入給模型。
Step 5、結(jié)果返回:
有記憶交互下得到的生成內(nèi)容更精準(zhǔn)且緩解了幻覺(jué)問(wèn)題。有記憶交互:當(dāng)模型需要記憶大量的聊天記錄或行業(yè)知識(shí)庫(kù)時(shí),可將其儲(chǔ)存在向量數(shù)據(jù)庫(kù)中,后續(xù)在提問(wèn)時(shí)將問(wèn)題向量化,送入向量數(shù)據(jù)庫(kù)中匹配相似的語(yǔ)料作為prompt,向量數(shù)據(jù)庫(kù)通過(guò)提供記憶能力使prompt更精簡(jiǎn)和精準(zhǔn),從而使返回結(jié)果更精準(zhǔn)。
大模型的向量數(shù)據(jù)庫(kù)市場(chǎng)
時(shí)間回轉(zhuǎn)到今年的Q1季度,2023.3.21,NVIDIA創(chuàng)始人兼CEO黃仁勛在2023 GPU技術(shù)大會(huì)(2023 GTC)上發(fā)表演講。并表示今年將推出新的向量數(shù)據(jù)庫(kù)RAFT。RAFT在此基礎(chǔ)上,還具有加速索引、數(shù)據(jù)加載和近鄰檢索等功能。黃仁勛認(rèn)為:“對(duì)于自研大型語(yǔ)言模型的組織而言,向量數(shù)據(jù)庫(kù)至關(guān)重要。”他總結(jié):“初創(chuàng)公司競(jìng)相構(gòu)建具有顛覆性的產(chǎn)品和商業(yè)模式,而老牌公司則在尋求應(yīng)對(duì)之法——生成式AI引發(fā)了全球企業(yè)制定AI戰(zhàn)略的緊迫感?!?/span>
在OpenAI ChatGPT plugins 發(fā)布的官方文章中,Milvus 和 Zilliz Cloud 同時(shí)作為首批插件合作伙伴被提及成為唯一一家開(kāi)源項(xiàng)目與商業(yè)化云產(chǎn)品同時(shí)入選的向量數(shù)據(jù)庫(kù)公司。而在近一個(gè)月之內(nèi),向量數(shù)據(jù)庫(kù)迎來(lái)了融資潮。Qdrant 、Chroma 和 Weaviate 紛紛獲得融資;而 Pinecone 也正式官宣了新的 1 億美金 B 輪融資,估值達(dá)到了 7.5 億美元。
從langchain的推薦可以看出,現(xiàn)在這個(gè)市場(chǎng)還是一個(gè)諸侯混戰(zhàn),百花齊放的市場(chǎng),到底該把賭注押寶到哪個(gè)生態(tài)才是重中之重。
再回頭看中國(guó)區(qū)這個(gè)大市場(chǎng),基礎(chǔ)模型一定是以云廠商提供,或者少量大模型云下私有化部署,如何適配其實(shí)顯而易見(jiàn):配套自己的云上大模型,其次,適配一些國(guó)家科研機(jī)構(gòu)的大模型線下輸出。