自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI大模型時代的存儲發(fā)展趨勢

人工智能
從2022年下半年,大模型和AIGC這兩個詞變得極其火熱,而GPU的市場也是一卡難求。對于這種迷亂和火熱,讓我想起了當(dāng)年的比特幣挖礦和IPFS。似乎世界一年一個新風(fēng)口,比特幣、元宇宙、NFT、AIGC,金錢永不眠,IT炒作永不停歇。

從2022年下半年,大模型和AIGC這兩個詞變得極其火熱,而GPU的市場也是一卡難求。對于這種迷亂和火熱,讓我想起了當(dāng)年的比特幣挖礦和IPFS。似乎世界一年一個新風(fēng)口,比特幣、元宇宙、NFT、AIGC,金錢永不眠,IT炒作永不停歇。

其實(shí),每一個新的風(fēng)口出現(xiàn),總有兩撥勢力在沖突,保守派不斷探索業(yè)務(wù)的真實(shí)價值,通過價值投資試圖證明這又是一個新的龐氏騙局;另一波則是來勢洶洶,集結(jié)一切可團(tuán)結(jié)的力量,證明新時代已經(jīng)來臨。

對于這一個個的風(fēng)口,AIGC和大模型似乎與前幾年的風(fēng)口不一樣,讓我們看到了一絲真正的未來科技,在這篇文章,主要分享我對大模型&AIGC的看法,以及從存儲的視角思索,在大模型時代存儲的發(fā)展趨勢。

一、大模型和AIGC到底指的什么

AIGC:繼專業(yè)生產(chǎn)內(nèi)容(PGC,professional-generated content)、用戶生產(chǎn)內(nèi)容(UGC,User-generated content)之后的新型內(nèi)容創(chuàng)作方式,主要是基于生成對抗網(wǎng)絡(luò)GAN、大型預(yù)訓(xùn)練模型等人工智能技術(shù),自動生成圖像、視頻、文本 、音頻等作品。

AIGC的炒作來自于2022年9月,太空歌劇院獲得美國科羅拉多州舉辦藝術(shù)博覽會一等獎,熟悉的套路,熟悉的配方,是不是跟NFT炒作一模一樣(據(jù)佳士得拍賣行官方報(bào)道,數(shù)碼藝術(shù)家Beeple的NFT作品《每一天:前5000天》以約合人民幣4.51億元的高價成交,刷新了數(shù)碼藝術(shù)拍品的最高成交價等紀(jì)錄。)。

AIGC與以前的不同在于,在AI領(lǐng)域有ANI弱人工智能(Artificial Narrow Intelligence)、AGI強(qiáng)人工智能(Artificial General Intelligence)、ASI超人工智能(Super Artificial Intelligence),大模型的出現(xiàn),讓人興奮的是看到了AGI的希望,而不是所謂的生成一句話或者問答機(jī)器人或者AI作畫;因?yàn)锳I初步具備了理解和創(chuàng)造的能力,為了將這種能力通俗的展示給業(yè)界和投資界,大家才轟轟烈烈的創(chuàng)造了各種AIGC的應(yīng)用。

2021年8月份,李飛飛和100多位學(xué)者聯(lián)名發(fā)表一份200多頁的研究報(bào)告《On the Opportunities and Risk of Foundation Models》,在文章中,AI專家將大模型統(tǒng)一命名為Foundation Models,可以翻譯為基礎(chǔ)模型或者是基石模型,論文肯定了Foundation Models對智能體基本認(rèn)知能力的推動作用,同時也指出大模型呈現(xiàn)出「涌現(xiàn)」與「同質(zhì)化」的特性。人工智能-》機(jī)器學(xué)習(xí)-》深度學(xué)習(xí)-》大模型這條演進(jìn)之路反映了我們?nèi)斯ぶ悄艿陌l(fā)展歷史。

從人工智能到機(jī)器學(xué)習(xí),將計(jì)算解耦交給了機(jī)器;從機(jī)器學(xué)習(xí)到深度學(xué)習(xí),我們把函數(shù)架構(gòu)同質(zhì)化到了神經(jīng)網(wǎng)絡(luò),只需要提取模型特征;從深度學(xué)習(xí)到基礎(chǔ)模型,我們連特征也放棄了,世界的知識模型走了同質(zhì)化,相應(yīng)的也獲取了泛化能力。

而涌現(xiàn)能力則是另一個在生物學(xué)和自然領(lǐng)域常見的能力,在大模型領(lǐng)域也出現(xiàn)了對應(yīng)的特征。比如說,上下文學(xué)習(xí)(In-Context Learning)、思維鏈(Chain of Thought,CoT)等,基于現(xiàn)有僅有的幾個大模型架構(gòu)來說,業(yè)界認(rèn)知:>100B 出現(xiàn)涌現(xiàn)能力。

最近幾年大語言模型(LLM) 獲得了越來越多的關(guān)注,其中最知名的當(dāng)屬 GPT-3[6] 模型。GPT-3 模型展現(xiàn)了一些大模型才具備的突現(xiàn)能力(就是模型規(guī)模必須得增大到一定程度才會顯現(xiàn)的能力,比如至少百億級),其中一項(xiàng)能力就是上下文學(xué)習(xí)(In-Context Learning)。該能力簡單來說就是,對于一個預(yù)訓(xùn)練好的大語言模型,遷移到新任務(wù)上的時候,只需要給模型輸入幾個示例(示例輸入和示例輸出對),模型就能為新輸入生成正確輸出而不需要對模型做 fine-tuning。

上下文學(xué)習(xí)(In-Context Learning)CoT本質(zhì)上是一種特殊的few shot prompt,就是說對于某個復(fù)雜的比如推理問題,用戶把一步一步的推導(dǎo)過程寫出來,并提供給大語言模型(如下圖藍(lán)色文字內(nèi)容所示),這樣大語言模型就能做一些相對復(fù)雜的推理任務(wù)。

思維鏈(Chain of Thought,CoT)思維鏈(Chain of Thought,CoT)

二、大模型產(chǎn)業(yè)鏈的一些影響

大模型不僅僅改變了AI研發(fā)模式,也對整個AI的商業(yè)鏈條做了重構(gòu),以前每個公司根據(jù)自己的業(yè)務(wù)都會發(fā)展自己的模型,公安的人臉識別、淘寶的推薦系統(tǒng)、字節(jié)的內(nèi)容推薦等等,但是在大模型出現(xiàn)后,業(yè)界出現(xiàn)了分化:

1、基礎(chǔ)層(模型服務(wù))基礎(chǔ)層為采用預(yù)訓(xùn)練大模型搭建的基礎(chǔ)設(shè)施。由于開發(fā)預(yù)訓(xùn)練大模型技術(shù)門檻高、投入成本高,因此,該層主要由少數(shù)頭部企業(yè)或研發(fā)機(jī)構(gòu)主導(dǎo)。如谷歌、微軟、Meta、OpenAI、DeepMind、Stability.ai等?;A(chǔ)層的產(chǎn)品形態(tài)主要包括兩種:一種為通過受控的api接口收取調(diào)用費(fèi);另一種為基于基礎(chǔ)設(shè)施開發(fā)專業(yè)的軟件平臺收取費(fèi)用。

2、中間層(2B)該層與基礎(chǔ)層的最主要區(qū)別在于,中間層不具備開發(fā)大模型的能力,但是可基于開源大模型等開源技術(shù)進(jìn)行改進(jìn)、抽取或模型二次開發(fā)。該層為在大模型的基礎(chǔ)上開發(fā)的場景化、垂直化、定制化的應(yīng)用模型或工具。在AIGC的應(yīng)用場景中基于大模型抽取出個性化、定制化的應(yīng)用模型或工具滿足行業(yè)需求。如基于開源的Stable Diffusion大模型所開發(fā)的二次元風(fēng)格圖像生成器,滿足特定行業(yè)場景需求。中間層的產(chǎn)品形態(tài)、商業(yè)模式與基礎(chǔ)層保持一致,分別為接口調(diào)用費(fèi)與平臺軟件費(fèi)。

3、應(yīng)用層(2C)應(yīng)用層主要基于基礎(chǔ)層與中間層開發(fā),面向C端的場景化工具或軟件產(chǎn)品。應(yīng)用層更加關(guān)注用戶的需求,將AIGC技術(shù)切實(shí)融入用戶需求,實(shí)現(xiàn)不同形態(tài)、不同功能的產(chǎn)品落地??梢酝ㄟ^網(wǎng)頁、小程序、群聊、app等不同的載體呈現(xiàn)。以數(shù)據(jù)流的視角看,大模型的業(yè)務(wù)研發(fā)和業(yè)務(wù)流程也發(fā)生了不同的變化:

三、大模型的主要技術(shù)門檻

回顧C(jī)hatGPT的發(fā)展歷程,我們可以總結(jié)出大語言模型(LLM)取得驚艷效果的要點(diǎn)(重要性從高到低排序):
? 愿意燒錢,且接受“燒錢 != 好模型”的現(xiàn)實(shí)
? 高質(zhì)量的訓(xùn)練語料
? 高效的分布式訓(xùn)練框架和充沛優(yōu)質(zhì)的硬件資源
? 算法的迭代創(chuàng)新

大模型的技術(shù)門檻很高,但是從IT的視角來看,還是因?yàn)槟P吞髱砹瞬豢山鉀Q的一些問題。以GPT-3訓(xùn)練為例,我們可以看到,訓(xùn)練過程中基礎(chǔ)模型的加載和存儲GPT3模型訓(xùn)練內(nèi)存需求= 參數(shù)+梯度+優(yōu)化器+其他 >2800GB >> 80GB(A100顯存大小)。大概需要35張A100卡才能完整加載模型訓(xùn)練過程中的數(shù)據(jù),還不包括其他的冗余等信息。

因此,大模型的訓(xùn)練從原來的單卡演進(jìn)到了多機(jī)多卡,多機(jī)多卡必然帶來資源利用率的下降,GPT-3的計(jì)算資源利用率至于大概21.3%。所以這幾年大家努力的方向主要是如何提升資源利用率。片上內(nèi)存(on-chip memory)、芯片間互連的帶寬(英偉達(dá)的NVlink)、多機(jī)多卡的調(diào)度是主要的努力方向。

其中片上內(nèi)存(on-chip memory)、芯片間互連的帶寬(英偉達(dá)的NVlink)主要是GPU廠商提供的,作為云基礎(chǔ)設(shè)施廠商主要努力只能發(fā)力集群的多機(jī)多卡調(diào)度。

大部分的大模型訓(xùn)練都走向了并行化,業(yè)界幾種經(jīng)典的分布式并行范式,包括流水線并行(Pipeline Parallelism),數(shù)據(jù)并行(Data Parallelism)和張量并行(Tensor Parallesim)。在并行訓(xùn)練中,主要要解決如下的問題:
? 大模型內(nèi)存墻:以GPT3為例,模型參數(shù)+梯度參數(shù)+優(yōu)化器需要內(nèi)存2.8TB(175B參數(shù))
? 訓(xùn)練效率:多機(jī)并行訓(xùn)練情況下,訓(xùn)練效率下降;單個模型的訓(xùn)練時長可控
? 訓(xùn)練穩(wěn)定性:訓(xùn)練時長較長,經(jīng)常出現(xiàn)硬件錯誤或者網(wǎng)絡(luò)錯誤;收斂失敗,遇到bug

解決的方式是融合了網(wǎng)絡(luò)、并行框架、存儲。在這篇文章中,我們重點(diǎn)關(guān)注存儲的需求。

四、大模型訓(xùn)練的數(shù)據(jù)流以及IO瓶頸

先介紹幾個訓(xùn)練相關(guān)的概念:單個epoch的階段:全量樣本訓(xùn)練一次, shuffle、讀 batch、存checkpoint等。

整個訓(xùn)練數(shù)據(jù)流如下:

  • 數(shù)據(jù)打散:遍歷樣本數(shù)據(jù),進(jìn)行文件的shuffle
  • 數(shù)據(jù)加載:海量小文件元數(shù)據(jù)操作(ImageNet 1~100KB,螞蟻 500KB,文件數(shù)量1100億),定長的文件數(shù)據(jù)讀?。?28K256K)
  • Checkpoint存儲(原子操作):順序大 I/O寫(模型checkpoint),單個GPU狀態(tài)checkpoint(單卡一路大塊順序?qū)懀?,時間敏感(30S~5分鐘)

根據(jù)一些統(tǒng)計(jì)的結(jié)果,可以發(fā)現(xiàn)很多訓(xùn)練的樣本集面臨的情況是,樣本數(shù)量非常大,但樣本的平均大小又很小。以 ImageNet 數(shù)據(jù)集為例,整個數(shù)據(jù)集包含幾百萬(ImageNet 1K)、上千萬(ImageNet 22k)的圖片,平均一個圖片大小僅為一百多 KB。這個大小對存儲系統(tǒng)來說是非常小的。訓(xùn)練存儲的IO特征主要是海量小文件管理及元數(shù)據(jù)高QPS,總結(jié)來說:

  • 小IO時延敏感、元數(shù)據(jù)QPS密集(大量小文件讀)
  • 線程固定(硬件相關(guān)),單流性能對帶寬影響較大
  • 高QPS(定長讀取,QPS放大)
  • 預(yù)取友好(定長讀取,全量單次讀LRU緩存無效)

我們以估算值估計(jì)一下,OSS讀取512KB數(shù)據(jù)通常30~80ms,Nas讀取512K 20ms。在一個32核CPU的機(jī)器,加載一個100W的文件時,以32個線程執(zhí)行reader。對于深度學(xué)習(xí)訓(xùn)練任務(wù),在模型計(jì)算前,一般會對數(shù)據(jù)集做shuffle,打亂數(shù)據(jù)之間的順序,讓數(shù)據(jù)隨機(jī)化,這樣可以避免過擬合。數(shù)據(jù)的shuffle使得一個任務(wù)多個epoch間亂序訪問數(shù)據(jù),造成傳統(tǒng)基于LRU替換策略的緩存方式失效。需要下+decode+標(biāo)準(zhǔn)化都完成后才會下載下一個文件。低時延、高QPS能力的文件存儲是AI訓(xùn)練場景的優(yōu)選。

五、存儲數(shù)據(jù)流在云上云下的區(qū)別

在傳統(tǒng)的架構(gòu)里,大容量的冷數(shù)據(jù)存儲和高性能存儲是分別維護(hù)的,對于 AI 訓(xùn)練的部分,數(shù)據(jù)的存儲、生產(chǎn)、消費(fèi)都發(fā)生在高性能存儲中,自成體系,只有轉(zhuǎn)冷的數(shù)據(jù)才會考慮轉(zhuǎn)移到大容量存儲中去。比例較小的反向數(shù)據(jù)流轉(zhuǎn)(從大容量存儲到高性能存儲)通過工具來解決。

但到了數(shù)據(jù)湖里,數(shù)據(jù)湖存儲才是最全量、最權(quán)威的數(shù)據(jù)來源,大部分情況下,數(shù)據(jù)的第一個落腳點(diǎn)是數(shù)據(jù)湖,然后才會到高性能的加速層。在存算分離架構(gòu)中,加速層本身都只是臨時的存在,其中的數(shù)據(jù)生命周期和計(jì)算資源同步,略早于計(jì)算資源的創(chuàng)建而生成,計(jì)算資源銷毀時同步刪除。這就導(dǎo)致數(shù)據(jù)湖到加速層的數(shù)據(jù)同步成為一個高頻、核心的需求,需要花大力氣解決。

傳統(tǒng)AI架構(gòu)

  • 高性能存儲和大容量存儲分離部署和維護(hù)
  • 所有訓(xùn)練數(shù)據(jù)在高性能存儲中清洗、訓(xùn)練、試用數(shù)據(jù)轉(zhuǎn)冷后流轉(zhuǎn)到冷存儲(手動&工具)

云AI架構(gòu)

  • 數(shù)據(jù)入湖后第一時間進(jìn)入對象存儲(數(shù)據(jù)湖存儲底座)
  • 數(shù)據(jù)訓(xùn)練過程需要從對象存儲加載需要的數(shù)據(jù)(自動化)
  • 部分廠商推薦客戶使用手動加載(跳板機(jī)映射或者開源主機(jī)緩存軟件)

湖倉一體是實(shí)現(xiàn)海量多模態(tài)數(shù)據(jù)統(tǒng)一管理的必要手段。企業(yè)在數(shù)字化轉(zhuǎn)型過程中更加關(guān)心利用數(shù)據(jù)和信息來創(chuàng)造自身競爭優(yōu)勢,因此,實(shí)現(xiàn)底層數(shù)據(jù)的統(tǒng)一管理是進(jìn)行上層資產(chǎn)管理和業(yè)務(wù)決策分析的關(guān)鍵。

湖倉一體與AI大模型的融合表現(xiàn)在兩個方面:一是湖倉一體賦能AI大模型,即創(chuàng)新湖倉一體架構(gòu)來滿足大模型生成式AI,如ChatGPT,對于海量數(shù)據(jù)存儲、訓(xùn)練和實(shí)時推理的需求,將通用大模型在湖倉一體中的數(shù)據(jù)進(jìn)行遷移學(xué)習(xí),生成行業(yè)/企業(yè)專屬大模型;二是AI大模型賦能湖倉一體,即企業(yè)更希望湖倉一體解決方案融合ChatGPT來實(shí)現(xiàn)開發(fā)側(cè)的新業(yè)務(wù)與應(yīng)用的敏捷開發(fā)、數(shù)據(jù)智能分析、資源統(tǒng)一管理,以及上層業(yè)務(wù)側(cè)的數(shù)據(jù)快速查詢分析和總結(jié),并創(chuàng)建一個‘所想即所得’的即席交互頁面。

盡管湖倉概念提供了很多希望,但仍然面臨技術(shù)挑戰(zhàn)。市場上的大多數(shù)供應(yīng)商都在優(yōu)化單個 SQL 引擎來處理一系列工作負(fù)載,但這通常是不夠的,因?yàn)槟承?yīng)用程序需要更高的性能,而另一些應(yīng)用程序則需要更大的語言靈活性。

湖倉一體正在受到廣泛關(guān)注,用戶希望優(yōu)化對其業(yè)務(wù)最關(guān)鍵的組件。湖倉一體架構(gòu)可以帶來現(xiàn)代數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和分析用例所需的靈活性、模塊化和經(jīng)濟(jì)高效的可擴(kuò)展性,并且可以簡化對未來增強(qiáng)功能的利用。然而,為了進(jìn)一步優(yōu)化并提供更大的開放性和靈活性,仍有很多工作要做—業(yè)界正在尋找開放式數(shù)據(jù)湖倉最佳實(shí)踐。


責(zé)任編輯:華軒 來源: 數(shù)字化助推器
相關(guān)推薦

2021-04-29 09:04:00

存儲技術(shù)趨勢

2022-07-22 11:53:29

人工智能AI發(fā)展趨勢

2023-09-25 14:11:13

AI

2017-12-06 08:49:04

數(shù)據(jù)存儲趨勢

2019-12-26 09:24:19

數(shù)據(jù)存儲存儲

2014-08-11 16:20:18

數(shù)據(jù)存儲

2016-11-07 20:25:58

2023-07-14 13:49:18

OceanStor華為

2024-01-18 10:32:25

存儲2024年預(yù)測

2024-01-29 10:57:52

HBMCXLDNA

2021-02-09 22:18:02

金融行業(yè)數(shù)據(jù)存儲

2023-12-15 09:00:00

存儲安全人工智能

2019-02-01 11:14:34

AI 行業(yè) 人工智能

2023-12-15 14:56:54

人工智能ChatGPT

2021-03-19 08:56:31

分布式存儲鐵力士分布式

2016-01-21 09:30:56

編程趨勢預(yù)測

2022-03-24 11:53:25

LPWAN廣域網(wǎng)絡(luò)衛(wèi)星網(wǎng)絡(luò)

2012-11-07 14:18:37

2020-06-04 13:55:28

人工智能物聯(lián)網(wǎng)區(qū)塊鏈

2023-05-10 14:40:40

AI模型算力
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號