自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<big id="ykzl3"></big>

<tt id="ykzl3"><b id="ykzl3"></b></tt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI大模型時代的存儲發(fā)展趨勢

作者：天涯咫尺TGH 2024-07-01 21:06:10

從2022年下半年，大模型和AIGC這兩個詞變得極其火熱，而GPU的市場也是一卡難求。對于這種迷亂和火熱，讓我想起了當(dāng)年的比特幣挖礦和IPFS。似乎世界一年一個新風(fēng)口，比特幣、元宇宙、NFT、AIGC，金錢永不眠，IT炒作永不停歇。

從2022年下半年，大模型和AIGC這兩個詞變得極其火熱，而GPU的市場也是一卡難求。對于這種迷亂和火熱，讓我想起了當(dāng)年的比特幣挖礦和IPFS。似乎世界一年一個新風(fēng)口，比特幣、元宇宙、NFT、AIGC，金錢永不眠，IT炒作永不停歇。

其實(shí)，每一個新的風(fēng)口出現(xiàn)，總有兩撥勢力在沖突，保守派不斷探索業(yè)務(wù)的真實(shí)價值，通過價值投資試圖證明這又是一個新的龐氏騙局；另一波則是來勢洶洶，集結(jié)一切可團(tuán)結(jié)的力量，證明新時代已經(jīng)來臨。

對于這一個個的風(fēng)口，AIGC和大模型似乎與前幾年的風(fēng)口不一樣，讓我們看到了一絲真正的未來科技，在這篇文章，主要分享我對大模型&AIGC的看法，以及從存儲的視角思索，在大模型時代存儲的發(fā)展趨勢。

一、大模型和AIGC到底指的什么

AIGC：繼專業(yè)生產(chǎn)內(nèi)容（PGC，professional-generated content）、用戶生產(chǎn)內(nèi)容（UGC，User-generated content）之后的新型內(nèi)容創(chuàng)作方式，主要是基于生成對抗網(wǎng)絡(luò)GAN、大型預(yù)訓(xùn)練模型等人工智能技術(shù)，自動生成圖像、視頻、文本、音頻等作品。

AIGC的炒作來自于2022年9月，太空歌劇院獲得美國科羅拉多州舉辦藝術(shù)博覽會一等獎，熟悉的套路，熟悉的配方，是不是跟NFT炒作一模一樣（據(jù)佳士得拍賣行官方報(bào)道，數(shù)碼藝術(shù)家Beeple的NFT作品《每一天：前5000天》以約合人民幣4.51億元的高價成交，刷新了數(shù)碼藝術(shù)拍品的最高成交價等紀(jì)錄。）。

AIGC與以前的不同在于，在AI領(lǐng)域有ANI弱人工智能（Artificial Narrow Intelligence）、AGI強(qiáng)人工智能（Artificial General Intelligence）、ASI超人工智能（Super Artificial Intelligence），大模型的出現(xiàn)，讓人興奮的是看到了AGI的希望，而不是所謂的生成一句話或者問答機(jī)器人或者AI作畫；因?yàn)锳I初步具備了理解和創(chuàng)造的能力，為了將這種能力通俗的展示給業(yè)界和投資界，大家才轟轟烈烈的創(chuàng)造了各種AIGC的應(yīng)用。

2021年8月份，李飛飛和100多位學(xué)者聯(lián)名發(fā)表一份200多頁的研究報(bào)告《On the Opportunities and Risk of Foundation Models》，在文章中，AI專家將大模型統(tǒng)一命名為Foundation Models，可以翻譯為基礎(chǔ)模型或者是基石模型，論文肯定了Foundation Models對智能體基本認(rèn)知能力的推動作用，同時也指出大模型呈現(xiàn)出「涌現(xiàn)」與「同質(zhì)化」的特性。人工智能-》機(jī)器學(xué)習(xí)-》深度學(xué)習(xí)-》大模型這條演進(jìn)之路反映了我們?nèi)斯ぶ悄艿陌l(fā)展歷史。

從人工智能到機(jī)器學(xué)習(xí)，將計(jì)算解耦交給了機(jī)器；從機(jī)器學(xué)習(xí)到深度學(xué)習(xí)，我們把函數(shù)架構(gòu)同質(zhì)化到了神經(jīng)網(wǎng)絡(luò)，只需要提取模型特征；從深度學(xué)習(xí)到基礎(chǔ)模型，我們連特征也放棄了，世界的知識模型走了同質(zhì)化，相應(yīng)的也獲取了泛化能力。

而涌現(xiàn)能力則是另一個在生物學(xué)和自然領(lǐng)域常見的能力，在大模型領(lǐng)域也出現(xiàn)了對應(yīng)的特征。比如說，上下文學(xué)習(xí)（In-Context Learning）、思維鏈（Chain of Thought，CoT）等，基于現(xiàn)有僅有的幾個大模型架構(gòu)來說，業(yè)界認(rèn)知：>100B 出現(xiàn)涌現(xiàn)能力。

最近幾年大語言模型（LLM）獲得了越來越多的關(guān)注，其中最知名的當(dāng)屬 GPT-3[6] 模型。GPT-3 模型展現(xiàn)了一些大模型才具備的突現(xiàn)能力（就是模型規(guī)模必須得增大到一定程度才會顯現(xiàn)的能力，比如至少百億級），其中一項(xiàng)能力就是上下文學(xué)習(xí)（In-Context Learning）。該能力簡單來說就是，對于一個預(yù)訓(xùn)練好的大語言模型，遷移到新任務(wù)上的時候，只需要給模型輸入幾個示例（示例輸入和示例輸出對），模型就能為新輸入生成正確輸出而不需要對模型做 fine-tuning。

上下文學(xué)習(xí)（In-Context Learning）CoT本質(zhì)上是一種特殊的few shot prompt，就是說對于某個復(fù)雜的比如推理問題，用戶把一步一步的推導(dǎo)過程寫出來，并提供給大語言模型（如下圖藍(lán)色文字內(nèi)容所示），這樣大語言模型就能做一些相對復(fù)雜的推理任務(wù)。

思維鏈（Chain of Thought，CoT）

二、大模型產(chǎn)業(yè)鏈的一些影響

大模型不僅僅改變了AI研發(fā)模式，也對整個AI的商業(yè)鏈條做了重構(gòu)，以前每個公司根據(jù)自己的業(yè)務(wù)都會發(fā)展自己的模型，公安的人臉識別、淘寶的推薦系統(tǒng)、字節(jié)的內(nèi)容推薦等等，但是在大模型出現(xiàn)后，業(yè)界出現(xiàn)了分化：

1、基礎(chǔ)層（模型服務(wù)）基礎(chǔ)層為采用預(yù)訓(xùn)練大模型搭建的基礎(chǔ)設(shè)施。由于開發(fā)預(yù)訓(xùn)練大模型技術(shù)門檻高、投入成本高，因此，該層主要由少數(shù)頭部企業(yè)或研發(fā)機(jī)構(gòu)主導(dǎo)。如谷歌、微軟、Meta、OpenAI、DeepMind、Stability.ai等?；A(chǔ)層的產(chǎn)品形態(tài)主要包括兩種：一種為通過受控的api接口收取調(diào)用費(fèi)；另一種為基于基礎(chǔ)設(shè)施開發(fā)專業(yè)的軟件平臺收取費(fèi)用。

2、中間層（2B）該層與基礎(chǔ)層的最主要區(qū)別在于，中間層不具備開發(fā)大模型的能力，但是可基于開源大模型等開源技術(shù)進(jìn)行改進(jìn)、抽取或模型二次開發(fā)。該層為在大模型的基礎(chǔ)上開發(fā)的場景化、垂直化、定制化的應(yīng)用模型或工具。在AIGC的應(yīng)用場景中基于大模型抽取出個性化、定制化的應(yīng)用模型或工具滿足行業(yè)需求。如基于開源的Stable Diffusion大模型所開發(fā)的二次元風(fēng)格圖像生成器，滿足特定行業(yè)場景需求。中間層的產(chǎn)品形態(tài)、商業(yè)模式與基礎(chǔ)層保持一致，分別為接口調(diào)用費(fèi)與平臺軟件費(fèi)。

3、應(yīng)用層（2C）應(yīng)用層主要基于基礎(chǔ)層與中間層開發(fā)，面向C端的場景化工具或軟件產(chǎn)品。應(yīng)用層更加關(guān)注用戶的需求，將AIGC技術(shù)切實(shí)融入用戶需求，實(shí)現(xiàn)不同形態(tài)、不同功能的產(chǎn)品落地?？梢酝ㄟ^網(wǎng)頁、小程序、群聊、app等不同的載體呈現(xiàn)。以數(shù)據(jù)流的視角看，大模型的業(yè)務(wù)研發(fā)和業(yè)務(wù)流程也發(fā)生了不同的變化：

三、大模型的主要技術(shù)門檻

回顧C(jī)hatGPT的發(fā)展歷程，我們可以總結(jié)出大語言模型（LLM）取得驚艷效果的要點(diǎn)（重要性從高到低排序）：
? 愿意燒錢，且接受“燒錢 != 好模型”的現(xiàn)實(shí)
? 高質(zhì)量的訓(xùn)練語料
? 高效的分布式訓(xùn)練框架和充沛優(yōu)質(zhì)的硬件資源
? 算法的迭代創(chuàng)新

大模型的技術(shù)門檻很高，但是從IT的視角來看，還是因?yàn)槟Ｐ吞髱砹瞬豢山鉀Q的一些問題。以GPT-3訓(xùn)練為例，我們可以看到，訓(xùn)練過程中基礎(chǔ)模型的加載和存儲GPT3模型訓(xùn)練內(nèi)存需求= 參數(shù)+梯度+優(yōu)化器+其他 >2800GB >> 80GB(A100顯存大小)。大概需要35張A100卡才能完整加載模型訓(xùn)練過程中的數(shù)據(jù)，還不包括其他的冗余等信息。

因此，大模型的訓(xùn)練從原來的單卡演進(jìn)到了多機(jī)多卡，多機(jī)多卡必然帶來資源利用率的下降，GPT-3的計(jì)算資源利用率至于大概21.3%。所以這幾年大家努力的方向主要是如何提升資源利用率。片上內(nèi)存（on-chip memory）、芯片間互連的帶寬（英偉達(dá)的NVlink）、多機(jī)多卡的調(diào)度是主要的努力方向。

其中片上內(nèi)存（on-chip memory）、芯片間互連的帶寬（英偉達(dá)的NVlink）主要是GPU廠商提供的，作為云基礎(chǔ)設(shè)施廠商主要努力只能發(fā)力集群的多機(jī)多卡調(diào)度。

大部分的大模型訓(xùn)練都走向了并行化，業(yè)界幾種經(jīng)典的分布式并行范式，包括流水線并行（Pipeline Parallelism），數(shù)據(jù)并行（Data Parallelism）和張量并行（Tensor Parallesim）。在并行訓(xùn)練中，主要要解決如下的問題：
? 大模型內(nèi)存墻：以GPT3為例，模型參數(shù)+梯度參數(shù)+優(yōu)化器需要內(nèi)存2.8TB（175B參數(shù)）
? 訓(xùn)練效率：多機(jī)并行訓(xùn)練情況下，訓(xùn)練效率下降；單個模型的訓(xùn)練時長可控
? 訓(xùn)練穩(wěn)定性：訓(xùn)練時長較長，經(jīng)常出現(xiàn)硬件錯誤或者網(wǎng)絡(luò)錯誤；收斂失敗，遇到bug

解決的方式是融合了網(wǎng)絡(luò)、并行框架、存儲。在這篇文章中，我們重點(diǎn)關(guān)注存儲的需求。

四、大模型訓(xùn)練的數(shù)據(jù)流以及IO瓶頸

先介紹幾個訓(xùn)練相關(guān)的概念：單個epoch的階段：全量樣本訓(xùn)練一次， shuffle、讀 batch、存checkpoint等。

整個訓(xùn)練數(shù)據(jù)流如下：

數(shù)據(jù)打散：遍歷樣本數(shù)據(jù)，進(jìn)行文件的shuffle
數(shù)據(jù)加載：海量小文件元數(shù)據(jù)操作（ImageNet 1~100KB，螞蟻 500KB，文件數(shù)量1100億），定長的文件數(shù)據(jù)讀?。?28K256K）
Checkpoint存儲（原子操作）：順序大 I/O寫(模型checkpoint)，單個GPU狀態(tài)checkpoint（單卡一路大塊順序?qū)懀?，時間敏感（30S~5分鐘）

根據(jù)一些統(tǒng)計(jì)的結(jié)果，可以發(fā)現(xiàn)很多訓(xùn)練的樣本集面臨的情況是，樣本數(shù)量非常大，但樣本的平均大小又很小。以 ImageNet 數(shù)據(jù)集為例，整個數(shù)據(jù)集包含幾百萬（ImageNet 1K）、上千萬（ImageNet 22k）的圖片，平均一個圖片大小僅為一百多 KB。這個大小對存儲系統(tǒng)來說是非常小的。訓(xùn)練存儲的IO特征主要是海量小文件管理及元數(shù)據(jù)高QPS，總結(jié)來說：

小IO時延敏感、元數(shù)據(jù)QPS密集（大量小文件讀）
線程固定(硬件相關(guān))，單流性能對帶寬影響較大
高QPS（定長讀取，QPS放大）
預(yù)取友好（定長讀取，全量單次讀LRU緩存無效）

我們以估算值估計(jì)一下，OSS讀取512KB數(shù)據(jù)通常30~80ms，Nas讀取512K 20ms。在一個32核CPU的機(jī)器，加載一個100W的文件時，以32個線程執(zhí)行reader。對于深度學(xué)習(xí)訓(xùn)練任務(wù)，在模型計(jì)算前，一般會對數(shù)據(jù)集做shuffle，打亂數(shù)據(jù)之間的順序，讓數(shù)據(jù)隨機(jī)化，這樣可以避免過擬合。數(shù)據(jù)的shuffle使得一個任務(wù)多個epoch間亂序訪問數(shù)據(jù)，造成傳統(tǒng)基于LRU替換策略的緩存方式失效。需要下+decode+標(biāo)準(zhǔn)化都完成后才會下載下一個文件。低時延、高QPS能力的文件存儲是AI訓(xùn)練場景的優(yōu)選。

五、存儲數(shù)據(jù)流在云上云下的區(qū)別

在傳統(tǒng)的架構(gòu)里，大容量的冷數(shù)據(jù)存儲和高性能存儲是分別維護(hù)的，對于 AI 訓(xùn)練的部分，數(shù)據(jù)的存儲、生產(chǎn)、消費(fèi)都發(fā)生在高性能存儲中，自成體系，只有轉(zhuǎn)冷的數(shù)據(jù)才會考慮轉(zhuǎn)移到大容量存儲中去。比例較小的反向數(shù)據(jù)流轉(zhuǎn)（從大容量存儲到高性能存儲）通過工具來解決。

但到了數(shù)據(jù)湖里，數(shù)據(jù)湖存儲才是最全量、最權(quán)威的數(shù)據(jù)來源，大部分情況下，數(shù)據(jù)的第一個落腳點(diǎn)是數(shù)據(jù)湖，然后才會到高性能的加速層。在存算分離架構(gòu)中，加速層本身都只是臨時的存在，其中的數(shù)據(jù)生命周期和計(jì)算資源同步，略早于計(jì)算資源的創(chuàng)建而生成，計(jì)算資源銷毀時同步刪除。這就導(dǎo)致數(shù)據(jù)湖到加速層的數(shù)據(jù)同步成為一個高頻、核心的需求，需要花大力氣解決。

傳統(tǒng)AI架構(gòu)

高性能存儲和大容量存儲分離部署和維護(hù)
所有訓(xùn)練數(shù)據(jù)在高性能存儲中清洗、訓(xùn)練、試用數(shù)據(jù)轉(zhuǎn)冷后流轉(zhuǎn)到冷存儲（手動&工具）

云AI架構(gòu)

數(shù)據(jù)入湖后第一時間進(jìn)入對象存儲（數(shù)據(jù)湖存儲底座）
數(shù)據(jù)訓(xùn)練過程需要從對象存儲加載需要的數(shù)據(jù)(自動化)
部分廠商推薦客戶使用手動加載（跳板機(jī)映射或者開源主機(jī)緩存軟件）

湖倉一體是實(shí)現(xiàn)海量多模態(tài)數(shù)據(jù)統(tǒng)一管理的必要手段。企業(yè)在數(shù)字化轉(zhuǎn)型過程中更加關(guān)心利用數(shù)據(jù)和信息來創(chuàng)造自身競爭優(yōu)勢，因此，實(shí)現(xiàn)底層數(shù)據(jù)的統(tǒng)一管理是進(jìn)行上層資產(chǎn)管理和業(yè)務(wù)決策分析的關(guān)鍵。

湖倉一體與AI大模型的融合表現(xiàn)在兩個方面：一是湖倉一體賦能AI大模型，即創(chuàng)新湖倉一體架構(gòu)來滿足大模型生成式AI，如ChatGPT，對于海量數(shù)據(jù)存儲、訓(xùn)練和實(shí)時推理的需求，將通用大模型在湖倉一體中的數(shù)據(jù)進(jìn)行遷移學(xué)習(xí)，生成行業(yè)/企業(yè)專屬大模型；二是AI大模型賦能湖倉一體，即企業(yè)更希望湖倉一體解決方案融合ChatGPT來實(shí)現(xiàn)開發(fā)側(cè)的新業(yè)務(wù)與應(yīng)用的敏捷開發(fā)、數(shù)據(jù)智能分析、資源統(tǒng)一管理，以及上層業(yè)務(wù)側(cè)的數(shù)據(jù)快速查詢分析和總結(jié)，并創(chuàng)建一個‘所想即所得’的即席交互頁面。

盡管湖倉概念提供了很多希望，但仍然面臨技術(shù)挑戰(zhàn)。市場上的大多數(shù)供應(yīng)商都在優(yōu)化單個 SQL 引擎來處理一系列工作負(fù)載，但這通常是不夠的，因?yàn)槟承?yīng)用程序需要更高的性能，而另一些應(yīng)用程序則需要更大的語言靈活性。

湖倉一體正在受到廣泛關(guān)注，用戶希望優(yōu)化對其業(yè)務(wù)最關(guān)鍵的組件。湖倉一體架構(gòu)可以帶來現(xiàn)代數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和分析用例所需的靈活性、模塊化和經(jīng)濟(jì)高效的可擴(kuò)展性，并且可以簡化對未來增強(qiáng)功能的利用。然而，為了進(jìn)一步優(yōu)化并提供更大的開放性和靈活性，仍有很多工作要做—業(yè)界正在尋找開放式數(shù)據(jù)湖倉最佳實(shí)踐。

責(zé)任編輯：華軒來源：數(shù)字化助推器

AIGC 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="ek8ll"><listing id="ek8ll"></listing></abbr>

<nav id="ek8ll"></nav>

<tt id="ek8ll"><nobr id="ek8ll"></nobr></tt>