自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

泛AI架構(gòu)設(shè)計(jì):理解AI云原生 原創(chuàng)

發(fā)布于 2025-3-5 11:04
瀏覽
0收藏

泛AI架構(gòu)設(shè)計(jì)這個(gè)專(zhuān)欄主要關(guān)注圍繞著AI運(yùn)用于實(shí)際的業(yè)務(wù)場(chǎng)景所需的系統(tǒng)架構(gòu)設(shè)計(jì),包括業(yè)務(wù)數(shù)據(jù)治理、模型訓(xùn)練與管理、模型部署與調(diào)度。整體基于云原生技術(shù),旨在通過(guò)開(kāi)源領(lǐng)域的LLMOps或者M(jìn)LOps技術(shù),充分運(yùn)用低代碼平臺(tái)構(gòu)建高性能、高效率和敏捷響應(yīng)的AI中臺(tái)。

1.AI架構(gòu)挑戰(zhàn)

上面幾節(jié)從GPU的知識(shí)點(diǎn)入手,清晰的介紹了GPU原理、構(gòu)造以及運(yùn)算模型。有了初步的認(rèn)知之后,回到最原始的AI需求,來(lái)看看其對(duì)于基礎(chǔ)架構(gòu)的要求。AI最早于1956年提出,數(shù)十年沉沉浮浮,最后還是被廣泛的運(yùn)用于語(yǔ)音識(shí)別、機(jī)器學(xué)習(xí)、翻譯、圖像處理。深度學(xué)習(xí)的創(chuàng)新推出,使得近期人工智能有了突破性的增長(zhǎng)。AI分為Discriminative AI和Generative AI兩類(lèi),前者用于預(yù)測(cè)與分類(lèi),后者用于學(xué)習(xí)知識(shí)生成。下面的表格列出兩種AI對(duì)于各項(xiàng)基礎(chǔ)設(shè)施的需求:

需求

生成式AI

預(yù)測(cè)式AI

計(jì)算資源

極其高

需要專(zhuān)業(yè)化的硬件

中到高

一般用途硬件

數(shù)據(jù)容量

大量且多樣化格式

專(zhuān)業(yè)化的歷史數(shù)據(jù)

訓(xùn)練與微調(diào)

復(fù)雜

多輪的專(zhuān)業(yè)化計(jì)算

中等強(qiáng)度的訓(xùn)練

擴(kuò)展與彈性

高度的可擴(kuò)展和彈性的基礎(chǔ)設(shè)施(應(yīng)對(duì)可變和密集計(jì)算)

可擴(kuò)展性

彈性要求較低,支持流批一體處理

存儲(chǔ)與吞吐

高性能高吞吐低延時(shí)

支持多樣化的數(shù)據(jù)類(lèi)型

中等吞吐量 

注重?cái)?shù)據(jù)分析,大部分為架構(gòu)化

網(wǎng)絡(luò)帶寬

高帶寬低延時(shí),支持模型分布式訓(xùn)練

數(shù)據(jù)訪問(wèn)需要一致性和可靠

從上面各種AI對(duì)于基層基礎(chǔ)設(shè)施的需求,有經(jīng)驗(yàn)的工程師一般都能浮現(xiàn)一個(gè)關(guān)鍵的名詞:云原生。

云原生技術(shù)使組織能夠在公共云、私有云和混合云等現(xiàn)代化的動(dòng)態(tài)環(huán)境中構(gòu)建和運(yùn)行可擴(kuò)展的應(yīng)用程序。容器、服務(wù)網(wǎng)格、微服務(wù)、基礎(chǔ)設(shè)施和聲明式 API 就是其中的典型案例。這些技術(shù)使低耦合的系統(tǒng)具有彈性、可管理和可監(jiān)測(cè)。通過(guò)和Devops結(jié)合,工程師能夠以低成本實(shí)現(xiàn)高頻且可預(yù)測(cè)的系統(tǒng)迭代。

2.為什么要基于云原生

下圖則直觀的將AI所需要的關(guān)系圖勾勒出來(lái),黑色為某種能力,紅色為兩者的關(guān)系,箭頭代表著誰(shuí)服務(wù)于誰(shuí)。例如編排(Orchestration)需要解決數(shù)據(jù)科學(xué)的可擴(kuò)展性,而模型服務(wù)則為數(shù)據(jù)科學(xué)提供部署能力,自動(dòng)化建模為數(shù)據(jù)科學(xué)提供自動(dòng)化。希望讀者還是花點(diǎn)時(shí)間仔細(xì)推敲下這幅圖。

因此可以看到編排設(shè)計(jì)很重要的,它貫穿所有環(huán)節(jié),其次對(duì)于每個(gè)能力對(duì)象的技術(shù)選型也十分關(guān)鍵。

泛AI架構(gòu)設(shè)計(jì):理解AI云原生-AI.x社區(qū)


那么AI為什么要基于云原生,因?yàn)樵圃oAI帶來(lái)很多的益處。按照CNAI的定義基于云原生的AI架構(gòu)解決了人工智能應(yīng)用科學(xué)家、開(kāi)發(fā)人員和部署人員在云基礎(chǔ)設(shè)施上開(kāi)發(fā)、部署、運(yùn)行、擴(kuò)展和監(jiān)控人工智能工作負(fù)載時(shí)面臨的挑戰(zhàn)。通過(guò)利用底層云基礎(chǔ)設(shè)施的能力(例如CPU、GPU、網(wǎng)絡(luò)和存儲(chǔ)),提供隔離和受控共享機(jī)制,加速AI應(yīng)用程序性能并降低成本。其實(shí)很大頂尖的公司都是將AI搭建在云原生的基礎(chǔ)上,尤其是Kubernetes。


泛AI架構(gòu)設(shè)計(jì):理解AI云原生-AI.x社區(qū)

這里需要先科普下Kubernetes,它是一個(gè)編排平臺(tái),可用于部署和管理容器。容器是輕量級(jí)、可移植、獨(dú)立的軟件單元。AI模型可以打包到容器,然后部署到K8s集群。容器化對(duì)于AI部署尤其重要,因?yàn)椴煌P鸵蕾?lài)于不同版本的底層類(lèi)庫(kù),經(jīng)常會(huì)發(fā)生沖突。采用容器技術(shù),可以解決依賴(lài)關(guān)系沖突的問(wèn)題,且在模型部署中能夠提供巨大的靈活性。

舉個(gè)栗子:在一個(gè)服務(wù)器上面將A和B的應(yīng)用打包到兩個(gè)容器,一個(gè)容器里面裝了Ubuntu系統(tǒng),另一個(gè)容器里面裝了Linux系統(tǒng)。兩個(gè)容器可以看成是小的世界,都可以跑在服務(wù)器的操作系統(tǒng)上面。兩個(gè)應(yīng)用各自所需要的環(huán)境互不打擾。而且容器可以隨時(shí)銷(xiāo)毀,隨時(shí)啟動(dòng)。

在存儲(chǔ)方面,高質(zhì)量的數(shù)據(jù)用于訓(xùn)練和測(cè)試人工智能模型,云原生基礎(chǔ)設(shè)施可以通過(guò)多種方式訪問(wèn)數(shù)據(jù),例如數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)。無(wú)論是私有還是公有的云技術(shù)都能夠支持塊、對(duì)象和文件存儲(chǔ)系統(tǒng),非常適合提供低成本、可擴(kuò)展的存儲(chǔ)。

例如,模型的大小可以達(dá)到千兆字節(jié)。在訓(xùn)練階段,每次拉取模型的檢查點(diǎn)都會(huì)對(duì)網(wǎng)絡(luò)和存儲(chǔ)帶寬造成嚴(yán)重負(fù)載。 對(duì)模型采用容器化設(shè)計(jì),且在注冊(cè)表中完成托管和緩存則能有效解決,同時(shí)還有利于模型的加簽、驗(yàn)證、證明和數(shù)據(jù)來(lái)源管控。

3.AI云原生架構(gòu)

下圖為CNAI提出來(lái)的AI云原生架構(gòu),它將整個(gè)架構(gòu)設(shè)計(jì)分為五層,從下往上分別是硬件層,基礎(chǔ)設(shè)施層,云原生平臺(tái)層,AIOps/MLOps/LLMOps層,最頂層則為模型應(yīng)用層。這個(gè)專(zhuān)欄還是關(guān)注在上三層,除此之外也會(huì)覆蓋到新的計(jì)算資源GPU,以及其調(diào)度策略。

泛AI架構(gòu)設(shè)計(jì):理解AI云原生-AI.x社區(qū)

本文轉(zhuǎn)載自魯班模錘,作者:龐德公

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦