自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維

發(fā)布于 2024-11-22 11:57
瀏覽
0收藏

生成式AI的挑戰(zhàn)

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

  1. 數(shù)據(jù)準(zhǔn)備和管理:生成式AI的訓(xùn)練需要整合分散在多個系統(tǒng)中的數(shù)據(jù),數(shù)據(jù)格式復(fù)雜,常包含缺失值和噪聲,影響模型的訓(xùn)練效果。企業(yè)需高效收集、清洗、轉(zhuǎn)換這些數(shù)據(jù),并且要滿足大規(guī)模數(shù)據(jù)處理和高速存儲需求。同時,必須確保數(shù)據(jù)的安全和隱私合規(guī)。
  2. 模型訓(xùn)練和部署:訓(xùn)練生成式AI模型需要大量計算資源和長時間的訓(xùn)練,硬件成本高且訓(xùn)練周期長。選擇合適的模型架構(gòu)和超參數(shù)至關(guān)重要,并且需要有效的版本控制來管理多個模型版本。將模型部署到生產(chǎn)環(huán)境時,需考慮其性能、可擴(kuò)展性和可靠性。
  3. 人才和技能:生成式AI的開發(fā)要求具備數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和軟件工程等多方面技能,但這類專業(yè)人才短缺。項目通常需要跨團(tuán)隊協(xié)作,且技術(shù)更新迅速,人員需不斷學(xué)習(xí)和更新技能,才能跟上技術(shù)發(fā)展。
  4. 其他挑戰(zhàn):生成式AI項目成本高,企業(yè)必須評估投資回報率。技術(shù)的倫理問題,如虛假信息傳播和算法偏見,需要企業(yè)在項目實施前制定應(yīng)對策略。對于一些應(yīng)用場景,模型的可解釋性和持續(xù)監(jiān)控也是不可忽視的挑戰(zhàn)。

HPE Private Cloud AI

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

核心組件:

  • HPE GreenLake云平臺:作為HPE混合云戰(zhàn)略的核心,HPE GreenLake云平臺提供了按需消費(fèi)、彈性擴(kuò)展和統(tǒng)一管理的云計算服務(wù),為Private Cloud AI解決方案提供了靈活可擴(kuò)展的基礎(chǔ)設(shè)施,并簡化了AI平臺的部署和管理流程。
  • HPE AI Essentials:專門為Private Cloud AI定制的軟件平臺,包含預(yù)裝、預(yù)配置和預(yù)連接的AI工具和框架,例如Apache Airflow、Spark和Jupyter Notebook,以及NVIDIA AI Enterprise軟件棧。
  • NVIDIA AI Enterprise:NVIDIA AI Enterprise軟件棧提供了GPU加速計算技術(shù)和AI軟件庫,用于優(yōu)化AI模型的訓(xùn)練和推理性能。
  • 解決方案加速器(Solution Accelerators):即將推出的功能,將提供預(yù)配置的AI解決方案,涵蓋數(shù)據(jù)、模型和應(yīng)用程序,用戶可以通過簡單的點擊操作即可部署特定類型的AI應(yīng)用。

關(guān)鍵特性和優(yōu)勢:

  • 簡化的AI平臺部署:將復(fù)雜的AI基礎(chǔ)設(shè)施和軟件棧整合到一個易于部署和管理的平臺中,使企業(yè)能夠快速構(gòu)建AI平臺并開始進(jìn)行AI模型的開發(fā)和部署。
  • 靈活可擴(kuò)展的基礎(chǔ)設(shè)施:HPE GreenLake云平臺為Private Cloud AI解決方案提供了按需消費(fèi)和彈性擴(kuò)展的基礎(chǔ)設(shè)施,以滿足生成式AI應(yīng)用對計算、存儲和網(wǎng)絡(luò)資源的需求。
  • 統(tǒng)一的云平臺管理:HPE GreenLake云平臺提供了統(tǒng)一的管理控制臺,用于管理Private Cloud AI解決方案和其他云計算資源,簡化IT運(yùn)維并提高AI平臺的管理效率。
  • 增強(qiáng)的安全性:提供了多層次的安全措施,例如數(shù)據(jù)加密、訪問控制和安全監(jiān)控,確保企業(yè)數(shù)據(jù)的安全性和合規(guī)性。
  • 全面的AI工具和框架支持:HPE AI Essentials整合了各種開源和商業(yè)AI工具和框架,為數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和AI開發(fā)人員提供了一個完整的AI開發(fā)環(huán)境。
  • 與NVIDIA的深度合作:HPE與NVIDIA的合作確保了Private Cloud AI解決方案能夠充分利用NVIDIA的GPU加速計算技術(shù)和AI軟件庫,優(yōu)化AI模型的訓(xùn)練和推理性能。
  • 抽象化和自動化:將AI應(yīng)用開發(fā)和部署過程中復(fù)雜的技術(shù)細(xì)節(jié)抽象化,并提供自動化工具來簡化工作流程,使不同技術(shù)背景的用戶都能輕松使用AI技術(shù)。

目標(biāo)用戶:

  • 數(shù)據(jù)科學(xué)家:提供了一個完整的AI開發(fā)環(huán)境,包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型評估和模型部署等工具和框架。
  • 數(shù)據(jù)工程師:提供了強(qiáng)大的數(shù)據(jù)處理和分析能力,例如數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)存儲等。
  • AI開發(fā)人員:提供了一個平臺,用于構(gòu)建、部署和管理各種AI應(yīng)用,例如聊天機(jī)器人、推薦系統(tǒng)和欺詐檢測系統(tǒng)。
  • IT管理員:提供了一個統(tǒng)一的管理控制臺,用于管理AI平臺的資源、用戶和安全策略。

應(yīng)用場景:

  • 生成式AI應(yīng)用開發(fā):開發(fā)各種生成式AI應(yīng)用,例如文本生成、圖像生成、代碼生成和聊天機(jī)器人。
  • 預(yù)測性分析:構(gòu)建預(yù)測模型,用于預(yù)測未來趨勢、識別潛在風(fēng)險和優(yōu)化業(yè)務(wù)決策。
  • 數(shù)據(jù)分析和洞察:從大量數(shù)據(jù)中提取有價值的洞察,幫助企業(yè)更好地了解客戶、市場和運(yùn)營情況。


應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

首先分享對企業(yè)基礎(chǔ)設(shè)施行業(yè)的觀察。在傳統(tǒng)討論框架中,我們的焦點主要落在現(xiàn)有客戶群體上。這些客戶通常會采購硬件設(shè)備,有時會將其與合作伙伴的軟件集成,以構(gòu)建完整的解決方案。然而,以往的討論往往止步于此,最終用戶往往被排除在決策過程之外。

然而,這一狀況正在發(fā)生轉(zhuǎn)變。特別是隨著軟件即服務(wù)(SaaS)的蓬勃發(fā)展,以及像HPE這樣的公有云和混合云供應(yīng)商對基礎(chǔ)設(shè)施進(jìn)行抽象化處理,我們觀察到越來越多的終端用戶開始積極參與相關(guān)討論。近年來,這一趨勢尤為顯著——參與機(jī)器學(xué)習(xí)運(yùn)維(MLOps)工作流的從業(yè)者,即那些負(fù)責(zé)推動生成式AI應(yīng)用落地的人員,已不再僅僅作為被咨詢的對象,而是主動提出他們對基礎(chǔ)設(shè)施的具體需求。

這些需求正在迅速增長。今天,我想具體分析這些需求的本質(zhì)、成因,以及為何過分追求快速達(dá)成最終目標(biāo)可能并非最優(yōu)策略。

我擁有機(jī)器人學(xué)工程學(xué)士學(xué)位。機(jī)器人學(xué)不僅涉及機(jī)器學(xué)習(xí)(ML)的應(yīng)用,還包括控制算法的運(yùn)用 - 后者本質(zhì)上是簡化版的機(jī)器學(xué)習(xí)算法。在機(jī)器人學(xué)領(lǐng)域,核心目標(biāo)是根據(jù)指令實現(xiàn)物理執(zhí)行。系統(tǒng)需要解讀傳感器輸入和環(huán)境數(shù)據(jù),據(jù)此執(zhí)行特定動作,最終為用戶交付預(yù)期結(jié)果。

這個過程越自動化越好。舉例來說,如果能讓機(jī)器人在酒店內(nèi)自主導(dǎo)航,到達(dá)指定房間并送上飲品,這將是一項非常實用的服務(wù)。也許到2025年,"Toby"這樣的服務(wù)機(jī)器人就能為希爾頓酒店提供客房服務(wù)!

分享這個例子是為了說明我對應(yīng)用機(jī)器學(xué)習(xí)的理解。當(dāng)我進(jìn)入企業(yè)基礎(chǔ)設(shè)施領(lǐng)域后,我發(fā)現(xiàn)基礎(chǔ)設(shè)施的購買方與使用方之間經(jīng)常存在術(shù)語理解上的差異。這種混淆通常源于定義不夠清晰。因此,在深入討論之前,我想明確今天我們將使用的術(shù)語,特別是在探討GenAI和AI時。

AI描述了模仿人類行為或決策過程的技術(shù)與行為。雖然機(jī)器學(xué)習(xí)通常用于實現(xiàn)AI,但兩者并非同義詞。機(jī)器學(xué)習(xí)是AI的一個子集,其核心是分析數(shù)據(jù)集以識別模式并作出預(yù)測。通過這一過程構(gòu)建的模型通常被稱為神經(jīng)網(wǎng)絡(luò)。

2017年,Google通過引入Transformer模型徹底改變了這一領(lǐng)域。這項創(chuàng)新使大型模型能夠生成實時預(yù)測,通過逐個token生成響應(yīng)。Transformer模型成為了眾多現(xiàn)代生成式AI工具的基礎(chǔ)。它的工作原理是預(yù)測序列中的下一個片段,例如句子中的下一個詞。比如在"迅速的棕色狐貍跳過懶狗"這個短語中,模型會根據(jù)上下文預(yù)測每個后續(xù)詞。

通過在海量數(shù)據(jù)集上預(yù)訓(xùn)練這些模型,產(chǎn)生了生成式預(yù)訓(xùn)練變換器(Generative Pre-trained Transformer, GPT)。當(dāng)這些模型經(jīng)過優(yōu)化以適應(yīng)對話式輸入輸出時,便發(fā)展成了像ChatGPT這樣的工具,后者于2022年問世。這標(biāo)志著大型語言模型(LLM)的崛起,它是Transformer的一個子集,并迅速成為主流AI應(yīng)用。

分享這些背景是因為,傳統(tǒng)上基礎(chǔ)設(shè)施團(tuán)隊無需過多關(guān)注AI抽象層面的具體細(xì)節(jié)。然而,LLM工作流的需求正在重塑基礎(chǔ)設(shè)施的范圍、設(shè)計、部署和服務(wù)方式。支持LLM的需求與其他機(jī)器學(xué)習(xí)技術(shù)有著顯著差異。在探討對企業(yè)基礎(chǔ)設(shè)施的影響時,理解這一區(qū)別至關(guān)重要。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

Camberley Bates:在深入探討這個技術(shù)棧 - 或者說這些層級時,你如何看待不同角色在其中的作用?特別是考慮到我大致了解你計劃在這個產(chǎn)品中關(guān)注的方向。

Alexander Ollman:這個問題切中要害,是個很好的引子。因為在接下來的討論中,我特別想與大家一起探討并描述那些通常需要處理數(shù)據(jù)傳輸?shù)缴窠?jīng)網(wǎng)絡(luò)、進(jìn)行大數(shù)據(jù)集預(yù)測AI和向生成式AI應(yīng)用進(jìn)行向量化的角色。

這些角色通常包括數(shù)據(jù)工程師(Data Engineer)、數(shù)據(jù)科學(xué)家(Data Scientist)、機(jī)器學(xué)習(xí)工程師(ML Engineer)、AI工程師(AI Engineer)和應(yīng)用開發(fā)人員(Application Developer)。他們不僅在這一領(lǐng)域工作,而且貫穿整個基礎(chǔ)設(shè)施技術(shù)棧。如果可以的話,我想暫時擱置這個問題,因為接下來的討論將包括一個實際演示,展示如何通過底層基礎(chǔ)設(shè)施賦能這些角色。

這些應(yīng)用之間存在顯著差異。目前,當(dāng)我們談?wù)揂I這一術(shù)語時,通常指的是預(yù)測模型。

例如:

  • 預(yù)測:預(yù)測未來兩個季度的房價或股票價格。在機(jī)器人學(xué)等領(lǐng)域,時間序列估算等時間相關(guān)的用例非常普遍。
  • 填補(bǔ)缺失值:在數(shù)據(jù)集中補(bǔ)充缺失項。比如在缺乏大規(guī)模數(shù)據(jù)集的情況下,利用小樣本民意調(diào)查數(shù)據(jù)來推斷整體群體的觀點。
  • 檢測:物體檢測模型得到廣泛應(yīng)用,尤其在醫(yī)療領(lǐng)域。

這些都是較小規(guī)模神經(jīng)網(wǎng)絡(luò)模型的典型應(yīng)用,它們的性能會隨著輸入數(shù)據(jù)量的增加而提升。然而,這些模型通常是為特定用例設(shè)計的。例如,每次打開Spotify時,多個數(shù)據(jù)流水線會觸發(fā)模型,實時生成個性化推薦。

相比之下,生成式模型規(guī)模龐大且計算密集。原因在于它們在海量通用數(shù)據(jù)集上訓(xùn)練,且本質(zhì)上設(shè)計為通用型模型。

對于特定任務(wù),小型模型配合較小的數(shù)據(jù)集就能達(dá)到相同的準(zhǔn)確度。而通用型大模型在處理通用應(yīng)用時則需要顯著更多的計算資源。這種區(qū)別對基礎(chǔ)設(shè)施設(shè)計者來說極其重要,因為運(yùn)行通用模型與特定模型的資源需求有著本質(zhì)區(qū)別。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

這正是當(dāng)前市場的主要需求 - 在過去兩年中,它已成為每月的熱點話題。如果從股市表現(xiàn)來看,這種熱度可能會持續(xù)五年之久。

那么,在實踐中具體需求是什么呢?

  • 希望立即部署代碼生成器,使團(tuán)隊在代碼項目部署效率提升70-80%
  • 希望通過自動從現(xiàn)有組織文檔生成報告來提高工作效率
  • 希望為新聞通訊生成相關(guān)圖片,同時規(guī)避版權(quán)問題
  • 希望部署對話式聊天機(jī)器人(Conversational Chatbot),能夠即時從組織數(shù)據(jù)中檢索答案

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

在實際應(yīng)用中是什么樣子?它表現(xiàn)為一個已部署的應(yīng)用程序。

這正是現(xiàn)代AI的魅力所在 - 它是一個針對特定用例定制的ChatGPT。這也解釋了為什么2022年11月打開了潘多拉魔盒。并非因為技術(shù)本身是新的(ChatGPT背后的模型早在2020年就已公開),而是因為用戶首次能夠?qū)?fù)雜的處理過程簡化為問答式交互這樣的簡單形式。

每個客戶、合作伙伴和利益相關(guān)者都迫切希望盡快實現(xiàn)這一目標(biāo)。眾多軟件供應(yīng)商也通過承諾快速部署來迎合這種需求。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

要部署這樣的應(yīng)用程序,需要完成以下關(guān)鍵步驟:

1. 數(shù)據(jù)上下文化(Data Contextualization):

   應(yīng)用程序需要組織特定的數(shù)據(jù)。數(shù)據(jù)可能存在于:

   - 包含歷史記錄的結(jié)構(gòu)化SQL數(shù)據(jù)庫

   - 非結(jié)構(gòu)化文檔,如PDF或分散存儲在多處的對象存儲中

   數(shù)據(jù)收集并非易事,需要合適的訪問控制和準(zhǔn)備工作。

2. 數(shù)據(jù)準(zhǔn)備(Data Preparation):

   - 結(jié)構(gòu)化數(shù)據(jù)(如包含數(shù)百萬行的表格)需要查詢以提取相關(guān)子集

   - 非結(jié)構(gòu)化數(shù)據(jù)(如對象存儲中的文件)必須經(jīng)過篩選以確定相關(guān)性

Brian Booden:這是首次區(qū)分結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)來自數(shù)據(jù)庫(行與標(biāo)準(zhǔn)格式),而非結(jié)構(gòu)化數(shù)據(jù)包括PDF、Word文檔和PowerPoint文件。你說的是哪種數(shù)據(jù)?

Alexander Ollman:兩種都包括。非結(jié)構(gòu)化數(shù)據(jù)可能是存儲為對象的文件,如數(shù)據(jù)湖(Data Lake)中的PDF或JSON文件。結(jié)構(gòu)化數(shù)據(jù)則涉及查詢數(shù)據(jù)庫獲取相關(guān)信息。獲取數(shù)據(jù)后,還需要進(jìn)一步處理才能被大型語言模型(LLM)或類似生成式模型使用。

3. 數(shù)據(jù)選擇(Data Selection):

   數(shù)據(jù)準(zhǔn)備完成后,需要為特定用例選擇適當(dāng)?shù)臄?shù)據(jù)。

4. 模型選擇或訓(xùn)練:

   - 選擇現(xiàn)成模型

   - 必要時對現(xiàn)有基礎(chǔ)模型進(jìn)行微調(diào)(Fine-tuning)

   這一步驟需要軟件和硬件基礎(chǔ)設(shè)施支持。

5. 驗證(Validation):

   驗證模型是否適合預(yù)期用例,可能包括:

   - Beta測試

   - 用戶反饋

   - 法律合規(guī)性檢查

只有完成這些步驟,組織才能部署應(yīng)用程序并開始獲取收益。

這些步驟都不簡單,需要細(xì)致規(guī)劃。盡管像HPE這樣的供應(yīng)商在不斷抽象化和簡化這些流程,但理解和重視其中的復(fù)雜性仍然至關(guān)重要。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

這些抽象化是如何實現(xiàn)的?從這些步驟來看,它自動化了數(shù)據(jù)準(zhǔn)備工作。它能夠簡化多數(shù)據(jù)源的連接過程。它能夠創(chuàng)建數(shù)據(jù)流水線(Data Pipeline),使我能夠針對任何特定用例自動啟動數(shù)據(jù)流程。這些流水線可以基于事件或特定時間點觸發(fā) - 每周一次、每季度一次 - 而這一切都可以自動化。這樣一來,這些工作就不再需要我手動執(zhí)行了。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

這還可能包括模型編排的自動化。例如,系統(tǒng)可以根據(jù)自然語言用例從模型庫中選擇合適的模型,為我啟動它,并確保選擇了正確的模型,讓我無需為此操心。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

也許我們根本不需要這么復(fù)雜。或許我們可以通過一些預(yù)打包的LLM應(yīng)用程序來實現(xiàn)更高層次的抽象,只需將數(shù)據(jù)傳遞給它們即可。這些抽象的效果取決于實施人員對系統(tǒng)的理解程度。這個概念貫穿各個層級的角色,不僅包括數(shù)據(jù)工程(Data Engineering)和數(shù)據(jù)科學(xué)(Data Science)領(lǐng)域的專家,還包括基礎(chǔ)設(shè)施層面的工作人員。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

這一點極其重要,因為如果缺乏對數(shù)據(jù)的深入理解 - 確保數(shù)據(jù)經(jīng)過精心策劃并遵循所有必要的準(zhǔn)備步驟 - 輸入生成式模型的數(shù)據(jù)有時可能會產(chǎn)生偏離預(yù)期的結(jié)果。對某些場景這可能無關(guān)緊要,但對于大型跨國公司、銀行、航空公司或任何需要日常與客戶互動的組織來說,這種偏差是絕對不能接受的。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

舉例來說,假設(shè)你是一家大型航空公司,需要安撫一位因模型錯誤解讀政策而受到誤導(dǎo)的客戶。這種錯誤源于模型接收的上下文數(shù)據(jù)未經(jīng)充分訓(xùn)練,是急于求成的結(jié)果。如果沒有適當(dāng)?shù)谋U洗胧?或者對訓(xùn)練、構(gòu)建和驗證過程重要性缺乏理解,模型可能會造成嚴(yán)重?fù)p害。

比如,一個實施不當(dāng)?shù)哪P涂赡軙ㄗh客戶購買競爭對手的汽車,或者提供完全不相關(guān)的信息,如制作雞蛋沙拉三明治的方法。這些不可預(yù)測的結(jié)果源于數(shù)據(jù)或?qū)嵤╁e誤,在企業(yè)環(huán)境中是難以接受的。特別是在昂貴的基礎(chǔ)設(shè)施上運(yùn)營時,僅僅生成響應(yīng)就需要承擔(dān)可觀的成本。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

我們該如何應(yīng)對這個挑戰(zhàn)?抽象化固然重要,但我們還需要加速AI投資(無論是預(yù)測型還是生成型)的價值實現(xiàn)。然而,這必須建立在充分理解底層過程的基礎(chǔ)之上。

讓我舉個例子,我的第一臺3D打印機(jī)是大約十年前購買的Robo 3D。它最初是一個Kickstarter項目,旨在成為首批商用家用3D打印機(jī)之一。不幸的是,這臺打印機(jī)75%的時間都無法正常工作 - 要么無法正確啟動、無法在打印床上附著,要么在完成第一層后就失去精度。這通常是由于水平校準(zhǔn)不當(dāng)、溫度問題或環(huán)境因素導(dǎo)致的。

經(jīng)過多個不眠之夜的故障排查后,我的搭檔下了最后通牒:"要么選我,要么選打印機(jī)。"時光快進(jìn)到今天,我擁有了一臺Bamboo X1 Carbon,這是一款經(jīng)過顯著改進(jìn)的型號,開箱即可使用。我不再需要手動拼接耗材或解決瑣碎問題。這臺打印機(jī)成功將復(fù)雜性抽象化,同時提供了流暢可靠的使用體驗。

然而,這種抽象化之所以有效,是因為我能夠理解它所簡化的復(fù)雜性。當(dāng)出現(xiàn)問題時,我知道該預(yù)期什么,也知道如何與Bamboo的支持團(tuán)隊溝通。這種理解對提升用戶體驗和故障排除至關(guān)重要。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

這引出了生成式AI應(yīng)用程序的七個步驟及其抽象化的具體實現(xiàn)。底層基礎(chǔ)設(shè)施需要幾個關(guān)鍵組件:

  • GPU加速計算:現(xiàn)代模型規(guī)模已不再是幾十或幾百M(fèi)B,而是以十GB計。例如,NVIDIA最強(qiáng)大的GPU擁有80GB顯存,僅能容納ChatGPT模型大約四分之一的規(guī)模。
  • 高速存儲訪問和網(wǎng)絡(luò):這些組件對于將模型高效傳輸?shù)紾PU顯存中至關(guān)重要。
  • 基礎(chǔ)設(shè)施抽象化:多年來,基礎(chǔ)設(shè)施領(lǐng)域一直致力于抽象化技術(shù)復(fù)雜性。通過虛擬化軟件和資源調(diào)配,為不同角色提供支持,使他們能夠有效執(zhí)行機(jī)器學(xué)習(xí)運(yùn)維(MLOps)中的每個步驟。

只有在這些層次就位后,軟件應(yīng)用層才能管理內(nèi)部訓(xùn)練、數(shù)據(jù)準(zhǔn)備工具和最終用戶應(yīng)用程序。即便如此,我們?nèi)孕枰咝У夭渴鸷屯评砟P汀?/p>

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

抽象化這些層次一直是我們努力的方向,這不僅是為了減少痛點,更是為了實現(xiàn)平臺級能力?;A(chǔ)設(shè)施仍對專業(yè)人員開放,同時將工具和資源交付給需要的角色。這種方法使數(shù)據(jù)科學(xué)家、工程師和其他專家能夠?qū)W⒂谧约旱娜蝿?wù),而無需過多關(guān)注底層的計算和存儲系統(tǒng)。

在了解機(jī)器學(xué)習(xí)運(yùn)維(MLOps)工作流程的所有步驟時,有一個關(guān)鍵點我們尚未涉及,那就是實現(xiàn)這七個步驟所需的底層基礎(chǔ)設(shè)施的重要性。

接下來我們將聚焦于底層基礎(chǔ)設(shè)施,以及HPE Private Cloud AI提供的解決方案。我將通過一個實際案例并現(xiàn)場演示Private Cloud AI平臺來詳細(xì)說明。這不僅展示了HPE在私有云產(chǎn)品上的投入,更重要的是體現(xiàn)了我們與各類群體的深入互動——不僅包括基礎(chǔ)設(shè)施管理員和數(shù)據(jù)庫管理員,還包括那些致力于打造下一代企業(yè)創(chuàng)新的專業(yè)人才:數(shù)據(jù)科學(xué)家(Data Scientists)、數(shù)據(jù)工程師(Data Engineers)、機(jī)器學(xué)習(xí)工程師(ML Engineers)、AI工程師(AI Engineers)和應(yīng)用開發(fā)人員(Application Developers)。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

與HPE的眾多深入交流一樣,這次討論也是通過HPE GreenLake進(jìn)行的。Private Cloud AI這款產(chǎn)品集中體現(xiàn)了HPE自近十年前從惠普公司分拆后確立的愿景。該愿景包含兩個核心目標(biāo):

1. 突破傳統(tǒng)基礎(chǔ)設(shè)施供應(yīng)商的角色定位——不再局限于提供客戶自行管理的硬件和軟件,而是致力于為復(fù)雜場景提供定制化解決方案。

2. 認(rèn)識到盡管公有云服務(wù)能帶來初期價值,但客戶越來越看重數(shù)據(jù)主權(quán)和基礎(chǔ)設(shè)施全生命周期的完整控制權(quán)。

Private Cloud AI正是這一愿景的具體實現(xiàn)。它提供真正的云計算體驗,通過基礎(chǔ)設(shè)施抽象化簡化最終用戶操作,同時保障客戶對網(wǎng)絡(luò)、存儲和計算資源的完全控制權(quán)和定制能力——這一切都在客戶自有數(shù)據(jù)中心內(nèi)實現(xiàn)。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

Private Cloud AI是一個面向數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的基礎(chǔ)設(shè)施技術(shù)棧,以設(shè)備形式交付,專門服務(wù)于GenAI時代。它簡化了工作流程,就像微波爐幾十年前簡化了食物加熱過程一樣。這個技術(shù)棧整合了硬件、軟件、網(wǎng)絡(luò)、存儲和計算資源,具備以下功能:

  • 在基礎(chǔ)設(shè)施上自動部署和擴(kuò)展容器化(Containerized)應(yīng)用程序
  • 通過統(tǒng)一的管理控制臺,根據(jù)不同角色需求集中管理應(yīng)用程序和用戶

系統(tǒng)定義了三類主要角色:

1. 云管理員(Cloud Administrator):負(fù)責(zé)管理基礎(chǔ)設(shè)施訪問權(quán)限,如私有云解決方案,快速為用戶分配所需資源。

2. AI管理員(AI Administrator):負(fù)責(zé)用戶接入管理,控制跨應(yīng)用程序的身份和訪問權(quán)限,確保數(shù)據(jù)源無縫集成——全部通過統(tǒng)一界面操作。

3. AI開發(fā)人員(AI Developer):專注于其專業(yè)工作(如運(yùn)行查詢、構(gòu)建模型),無需關(guān)注基礎(chǔ)設(shè)施管理細(xì)節(jié)。

例如,開發(fā)人員可以直接使用Jupyter Notebook、Apache Airflow或Spark等工具,而無需手動配置虛擬機(jī)或編排Spark節(jié)點。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

系統(tǒng)的用戶管理非常直觀。管理員可以通過統(tǒng)一界面實現(xiàn):

  • 在Private Cloud AI實例中為團(tuán)隊或個人分配角色
  • 設(shè)定基礎(chǔ)設(shè)施和數(shù)據(jù)訪問權(quán)限,精確到結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源中的具體表格或存儲桶級別

舉例來說,我可以將用戶Abby指定為Private Cloud AI管理員,并設(shè)置具體的訪問限制。這些限制可能包括CPU、GPU或內(nèi)存配額,以及特定數(shù)據(jù)資源的訪問權(quán)限,如PostgreSQL數(shù)據(jù)庫中的特定表格或存儲中的對象。

這種精細(xì)化的控制確保了數(shù)據(jù)訪問的安全性和效率,無需手動管理憑證——有效避免了諸如將AWS私鑰存儲在不安全位置等問題。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

這種控制對于涉及結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用場景尤為重要。例如:

  • 數(shù)據(jù)工程師登錄平臺查詢銀行交易相關(guān)的PostgreSQL表格
  • AI管理員與數(shù)據(jù)庫管理員協(xié)作,驗證并連接各類數(shù)據(jù)源,如Snowflake、Oracle、MySQL或Microsoft SQL Server,實現(xiàn)無縫集成

需要注意的是,并非每個團(tuán)隊成員都需要完全的數(shù)據(jù)庫訪問權(quán)限——只有負(fù)責(zé)管理連接的管理員才需要這些權(quán)限。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

對于特定的數(shù)據(jù)格式,如Delta Lake和Iceberg表——這些通常用于大規(guī)模數(shù)據(jù)處理。Delta Lake類似于Parquet文件格式,常用于大規(guī)模數(shù)據(jù)集查詢。Iceberg則是另一種優(yōu)化查詢性能的結(jié)構(gòu)化數(shù)據(jù)格式。在連接數(shù)據(jù)庫時,Private Cloud AI需要進(jìn)行身份驗證,確保只有獲得授權(quán)的用戶和角色能夠訪問特定資源。這種機(jī)制既保護(hù)了細(xì)粒度數(shù)據(jù)安全,又使組織能夠充分利用這些數(shù)據(jù)來推動AI驅(qū)動的業(yè)務(wù)洞察。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

現(xiàn)在我們可以建立數(shù)據(jù)連接。以這個PostgreSQL服務(wù)器為例,連接建立后,平臺上的所有用戶都能使用相同的身份驗證訪問此數(shù)據(jù)源。

最便捷的是:作為用戶,我可以通過同一個連接器訪問該數(shù)據(jù)源,對特定表格執(zhí)行SQL查詢。我可以生成SQL查詢并將結(jié)果以CSV文件、Parquet文件或其他任意格式保存到本地。

此外,這個數(shù)據(jù)連接器還支持將數(shù)據(jù)源與HPE Private Cloud AI的軟件平臺AI Essentials中的各種工具集成。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

進(jìn)入工具和框架界面后,我可以看到各種應(yīng)用程序。稍后我會詳細(xì)介紹NVIDIA AI Enterprise技術(shù)棧,這些都是在AI Essentials中預(yù)裝、預(yù)打包、預(yù)連接并預(yù)配置的應(yīng)用程序,專門用于Private Cloud AI。

讓我們以數(shù)據(jù)工程師的日常工作為例。作為新團(tuán)隊成員,我首先需要與經(jīng)理確認(rèn)以下事項:

  • 是否有權(quán)限訪問所需的客戶數(shù)據(jù)表
  • 結(jié)構(gòu)化數(shù)據(jù)源是否可用
  • 身份驗證是否已完成配置
  • 所有相關(guān)文件是否已存儲并更新在我們的存儲卷中(無論是在云服務(wù)商環(huán)境還是S3存儲桶中)

獲得訪問權(quán)限后,我需要構(gòu)建數(shù)據(jù)流水線(Data Pipeline)。這涉及從數(shù)據(jù)源實時提取數(shù)據(jù),進(jìn)行轉(zhuǎn)換(如篩選出相關(guān)客戶數(shù)據(jù)),并將其加載到大型語言模型(LLM)可訪問的系統(tǒng)中。這就是經(jīng)典的ETL過程。

Apache Airflow多年來一直是最受歡迎的開源工具。每個數(shù)據(jù)工程專業(yè)的研究生都熟悉它的使用。但通常需要聯(lián)系IT管理員來部署必要的基礎(chǔ)設(shè)施。需要注意的是,身份驗證不僅對工程師和Airflow必要,對所有訪問數(shù)據(jù)源的用戶同樣重要。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

另一個關(guān)鍵需求是開發(fā)環(huán)境,用于編寫數(shù)據(jù)流水線,無論是使用R還是Python。Jupyter Notebook是最流行的開發(fā)環(huán)境。傳統(tǒng)上,部署這個環(huán)境需要向IT提交申請來啟動Jupyter Notebook服務(wù)器,隨后還需要將服務(wù)器節(jié)點與Airflow實例和其他數(shù)據(jù)源連接。

而在HPE Private Cloud AI中,用戶可以直接登錄并訪問Jupyter Notebook環(huán)境。例如,在這個Notebook中,我可以使用內(nèi)部Token進(jìn)行身份驗證,該Token能在Private Cloud AI平臺的所有容器間無縫傳遞信息和認(rèn)證信息。

接著,我可以連接到S3實例,比如存儲層上的本地S3存儲。這種連接是預(yù)配置并預(yù)認(rèn)證的,允許查看環(huán)境中所有有權(quán)限的存儲桶。如果存儲桶訪問權(quán)限變更,重新執(zhí)行相同請求會自動返回更新后的列表。

作為數(shù)據(jù)工程師,我無需關(guān)注底層基礎(chǔ)設(shè)施,登錄即可開始工作。

這種便利性不僅限于數(shù)據(jù)工程。比如,在處理大型表格查詢時,我可以將查詢分布到多個計算節(jié)點上。就像在超大Excel文件上運(yùn)行VLOOKUP一樣,這類操作在普通筆記本上可能需要數(shù)分鐘甚至數(shù)小時。對于包含數(shù)百萬行和數(shù)百列的數(shù)據(jù)集,處理時間可能長達(dá)一天。

通過HPE Private Cloud AI,我們可以在基礎(chǔ)設(shè)施層面將工作負(fù)載分布到高性能計算節(jié)點上。這是通過分布式大數(shù)據(jù)查詢引擎Apache Spark實現(xiàn)的。Spark采用主從架構(gòu)(Master-Worker Architecture),主節(jié)點與工作節(jié)點協(xié)同執(zhí)行分布式任務(wù)。傳統(tǒng)上,部署這類基礎(chǔ)設(shè)施需要安裝主節(jié)點、連接工作節(jié)點并處理作業(yè)認(rèn)證。

在我的Jupyter Notebook環(huán)境中,可以無縫編寫和管理Spark查詢。使用Spark內(nèi)核,我能直接從Notebook執(zhí)行分布式查詢。例如,可以像更新Token一樣簡單地管理Spark作業(yè)。

我們的目標(biāo)不是省略部署大型語言模型的必要步驟,而是簡化終端用戶的基礎(chǔ)設(shè)施配置過程。終端用戶希望專注于自身任務(wù),而不必操心基礎(chǔ)設(shè)施管理。同時,組織內(nèi)的基礎(chǔ)設(shè)施專家仍保持對硬件和軟件架構(gòu)的完全控制。

這種簡化方法同樣適用于數(shù)據(jù)科學(xué)領(lǐng)域。假設(shè)我想基于聊天機(jī)器人(Chatbot)交互中發(fā)現(xiàn)的模式分析客戶數(shù)據(jù)。例如,測試可能顯示某些查詢經(jīng)常出現(xiàn)。我可以請數(shù)據(jù)工程師提供一個匿名化數(shù)據(jù)集,去除客戶ID但保留交易模式。

利用這些數(shù)據(jù),我可以構(gòu)建一個預(yù)測模型(Prediction Model),用于處理自然語言查詢并預(yù)測最相關(guān)的字段或交易類型。

在模型存儲方面,傳統(tǒng)方法可能簡單地將其保存為文件。但現(xiàn)代機(jī)器學(xué)習(xí)工作流程(ML Workflow)是迭代式的。模型會持續(xù)優(yōu)化,通常涉及數(shù)十個甚至上百個版本。多個團(tuán)隊成員可能同時處理同一個模型。

這個迭代過程通常通過實驗管理來實現(xiàn)。即使有模型在生產(chǎn)環(huán)境運(yùn)行,也會同時進(jìn)行多個實驗,以確保新數(shù)據(jù)的引入不會導(dǎo)致模型漂移(Model Drift)或準(zhǔn)確度下降。這些實驗還有助于驗證模型的無偏性(Unbiased)及長期準(zhǔn)確性。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

在這種情況下,我們需要將模型存儲在模型注冊表(Model Registry)中,以追蹤所有版本的多個實驗。當(dāng)選定某個模型用于生產(chǎn)環(huán)境時,需要一個集成注冊表的跟蹤平臺,如MLflow。在這個環(huán)境中,MLflow通過身份驗證與每個數(shù)據(jù)源和應(yīng)用程序連接。例如,這里可以看到MLflow用于存儲模型和訓(xùn)練運(yùn)行日志的存儲空間。

Max Mortillaro:組織如何使用這個系統(tǒng)?有什么門檻嗎?并非所有組織都是HPE客戶,也不一定愿意簽訂多年合同。如果他們想要開始某些操作,能否避免冗長的談判過程?

Alexander Ollman:你說的是這里展示的軟件和編排系統(tǒng)嗎?

Max Mortillaro:不,我指的是你展示的這個產(chǎn)品。這些大多是開源工具,但如果想采用你提出的集成方案,HPE在其中扮演什么角色?

Alexander Ollman:明白了。你看到的這些是HPE Esmeral的專有技術(shù),是HPE AI Essentials技術(shù)棧的基礎(chǔ)。這個技術(shù)棧是專門為HPE Private Cloud AI定制的。需要說明的是,你不必作為產(chǎn)品的一部分購買底層基礎(chǔ)設(shè)施。AI Essentials也可以部署在現(xiàn)有的基礎(chǔ)設(shè)施上。

Max Mortillaro:你是說采購本地基礎(chǔ)設(shè)施。通過GreenLake是否可以使用類似的產(chǎn)品?

Alexander Ollman:是的。你看到的這種編排系統(tǒng)——連接和身份驗證軟件——是由HPE Esmeral技術(shù)棧提供的。即使沒有這個技術(shù)棧,你也可以手動部署Airflow或Spark等組件,并通過GreenLake合同使用這些資源。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

在數(shù)據(jù)科學(xué)領(lǐng)域,工作流程類似。我只需要存儲和使用模型,而不必聯(lián)系IT部門來配置虛擬機(jī)(VM)、連接存儲桶或啟動MLflow。登錄后,即可打開MLflow,通過其用戶界面查看實驗,并管理所有保存的模型及其版本。

例如,我可以查看生產(chǎn)環(huán)境中模型的歸檔版本。在Notebook環(huán)境中,仍需通過導(dǎo)入MLflow、更新身份驗證Token并實例化MLflow客戶端來建立MLflow連接。完成這些后,就可以立即開始運(yùn)行訓(xùn)練作業(yè)并使用模型。

Camberley Bates:看來你們主要是利用開源工具為客戶提供解決方案。

Alexander Ollman:是的,這是我們的基礎(chǔ)服務(wù)。采用這種方法是為了能夠立即為客戶創(chuàng)造價值。

Camberley Bates:在這個技術(shù)棧中,除了集成工作,HPE的知識產(chǎn)權(quán)(IP)包括哪些內(nèi)容?

Alexander Ollman:這是個復(fù)雜的問題,尤其是在軟件層面。HPE的知識產(chǎn)權(quán)主要體現(xiàn)在基礎(chǔ)設(shè)施方面——包括支撐上層應(yīng)用程序的硬件和軟件。

Camberley Bates:你提到的Esmeral是從收購BlueData和MapR后開發(fā)的。這些產(chǎn)品的哪些部分被整合到了這個技術(shù)棧中?

Alexander Ollman:以BlueData產(chǎn)品為例,它是一個容器編排平臺,現(xiàn)已發(fā)展超越基礎(chǔ)設(shè)施層面,提供了出色的用戶界面體驗。它還集成了Kubeflow等工具,用于部署Jupyter Notebook服務(wù)器。

雖然模型注冊功能并非BlueData的專有技術(shù),但它展示了將開源組件整合成一個無縫平臺的價值。

我們提供的是一個基礎(chǔ)設(shè)施平臺——包含軟件和硬件——用戶可以在其中使用自己的工具,只要這些工具支持容器化部署。這種方式確保了應(yīng)用程序的認(rèn)證和互操作性。

我們構(gòu)建這個平臺時充分考慮了機(jī)器學(xué)習(xí)運(yùn)維工作流。由于終端用戶已經(jīng)在使用開源工具,我們的重點是將這些工具高效地整合到平臺中。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

Camberley Bates:關(guān)于數(shù)據(jù),假設(shè)我的數(shù)據(jù)存儲在文件系統(tǒng)或Nimble存儲設(shè)備的結(jié)構(gòu)化數(shù)據(jù)庫中,我是否需要先遷移或進(jìn)行ETL處理才能在系統(tǒng)中使用?然后,你們會對這些數(shù)據(jù)進(jìn)行分類并管理隱私,對吧?

Alexander Ollman:這屬于數(shù)據(jù)工程工作流程的一部分。

Camberley Bates:我是否必須將所有數(shù)據(jù)集中在這個環(huán)境中,而不是使用數(shù)據(jù)湖(Data Lake)持續(xù)導(dǎo)入數(shù)據(jù)?

Alexander Ollman:不必如此。對于大型現(xiàn)有數(shù)據(jù)庫,我們可以創(chuàng)建連接器(Connector)。

Camberley Bates:你們有連接器?

Alexander Ollman:是的,確實如此。這些數(shù)據(jù)連接器支持與結(jié)構(gòu)化數(shù)據(jù)庫和對象存儲的集成。除非必要,數(shù)據(jù)本身不會導(dǎo)入平臺。相反,我們只會引入與特定用例相關(guān)的數(shù)據(jù)。數(shù)據(jù)可以臨時存儲用于查詢,或進(jìn)行緩存以減少重復(fù)處理。

從數(shù)據(jù)工程的角度看,一旦創(chuàng)建了與結(jié)構(gòu)化數(shù)據(jù)源的連接器,就可以執(zhí)行實時SQL查詢。為了高效完成這一過程,需要一個經(jīng)過訓(xùn)練的模型來處理和解釋查詢結(jié)果。

例如,數(shù)據(jù)科學(xué)家可能會創(chuàng)建一個模型,用于解釋SQL查詢結(jié)果并將其上下文傳遞給大型語言模型(LLM)等系統(tǒng)。然而,我的應(yīng)用程序可能需要兩個生成式模型:一個用于對話任務(wù)(如Meta的Llama 3.2),另一個如SQLCoder,用于將自然語言查詢和數(shù)據(jù)庫架構(gòu)轉(zhuǎn)換為SQL查詢。

這些模型可以部署為端點(Endpoint)。傳統(tǒng)上,這涉及手動步驟,如從Hugging Face或NVIDIA等模型注冊表獲取模型,通過VLLM或FastLLM等推理引擎處理,并將其加載到GPU內(nèi)存中。

然而,最終用戶應(yīng)用程序通常通過API連接。為簡化這個過程,我們可以將推理過程封裝在REST API服務(wù)器中,并作為容器部署。在基于Kubernetes平臺運(yùn)行的HPE Private Cloud AI中,這些容器可以動態(tài)擴(kuò)展。無論是支持單個用戶還是10萬用戶,基礎(chǔ)設(shè)施都能自動配置資源,并無縫擴(kuò)展到多個私有云實例。

這種方法通過允許私有云實例共享基礎(chǔ)設(shè)施來保護(hù)AI投資。統(tǒng)一的控制平面使擴(kuò)展突破單個集群的限制,確保資源高效利用。

從最終用戶角度看,一切都是透明的。例如,啟動LLM非常簡單。

使用Kubeflow等工具及其原生擴(kuò)展KServe(預(yù)裝在AI Essentials中),我可以通過運(yùn)行Kubernetes命令并使用配置文件部署容器化模型。這個配置文件指導(dǎo)Kubernetes如何部署,包括容器的擴(kuò)展方式。

為優(yōu)化性能,模型文件(可能有幾GB大?。┰赑rivate Cloud AI中本地存儲。這避免了從遠(yuǎn)程存儲庫獲取文件時的延遲,特別是在部署多個容器實例時。

HPE與NVIDIA AI Enterprise的合作進(jìn)一步優(yōu)化了這個過程。NVIDIA提供用于模型推理的框架和庫,而HPE專注于企業(yè)級可擴(kuò)展性。我們共同設(shè)計了易于快速擴(kuò)展的大型企業(yè)工作負(fù)載容器化應(yīng)用。

這種聯(lián)合工程努力持續(xù)推進(jìn),將NVIDIA在AI工具方面的專長與HPE在基礎(chǔ)設(shè)施方面的能力相結(jié)合,為企業(yè)提供強(qiáng)大且可擴(kuò)展的AI解決方案。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

在部署Llama 3等模型時,我可以展示端點的實際樣子。我想快速展示查看模型端點的方法——包括我正在使用的端點、我有權(quán)限訪問的端點,或我同事的端點。

對于那些已經(jīng)構(gòu)建了使用云服務(wù)提供商托管的LLM生成式AI應(yīng)用的開發(fā)者——可能使用OpenAI、Microsoft、Google或Anthropic的服務(wù)——通常會獲得指向LLM實例的端點。這正是我這里展示的內(nèi)容。我可以復(fù)制這個URL,查看運(yùn)行的模型及其當(dāng)前資源使用情況。

以我啟動的LLM為例,我快速對其格式化并以表格形式顯示。我可以查看每個模型實例。如果需要擴(kuò)展,完全可以實現(xiàn)。例如,當(dāng)前擴(kuò)展設(shè)置為1,但我可以輕松調(diào)整。這是我的端點,我可以識別具體模型,然后將其集成到Notebook環(huán)境或應(yīng)用程序中。

我可以在這里快速安裝它,將其命名為虛擬助手。我會將其分配到"AI數(shù)據(jù)基礎(chǔ)設(shè)施工作日"項目,并歸類到"數(shù)據(jù)科學(xué)"類別下。

Brian Booden:這是端點的模板結(jié)構(gòu)嗎?根據(jù)構(gòu)建的容器,它是否只是重用該容器的端點,為GET、PUT、DELETE等操作創(chuàng)建唯一的端點?

Alexander Ollman:沒錯。我們與NVIDIA的合作涉及所有必要組件,用于提取模型、封裝便于使用,并支持可擴(kuò)展性。NVIDIA已完成這些基礎(chǔ)工作,而我們確保其能大規(guī)模部署。

Brian Booden:回到容器化討論,你是說一個容器的屬性可以傳遞到另一個容器嗎?能否擴(kuò)展現(xiàn)有容器——例如,基于它建立基準(zhǔn),然后在此基礎(chǔ)上擴(kuò)展?

Alexander Ollman:不完全是。無法動態(tài)管理容器資源,超出增減資源的范圍。例如,如果模型需要更多計算能力,我可以分配更多資源,或根據(jù)需要減少。但我可以復(fù)制容器。最好的是,復(fù)制的容器會保持相同的端點。

Brian Booden:所以你是將底層基準(zhǔn)數(shù)據(jù)架構(gòu)作為模板?你復(fù)制容器并在此基礎(chǔ)上擴(kuò)展?

Alexander Ollman:是的。所有內(nèi)容都擴(kuò)展到Pod級別。雖然Pod會被復(fù)制,但Pod內(nèi)的容器端點保持一致。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

讓我展示一個例子。在Kubernetes環(huán)境中部署容器時,通過藍(lán)圖提供說明——通常是Helm圖表(Helm Chart)。大多數(shù)軟件供應(yīng)商的云原生應(yīng)用,無論是在AWS、GCP還是其他Kubernetes平臺上,通常都帶有Helm圖表。你可以在這里導(dǎo)入這些圖表,拖放它們,并指定命名空間(Namespace)。例如,我將它放入我的命名空間,并修改圖表以引用正確的容器。我將其命名為"虛擬助手"。

這是在Kubernetes中部署應(yīng)用程序的典型過程。重要的是,這個應(yīng)用程序——與其他應(yīng)用一樣——代表了HPE在這領(lǐng)域收購的成果。它是經(jīng)過精心設(shè)計的用戶體驗,旨在簡化操作。雖然在Kubernetes上部署應(yīng)用程序確實有學(xué)習(xí)曲線,但大多數(shù)Helm圖表都是預(yù)打包的,只需少量調(diào)整就能與HPE AI Essentials中的連接器本地集成。

隨著平臺的持續(xù)發(fā)展,這些過程將被抽象為點擊式UI。很快,部署應(yīng)用程序和LLM將變得像點擊幾下那樣簡單。例如,NVIDIA提供了他們的NeMo推理服務(wù)器(NeMo Inference Server, Nim)。這個設(shè)置不僅支持LLM,還支持嵌入模型(Embedding Models),這些模型將文本和圖像轉(zhuǎn)換為向量——這種格式非常適合LLM使用。隨著聯(lián)合工程努力的繼續(xù),支持的模型目錄將不斷擴(kuò)展。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

現(xiàn)在我已經(jīng)將端點和應(yīng)用程序連接起來。讓我導(dǎo)入一些庫——這里有很多,因為我在這個Notebook中實驗了一些額外功能。例如,我計劃從S3存儲桶提取數(shù)據(jù),如PDF文件,并創(chuàng)建向量數(shù)據(jù)庫(Vector Database)。不過,現(xiàn)在我要展示如何在這個Notebook環(huán)境中使用相同的端點。

這個Notebook是一個容器。我剛初始化的應(yīng)用應(yīng)該已經(jīng)就緒。刷新后它會立即顯示。通過這個環(huán)境,我可以從LLM端點進(jìn)行推理(Inference)。我確保Notebook內(nèi)核在運(yùn)行,更新Token以實現(xiàn)容器間通信,并將請求指向正確的模型端點。

這個過程使用了持久卷聲明(PVC, Persistent Volume Claim),這是一種與HPE Private Cloud AI中底層GreenLake for File相關(guān)聯(lián)的臨時存儲。訪問權(quán)限決定了哪些用戶可以共享文件并有效協(xié)作。例如,這些共享文件夾使團(tuán)隊成員能夠訪問相同資源。

對于模型推理,NVIDIA的集成簡化了這一過程。他們與LangChain等開源工具的合作使單個對象實例能夠處理LLM的交互。例如,我們定義端點、模型和認(rèn)證Token,通過API服務(wù)器發(fā)起請求。結(jié)果以JSON格式返回,然后解析為可用格式。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

這個框架不僅局限于Notebook環(huán)境。例如,您可以開發(fā)一個支持實時拖放上傳功能的終端用戶應(yīng)用程序。上傳的內(nèi)容可以被向量化并進(jìn)行嵌入,為LLM提供響應(yīng)所需的上下文。這種被稱為RAG的方法通過從向量數(shù)據(jù)庫中檢索并整合相關(guān)數(shù)據(jù),顯著提升了模型回答查詢的能力。

Andy Banta:在基礎(chǔ)設(shè)施方面,診斷能力和可審計性是至關(guān)重要的。盡管這對數(shù)據(jù)科學(xué)家很有吸引力,但管理者需要能夠有效監(jiān)控并排除環(huán)境中的故障。

Alexander Ollman:在報告功能方面,HPE AI Essentials 提供了全面的資源管理視圖。管理員可以接收各類通知和日志。通過與 OpsRamp 的集成,我們進(jìn)一步增強(qiáng)了基礎(chǔ)設(shè)施的可觀察性和報告能力。

Andy Banta:診斷能力是另一個需要關(guān)注的問題。當(dāng)環(huán)境出現(xiàn)故障時,問題定位的難度如何?您的快速應(yīng)用部署運(yùn)行良好,但這種效果能否在整個技術(shù)棧中得到同樣的實現(xiàn)?

Edward Holden:為應(yīng)對這些挑戰(zhàn),我們已經(jīng)為Private Cloud AI建立了卓越中心(CoE)??蛻艨梢酝ㄟ^單一支持聯(lián)系人獲取服務(wù),避免了需要與多個供應(yīng)商溝通的困擾。如果NVIDIA的NIM或其他組件出現(xiàn)問題,我們會直接與NVIDIA協(xié)作解決。卓越中心統(tǒng)一處理所有問題,確保支持服務(wù)的無縫銜接。

Andy Banta:VMware Cloud Foundation在其中擔(dān)任什么角色?

Edward Holden:它是控制節(jié)點的組成部分。私有云控制平面運(yùn)行在虛擬機(jī)(VM)上,并與GreenLake平臺實現(xiàn)互聯(lián)?;A(chǔ)設(shè)施充分利用了Private Cloud Business Edition的自動化功能,包括OneTouch升級功能,可用于補(bǔ)丁更新和基礎(chǔ)設(shè)施增強(qiáng)。這些操作都在后臺自動完成,大大簡化了客戶的使用體驗。

HPE Private Cloud AI產(chǎn)品是我們混合云愿景的集大成之作。我們不僅抽象化底層基礎(chǔ)設(shè)施(包括硬件和軟件),還將各個組件整合起來,提供統(tǒng)一的使用體驗。我們的目標(biāo)是在與這些基礎(chǔ)設(shè)施協(xié)同工作的同時,保持對基礎(chǔ)設(shè)施及其相關(guān)數(shù)據(jù)的完全控制權(quán)。

關(guān)于將基礎(chǔ)設(shè)施與終端用戶抽象化的重要性,這值得我們深入探討。我們演示了如何使用部署在Private Cloud AI之上的HPE AI Essentials,以及它如何通過GreenLake Cloud平臺作為機(jī)架設(shè)備運(yùn)行。GreenLake Cloud平臺,尤其是Private Cloud Enterprise商業(yè)版,能夠連接并自動配置整個機(jī)架系統(tǒng)。

我們的首席技術(shù)官和首席執(zhí)行官Antonio Neri在今年早些時候的HPE Discover大會上,在拉斯維加斯Sphere現(xiàn)場承諾,只需三次點擊就能完成基礎(chǔ)設(shè)施的部署。在完成基礎(chǔ)設(shè)施搭建后,我們希望能夠抽象化MLOps工作流所需的各個組件。在我今天的第一個演講中,我強(qiáng)調(diào)了理解和重視這個過程中每個步驟的重要性。

在軟件層面,抽象化可以采取多種形式。我們希望確保不削弱那些已經(jīng)在數(shù)據(jù)工程(Data Engineering)和數(shù)據(jù)科學(xué)(Data Science)領(lǐng)域使用數(shù)據(jù)和相關(guān)工具的專業(yè)人員的權(quán)限和自主性。雖然他們具備這樣的專業(yè)知識,但現(xiàn)在我們有了能夠自動完成所有工作的工具,這可能會使某些工作顯得多余。這就像是在沒有充分理解各個步驟的情況下使用快捷方案。

我會將其比作80年代的微波爐食譜——雖然這些食譜能快速完成烹飪,但成品的口感不一定理想。即便大部分繁重工作是由同樣的設(shè)備完成的,理解整個過程中的每個步驟仍然至關(guān)重要。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

如前所述,我們希望在HPE Private Cloud AI產(chǎn)品中抽象化的底層基礎(chǔ)設(shè)施包括GPU加速計算、模型存儲(顯然,這些存儲需要具備高速度和足夠大的容量,以支持網(wǎng)絡(luò)中其他節(jié)點上的GPU)以及高速網(wǎng)絡(luò)。

我們需要通過虛擬化軟件層來訪問這些資源。直接連接這些資源可能比較耗時,因此如果能夠通過應(yīng)用程序和管理功能進(jìn)一步實現(xiàn)抽象化會更好。這正是我們希望通過HPE Private Cloud AI實現(xiàn)的目標(biāo):從基礎(chǔ)設(shè)施角度實現(xiàn)抽象化并簡化使用過程。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

在HPE Private Cloud AI中,從軟件角度來看,我們能夠?qū)崿F(xiàn)以下功能:借助HPE AI Essentials工具集,用戶和其他軟件供應(yīng)商可以安裝、部署并創(chuàng)建自己的自動化方案,針對其組織的特定數(shù)據(jù)架構(gòu)進(jìn)行定制。這使得自動化成為可能,消除了對數(shù)據(jù)源互連性的顧慮,并能自動檢索、收集和選擇特定用例的數(shù)據(jù)。我們正在邁向這樣一個世界:未來某天,基于我們平臺開發(fā)的軟件應(yīng)用程序可以通過簡單的提示來執(zhí)行任務(wù)。

我們現(xiàn)在已經(jīng)處于這樣的世界,而且距離這一目標(biāo)可能已經(jīng)不遠(yuǎn)了。無論是第三方供應(yīng)商提供的軟件,還是基于組織特定數(shù)據(jù)特征的內(nèi)部開發(fā)項目,我們都有相應(yīng)的平臺來部署和構(gòu)建。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

我們與NVIDIA的合作伙伴關(guān)系也體現(xiàn)了這一點。我們致力于將大型語言模型(LLM)的開發(fā)和部署抽象化,這不僅包括基于文本的模型,還包括嵌入模型和代碼生成模型。NVIDIA與我們的合作進(jìn)展順利,共同致力于使這些組件能夠擴(kuò)展到企業(yè)級別。NVIDIA的核心優(yōu)勢一直在于與庫和框架的協(xié)同,特別是在其GPU和硬件領(lǐng)域。目前,他們正在向軟件領(lǐng)域擴(kuò)展。眾所周知,在基礎(chǔ)設(shè)施層面擴(kuò)展軟件并非易事。幸運(yùn)的是,他們選擇了最佳的合作伙伴。

應(yīng)對生成式AI的復(fù)雜性:HPE如何簡化AI平臺的構(gòu)建與運(yùn)維-AI.x社區(qū)

通過這個應(yīng)用程序,我們可以將所有這些內(nèi)容整合起來,借助HPE Private Cloud推出的解決方案加速器(Solution Accelerators)來實現(xiàn)流程自動化。通過解決方案加速器,我可以利用已連接的數(shù)據(jù)源,選擇特定的文件或表格,選擇大型語言模型或其他生成模型,并將它們預(yù)配置且與終端用戶應(yīng)用程序預(yù)先連接。所有這些都可以通過一次點擊來部署。這就是HPE Private Cloud AI即將推出的解決方案加速器所帶來的功能。

雖然目前的設(shè)計可能會有所調(diào)整,因為我們正在實施新的前端開發(fā)標(biāo)準(zhǔn),但統(tǒng)一性正在不斷加強(qiáng),這對于我們這樣規(guī)模的企業(yè)來說確實充滿挑戰(zhàn)。這是我們計劃在今年年底前正式發(fā)布的目標(biāo)。

我們的目標(biāo)是抽象化流程,同時保持您對所有底層組件的操作能力。您仍然可以獲取數(shù)據(jù)、創(chuàng)建向量數(shù)據(jù)庫,并自動化構(gòu)建一個利用這些數(shù)據(jù)的用戶界面。這確實可以實現(xiàn),但不僅僅是簡單地拖放PDF文件。這還涉及管理包含數(shù)百萬行的表格,或處理成千上萬的文件,并從中選擇適用于特定用例的內(nèi)容。我們希望能夠?qū)⑦@一工作流程擴(kuò)展到企業(yè)級別,同時保持簡單直觀的用戶體驗。

參考資料:

  1. Ollman, A. (2024, October 2). A Step-by-Step Guide to Build Robust AI with Hewlett Packard Enterprise [Video]. YouTube. https://www.youtube.com/watch?v=1FglwbpS_Ys
  2. Ollman, A. (2024, October 2). Building a Generative AI Foundation with HPE [Video]. YouTube. https://www.youtube.com/watch?v=AIG4-O9ZVRY
  3. Ollman, A. (2024, October 2). Streamline AI Projects with Infrastructure Abstraction from HPE [Video]. YouTube. https://www.youtube.com/watch?v=5WXEBdGFDQI

本文轉(zhuǎn)載自 ??Andy730??,作者: 常華Andy

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦