自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI基礎(chǔ)軟件:如何自主構(gòu)建大+小模型?

人工智能
AI 基礎(chǔ)軟件作為大型 AI 模型的底座,承載著頂層大模型的建設(shè),也是大模型應(yīng)用落地的關(guān)鍵。為了更好地支持大模型的訓(xùn)練和演進,設(shè)計與開發(fā)基礎(chǔ)軟件便顯得尤為重要。本文分享了九章云極DataCanvas如何自主構(gòu)建大 + 小模型的經(jīng)驗與心得。

一、公司介紹

圖片

九章云極DataCanvas以創(chuàng)造智能探索平臺為使命,懷揣著助力全球企業(yè)智能升級的愿景,是中國人工智能基礎(chǔ)軟件領(lǐng)域的佼佼者。公司專注于自主研發(fā)的人工智能基礎(chǔ)軟件產(chǎn)品系列和解決方案,為用戶提供全面的人工智能基礎(chǔ)服務(wù),旨在幫助用戶在數(shù)智化轉(zhuǎn)型過程中輕松實現(xiàn)模型和數(shù)據(jù)的雙向賦能,以低成本高效率的方式提升企業(yè)決策能力,從而實現(xiàn)企業(yè)級 AI 的規(guī)?;瘧?yīng)用。

二、AIFS(AI Foundation Software)

圖片

在大模型時代,我們需要更高效的算力基礎(chǔ)設(shè)施,并對其他基礎(chǔ)設(shè)施和資源進行管理。為了應(yīng)對這些挑戰(zhàn),九章云極DataCanvas搭建了一個完整的軟件體系A(chǔ)IFS(AI Foundation Software),包括模型工具、大模型能力、人工智能基礎(chǔ)平臺、算力管理四層。

第一層是算力層。當(dāng)前國產(chǎn) GPU 也正在迅速崛起,華為等廠商在大模型領(lǐng)域,以及 GPU 領(lǐng)域取得巨大進展。在算力基礎(chǔ)設(shè)施之上,我們構(gòu)建 GPU Cloud,可以統(tǒng)一管理異構(gòu)的 GPU 資源,包括英偉達和國產(chǎn) GPU。通過這種方式降低工程化成本,并提高資源利用率。

第二層以公司自研的DingoDB多模向量數(shù)據(jù)庫和人工智能開發(fā)工具為主。DingoDB是大模型時代的必備軟件,作為一個分布式向量數(shù)據(jù)庫,存儲多模態(tài)的任意大小的數(shù)據(jù),具備高并發(fā)、低延遲的實時分析能力,處理多模數(shù)據(jù),通過 SQL 實現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的 ETL。在DingoDB之上,產(chǎn)品提供了APS Fast Label、APS LMB、 APS Lab、APS Inference人工智能開發(fā)工具。

通過這個完整的人工智能技術(shù)平臺,用戶可以高效地應(yīng)對大模型時代的挑戰(zhàn),快速實現(xiàn) AI 應(yīng)用的落地。

第三層包括九章云極DataCanvas發(fā)布的DataCanvas Alaya九章元識大模型,其支持視頻、圖片、文本等多種數(shù)據(jù)格式。此外,還具備構(gòu)建小模型的能力,提供包括算法庫、場景庫、特征庫和指標庫的“四庫全書”。

最后,構(gòu)建大模型,我們提供了一整套模型構(gòu)建工具——LMOPS,包括 Prompt Manager(提示管理器)、Large Model Training(大模型訓(xùn)練)和 Large Model Serving(大模型服務(wù))。

圖片

AIFS是一款行業(yè)領(lǐng)先的人工智能應(yīng)用構(gòu)建基礎(chǔ)設(shè)施平臺,可以支持大模型和小模型的構(gòu)建。AIFS 涵蓋了大模型的訓(xùn)練、精調(diào)、壓縮、部署、推理和監(jiān)控,以及小模型的全生命周期過程。它支持多種模式的建模,可以滿足數(shù)據(jù)科學(xué)家、開發(fā)人員以及業(yè)務(wù)專家不同的建模需求。例如,數(shù)據(jù)科學(xué)家可以按照自己的建模習(xí)慣進行建模,開發(fā)人員可以從工程的角度去構(gòu)建大模型,而業(yè)務(wù)專家則可以從業(yè)務(wù)的角度出發(fā),在平臺上構(gòu)建自己的大模型和小模型。

此外,AIFS 平臺上的不同角色人員可以相互協(xié)作,輕松處理數(shù)據(jù),并使用這些數(shù)據(jù)來開發(fā)、訓(xùn)練和部署任何規(guī)模的模型。這意味著,無論是數(shù)據(jù)科學(xué)家、應(yīng)用程序開發(fā)人員還是業(yè)務(wù)專家,都可以在 AIFS 平臺上找到適合自己的建模方式,并與其他角色人員協(xié)作,共同構(gòu)建人工智能應(yīng)用。

三、模型構(gòu)建工具鏈

圖片

在 AIFS 中,有一套完整的工具鏈,旨在賦能大模型和小模型的構(gòu)建。首先,從數(shù)據(jù)準備的角度來看,數(shù)據(jù)可能包括通用數(shù)據(jù)、行業(yè)數(shù)據(jù)、私域數(shù)據(jù)以及指令數(shù)據(jù)等。在數(shù)據(jù)接入后,需要進行數(shù)據(jù)處理,如數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)增強,針對不同類型的數(shù)據(jù)采取不同類型的處理方式。數(shù)據(jù)處理完成后,可以進行數(shù)據(jù)標注,包括人工標注和智能標注。

數(shù)據(jù)準備完成后,進入模型開發(fā)階段。在模型開發(fā)中,首先需要進行模型選型,如常見的 LLAMA 模型,最近開源的 LLAMA2,以及 Falcon 和 Bloom 等。選定模型后,可以使用前期準備的數(shù)據(jù)進行訓(xùn)練,以及使用預(yù)訓(xùn)練權(quán)重進行繼續(xù)訓(xùn)練等。

訓(xùn)練完成后,可以進行模型微調(diào),如對齊操作。對于中小企業(yè),可能會面臨 CPU 資源有限的問題,此時可以利用開源的 PEFT 工具進行高效微調(diào)。模型微調(diào)對齊完成后,需要對模型進行評估,可以使用如LMS評估工具進行評估。常見的評估指標包括 Ceval 和 MMLU 等。

如果現(xiàn)有的 Benchmark 無法涵蓋模型的能力,可以基于 AIFS 構(gòu)建自己的任務(wù)或 Benchmark 進行自定義評估。評估完成后,將模型部署到 LMS 中,進行模型的部署和推理。首先,可能需要對模型進行壓縮,如量化剪枝、蒸餾轉(zhuǎn)換等操作。模型壓縮完成后,進行部署,支持單機單卡和單機多卡的部署方式。

模型上線后,需要進行模型服務(wù)的上線,使用 Prompt Manager 進行模型應(yīng)用。

1、LMB(Large Model Builder)

圖片

LMB(Large Model Builder)是一款專為 AI 工程師打造的大規(guī)模預(yù)訓(xùn)練模型訓(xùn)練工具,旨在幫助他們快速構(gòu)建訓(xùn)練流程并實現(xiàn)高效穩(wěn)定的大模型訓(xùn)練。該工具包括數(shù)據(jù)準備、分布式訓(xùn)練、斷點重訓(xùn)、任務(wù)監(jiān)控、模型評估幾個主要模塊。

通過這些模塊,LMB可以有效地幫助 AI 工程師在大規(guī)模預(yù)訓(xùn)練過程中快速構(gòu)建訓(xùn)練流程,并實現(xiàn)高效穩(wěn)定的大模型訓(xùn)練。

圖片

LMB的功能架構(gòu)從下到上分為幾個層次。首先是 GPU Cloud,這是 AIFS 人工智能平臺的最后一層,也是抹平基礎(chǔ)設(shè)施的關(guān)鍵組件。在 GPU Cloud 之上,實現(xiàn)了一層分布式任務(wù)調(diào)度,包括異構(gòu)算力的統(tǒng)一管理和調(diào)度、資源編排、環(huán)境分發(fā)、任務(wù)分發(fā)以及任務(wù)監(jiān)控等功能。再往上,有一鍵式分布式訓(xùn)練環(huán)境,支持多種流行的分布式訓(xùn)練環(huán)境預(yù)置,如 DeepSpeed、Megatron 和 FSDP 等。

此外,LMB還提供了多種并行方式、梯度累積、混合精度等高效策略,涵蓋了包括斷點、重新啟動等功能??梢暬?FromScratch 界面,讓用戶能夠輕松構(gòu)建自己的大模型。無論是業(yè)務(wù)人員還是工程開發(fā)人員,都可以通過這個界面選擇所需的模型、數(shù)據(jù),以及高級或簡潔模式等參數(shù),進行訓(xùn)練。訓(xùn)練成功后,用戶還可以通過可視化評估功能對模型進行評估。

2、LMT(Large Model Tuning)

圖片

LMT,即Large Model Tuning,大模型微調(diào)工具,主要幫助 AI 工程師在預(yù)訓(xùn)練模型的基礎(chǔ)上進行模型的繼續(xù)訓(xùn)練、微調(diào)和評估等工作。通過可視化界面,用戶可以設(shè)定私域數(shù)據(jù)、預(yù)訓(xùn)練模型以及相應(yīng)的訓(xùn)練參數(shù),進行記憶訓(xùn)練,并且可以選擇性擴充詞表,避免災(zāi)難性遺忘,提高模型推理精度。

在模型微調(diào)方面,LMT 支持專家模式進行設(shè)計,同時也提供簡潔模式。通過專家模式,用戶可以實現(xiàn)一鍵式的高效 PEF指令微調(diào),包括 LoRA 等多種PEFF 方法以及可視化的 RLHF 訓(xùn)練。

對于模型評估,LMT 支持開源的 Benchmark 自動評估,用戶也可以進行自定義評估。用戶按照平臺規(guī)范構(gòu)建數(shù)據(jù)集,設(shè)定評估方法,就可以進行一些自定義評估。同時,用戶也可以手動進行專家評估。最后,LMT 可以將自定義模型和開源模型進行對比,生成一個評估效果的 LeaderBoard。

簡而言之,LMT可以為整個大模型調(diào)整流程提供支持,從數(shù)據(jù)準備到繼續(xù)訓(xùn)練,到指令精調(diào),再到人工對齊、RLHF,最終生成一個 final model。

圖片

LMT與LMB 有相似的底層架構(gòu),比如 GPU Cloud。與 LMB相比,PEFT 在進行指令微調(diào)時的資源需求沒有那么高,但它仍然需要一些強大的硬件設(shè)施,因此在底層也需要有一個 GPU Cloud 這樣的算力支持,來平衡技術(shù)設(shè)施的投入成本。

再往上的架構(gòu)與 LMB 相似,提供了一個一鍵式分布式訓(xùn)練環(huán)境,包括DeepSpeed、Megatron、MosaicML等多種分布式訓(xùn)練環(huán)境,以及圖優(yōu)化、梯度累積等關(guān)鍵要素。

在這個架構(gòu)中,入口是數(shù)據(jù)管理,包括數(shù)據(jù)標注和 SFT 數(shù)據(jù)增強。例如,企業(yè)客戶安裝了 LMT 后,可以管理私域數(shù)據(jù),并基于這些數(shù)據(jù)進行 SFT 數(shù)據(jù)增強。SFT 數(shù)據(jù)增強有很多方式,比如使用我們的 self instruct 工具進行數(shù)據(jù)蒸餾,以獲得更好的模型。

現(xiàn)在,許多開源的大型模型都是基于英文的,有些可能會支持多語言,但中文的支持相對較少,因此需要對這些模型進行詞表擴充。我們的詞表擴充有兩種方式:一種是在改變 embedding 層后再進行 PFT訓(xùn)練,第二種是使用中英平衡數(shù)據(jù)進行全量微調(diào)。

在完成訓(xùn)練后,可以進行 SFT,可以通過全量微調(diào)或 PEFT 微調(diào)來實現(xiàn)。在進行人工對齊(如 RLHF)之前,需要先訓(xùn)練出獎勵模型,再通過獎勵模型訓(xùn)練 SFT 模型,以獲得最終的模型。在整個訓(xùn)練過程中,會輸出一個 train revert 報告,以幫助大家了解獎勵模型在訓(xùn)練 SFT 過程中的表現(xiàn)。

最后,LMT的架構(gòu)還包括一個任務(wù)管理系統(tǒng),可以監(jiān)控和調(diào)度所有的任務(wù),包括評估任務(wù)和三個階段的訓(xùn)練任務(wù)。

3、LMS(Large Model Serving)

圖片

LMS(Large Model Serving),即大模型運行工具。所謂運行工具,就是在模型訓(xùn)練和對齊(如人工對齊)完成后,要通過Prompt Manager 消費模型,因此需要將模型提供為一項服務(wù),并通過 HTTP API 或 SDK 進行訪問。LMS 主要面向工程技術(shù)人員,旨在幫助他們快速、高質(zhì)量地交付大模型,同時降低運維和運營成本。

在 LMS 的功能流程中,首先涉及到模型管理。啟動后,用戶可以導(dǎo)入模型,支持通過界面操作和命令操作完成導(dǎo)入。成功導(dǎo)入模型后,可以進行模型壓縮,如量化和剪枝操作。接著進行模型評估,評估完成后進行部署,將模型上線為一個服務(wù)。

在服務(wù)上線后,可以對服務(wù)進行監(jiān)控,包括服務(wù)調(diào)用次數(shù)、調(diào)用成功率,以及調(diào)用消耗的總時長和平均時長等指標。同時,還需要監(jiān)控資源消耗情況,例如 CPU 資源、GPU 資源(尤其是GPU 資源的利用率、顯存占用率)以及內(nèi)存占用率等資源指標。通過這些監(jiān)控,確保大模型服務(wù)的穩(wěn)定性和性能。

圖片

接下來,將深入探討 LMS 的架構(gòu)。參見上圖,左側(cè)是模型管理 Model Store 模塊。在 Model Store 中,可以對已導(dǎo)入的模型進行全方位管理,如編輯元信息、評估模型性能等。模型評估涵蓋了自動評估和自定義評估等多個方面。在對模型進行壓縮之后,可以將其部署并上線。當(dāng)然,也可以在導(dǎo)入模型后直接在 Model Service 中上線,跳過評估環(huán)節(jié)。

在 Model Service 中,搭建一個復(fù)雜且完善的對外模型服務(wù)架構(gòu),包括 REST API、gRPC 及其它 API。這些 API 可供 Prompt Manager 調(diào)用,同時也支持客戶第三方業(yè)務(wù)系統(tǒng)直接訪問。在 Model Service 中,首層為 Server 的 Gateway,主要負責(zé)路由不同模型。當(dāng)某個模型實例面臨壓力較大或延遲較高時,會根據(jù)業(yè)務(wù)需求進行實例伸縮。

在每個模型實例中,有兩個關(guān)鍵要素:交互式推理記憶和 kernel 級加速。交互式推理記憶用于處理與大型模型的多輪交互。例如,向大模型詢問推薦食譜,用戶可能需要與模型進行多輪對話,而大模型需要保存歷史會話,以保持上下文。交互式推理記憶就是用來緩存歷史問話,以便在第二次對話時減少 GPU 推理延遲,提高模型服務(wù)速度。

另一個關(guān)鍵要素是 kernel 級加速。熟悉底層開發(fā)的人員應(yīng)該都知道,在調(diào)用模型底層 API 時,可能會多次調(diào)用 kernel。通過 kernel 級加速,可以對 kernel 進行合并操作(把幾次請求組成一個tensor),以及操作合并(把兩次kernel操作合并成一次操作),從而提高性能。

在消費模型時,可以借助 Prompt Manager 訪問知識庫,獲取相關(guān)上下文信息,再訪問大模型。

4、Prompt Manager

圖片

Prompt Manager是一個提示詞設(shè)計和構(gòu)建工具,旨在幫助用戶創(chuàng)建更優(yōu)秀的提示詞,引導(dǎo)大模型生成更加準確、可靠且符合預(yù)期的輸出內(nèi)容。該工具可以同時面向技術(shù)人員和非技術(shù)人員,為技術(shù)人員提供開發(fā)工具包,同時也為非技術(shù)人員提供直觀易用的人機交互操作模式。

在 Prompt Manager 中,包含了幾個核心要素:場景管理、模板管理、提示詞開發(fā)以及提示詞應(yīng)用。這些要素共同構(gòu)成了 Prompt Manager 的功能體系,為用戶提供了全方位的支持,使其能夠更好地利用大模型生成所需的輸出內(nèi)容。

圖片

上圖展示了 Prompt Manager 的功能架構(gòu)。自下而上來介紹,首先,在底層,Prompt Manager可以管理大模型服務(wù)。通過 LMS 部署的模型對外提供的接口可以配置到 Prompt Manager 中,供提示工程使用。此外,還可以與其它工具(如DingoDB、搜索引擎等)進行集成。

在提示工程方面,包括 single prompt、multiple prompt 和 prompt flow 等開發(fā)方式。假設(shè)企業(yè)內(nèi)部有一個業(yè)務(wù)需要多次訪問大模型,可以采用兩種方式:第一種是在業(yè)務(wù)系統(tǒng)中將整個流程串起來,每次與大模型的交互后,再進行業(yè)務(wù)處理;第二種方式是將整個流程封裝成一個 prompt flow,這樣在第一次訪問大模型并獲取結(jié)果后,可以進行相應(yīng)處理,然后將結(jié)果傳遞給第二次訪問大模型,以 flow 的形式展現(xiàn)整個過程。

此外,Prompt Manager還提供了模板場景、角色定義(如協(xié)作作家、程序員等)、prompt開發(fā)(包括單個 prompt 和多個 prompt 開發(fā)方式)等功能。

最終,可以將 prompt(無論是 prompt flow、single prompt 還是 multiple prompt)提供為一個 prompt 服務(wù),供模型消費。這樣,用戶可以通過對外開放接口或 SDK 直接訪問 prompt 服務(wù)。

四、DataCanvas APS 機器學(xué)習(xí)平臺

圖片

DataCanvas APS機器學(xué)習(xí)平臺,為數(shù)據(jù)科學(xué)家、應(yīng)用程序開發(fā)人員和業(yè)務(wù)專家提供一整套工具,以便自主輕松地處理多源異構(gòu)數(shù)據(jù),并快速、高效地開發(fā)、訓(xùn)練和部署任何規(guī)模的機器學(xué)習(xí)模型,打通企業(yè)級大模型和小模型應(yīng)用的最后一公里。

此外,DataCanvas APS機器學(xué)習(xí)平臺還具備模型管理功能,構(gòu)建了智能應(yīng)用工具包,以便更好地為企業(yè)提供模型服務(wù)。

圖片

DataCanvas APS機器學(xué)習(xí)平臺的關(guān)鍵特性包括:異構(gòu)多引擎融合架構(gòu);支持大數(shù)據(jù)分析;全分位的開放式;高性能分布式訓(xùn)練解決方案;模型全生命周期管理;領(lǐng)先的自動化機器學(xué)習(xí)(AutoML)技術(shù)。

該平臺實現(xiàn)了數(shù)據(jù)科學(xué)家、開發(fā)人員和業(yè)務(wù)專家三位一體的融合建模方式,為數(shù)據(jù)科學(xué)家提供了友好的編碼建模環(huán)境,為數(shù)據(jù)工程師提供可視化的拖拽建模工具,而對于業(yè)務(wù)分析師,即使他們對代碼不甚了解,也可以通過自動建模工具進行模型構(gòu)建。三個角色可以跨團隊、跨項目進行合作,實現(xiàn)高效的模型開發(fā)。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2017-04-21 07:10:12

谷歌AI芯片理由

2023-10-28 13:29:27

2023-09-25 10:19:01

模型App開源

2022-06-02 10:29:23

神經(jīng)網(wǎng)絡(luò)AI計算機

2025-04-01 09:54:09

AI算法大模型AI

2025-01-27 09:51:24

AI模型開源

2024-10-14 14:47:58

2024-12-25 08:02:17

人工智能AI運維

2024-09-25 15:34:21

數(shù)據(jù)模型數(shù)據(jù)驅(qū)動數(shù)字化轉(zhuǎn)型

2024-09-12 09:16:11

2023-05-10 14:40:40

AI模型算力

2025-02-21 08:00:00

大型語言模型AI人工智能

2023-08-03 10:59:49

人工智能

2024-06-19 16:11:22

2020-12-20 17:18:00

深度學(xué)習(xí)模型機器學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號