賴耶 AI 工廠-基于 NVIDIA AI Enterprise 的優(yōu)秀落地實踐
本次分享主要介紹賴耶 AI 工廠提供的多項服務和解決方案,包括萬卡集群管理系統(tǒng) KAA、企業(yè)大模型服務平臺 MANAS 等。賴耶 AI 工廠致力于為客戶提供高性能的人工智能解決方案,涵蓋了從算法創(chuàng)新到產品落地的全鏈條能力。文中將詳細介紹賴耶 AI 工廠的技術優(yōu)勢、服務內容,以及如何通過一體化集群解決方案來滿足企業(yè)在人工智能領域的需求。
一、為什么選擇賴耶 AI 工廠
首先來介紹一下賴耶科技推出的賴耶 AI 工廠。
1. 公司介紹
北京賴耶信息科技有限公司(以下簡稱“賴耶科技”)是一家致力于為行業(yè)提供全棧式大語言模型(LLM)技術服務的公司。我們的使命是通過先進的技術手段,推動各行各業(yè)的智能化轉型。
核心團隊成員來自于各大行業(yè)頂級公司及研發(fā)機構,包括 Nvidia、Qualcomm、VMware、華為、阿里巴巴達摩院及京東等。這些成員在各自領域擁有豐富的專業(yè)知識和實踐經驗,共同構建了公司堅實的技術基礎。
賴耶科技在高性能計算集群建設、基礎設施及大模型應用方面積累了豐富的實踐經驗。我們的技術覆蓋面廣泛,涉及人工智能、計算機科學、機器人技術、自動駕駛及自然語言處理等多個領域。從算法創(chuàng)新到產品落地,賴耶科技具備完善的全流程技術能力。公司愿景是建立一個人工智能鑄造廠,為客戶提供“開箱即用”的企業(yè)級人工智能解決方案。
2. 企業(yè)如何面對開發(fā)生產式 AI 帶來的挑戰(zhàn)
在當前的大模型時代,企業(yè)在定制人工智能(AI)解決方案時往往會遇到諸多挑戰(zhàn)。
(1)構建基礎大模型的挑戰(zhàn)
- 數據需求:大模型的訓練通常需要海量的數據,這不僅是為了避免模型過擬合,更重要的是為了提升模型的泛化能力。然而,許多企業(yè)在實際操作中會遇到數據不足或者數據質量不高的問題,這對模型的性能和實際應用造成了直接的影響。
- 計算資源:訓練大模型需要大量的計算資源,包括高性能的計算硬件和復雜的分布式計算架構的支持。對于大多數企業(yè)而言,高效利用龐大的計算資源是一項巨大的挑戰(zhàn)。此外,由于模型的復雜性,訓練過程可能需耗時數天甚至數月,這進一步增加了資源管理的難度。
- 模型選擇與優(yōu)化:選擇合適的模型并根據業(yè)務需求進行優(yōu)化是企業(yè)在大模型應用中的另一大難題。在選擇和優(yōu)化模型時,必須綜合考慮帶寬、能耗、存儲等各方面的成本,這些因素將直接影響到模型的效果和企業(yè)的總體運營成本。
(2)使用基礎大模型的挑戰(zhàn)
- 泛化能力:盡管大模型在訓練數據集上表現(xiàn)出色,但在未見過的數據上,模型的表現(xiàn)可能遠不如預期,這種泛化能力的不足是絕大多數大模型面臨的共同問題。
- 模型解釋性:許多大模型,尤其是深度神經網絡,其決策過程通常是“黑箱”的,難以理解和解釋,這對許多應用場景中的透明度和可信度提出了挑戰(zhàn)。
- 過擬合風險:大模型由于參數眾多,更容易出現(xiàn)過擬合現(xiàn)象,即在訓練數據上表現(xiàn)優(yōu)異,而在新數據上表現(xiàn)不佳,這種現(xiàn)象會影響模型的穩(wěn)定性和可靠性。
- 倫理與偏見:大模型可能無意中學習并放大訓練數據中的偏見,導致在實際應用中出現(xiàn)不公平或歧視性的結果,這種倫理問題已成為大模型應用中的重要挑戰(zhàn)之一。
賴耶AI 工廠所提供的解決方案可以幫助企業(yè)面對上述挑戰(zhàn)。
3. 賴耶 AI 工廠全覽圖
賴耶 AI 工廠,由底層架構、中間平臺以及應用層共同構成了一個功能強大、靈活高效的 AI 解決方案平臺。
(1)底層架構:萬卡集群管理系統(tǒng)(KAA)
底層架構是賴耶 AI 工廠的基礎,由萬卡集群管理系統(tǒng)(KAA)提供支持。具備以下功能:
- IO 通信優(yōu)化:提升輸入輸出數據的傳輸效率,確保系統(tǒng)的高效運行。
- 虛擬化:實現(xiàn)資源的虛擬分配與管理,提升資源利用率。
- 云原生管理和編排:支持云端編排與管理,便于對大規(guī)模計算資源的動態(tài)管理。
- 高性能多租戶隔離:為不同租戶提供獨立的計算環(huán)境,確保安全性和性能。
- 計量計費:精確的資源使用計量和計費系統(tǒng),便于企業(yè)管理成本。
- 動態(tài)擴展部署:支持計算資源的動態(tài)擴展和靈活部署,以滿足不同業(yè)務需求。
(2)中間平臺:Manas 平臺
在中層,通過 Manas 平臺為大模型提供全套解決方案,涵蓋了從數據預處理到模型各階段的支持,包括:
- 數據預處理:確保數據質量,為模型訓練提供堅實基礎。
- 預訓練:通過大規(guī)模數據的初步訓練,獲得基礎模型。
- 模型對齊:根據特定任務對模型進行對齊調整。
- 模型微調:根據具體應用場景對模型進行進一步優(yōu)化和微調。
- 安全護欄:保障模型使用過程中的安全性和合規(guī)性。
(3)應用層:Manas 微服務
上層是通過 Manas 平臺的微服務模塊,針對不同應用場景提供快速系統(tǒng)集成的服務。應用場景包括:智能推理、語音和翻譯、生物醫(yī)藥、內容生成、路徑規(guī)劃等。
賴耶 AI 工廠在自身的 AI 數據標注、行業(yè)模型訓練精調、仿真測試環(huán)境等環(huán)節(jié)使用了大量算力,形成了一系列成熟的解決方案,這些方案可以應用于客戶項目中,加速客戶的 AI 生產效率,幫助企業(yè)打造新一代智能化基礎設施,提供高性能的模型訓練和推理平臺,并構建自主可控的 AI 技術體系。
二、萬卡集群管理系統(tǒng) KAA
接下來從底層開始介紹賴耶 AI 工廠。首先來看一下萬卡集群管理系統(tǒng) KAA,如何助力企業(yè)大模型開發(fā)提速。
1. 解決超大規(guī)模組網需求
萬卡集群的管理技術主要涉及模型訓練、數據傳輸以及集群管理等關鍵問題。如下:
- 高帶寬數據傳輸
AI 模型訓練和數據傳輸需要高帶寬支持,以實現(xiàn)快速的數據交換,尤其是對于大規(guī)模模型參數的傳輸,如果帶寬不足,將導致數據傳輸緩慢,繼而影響模型訓練的效率。 - 低延時協(xié)同工作
低延時對于保持集群中各節(jié)點的高效協(xié)同工作至關重要。高延遲會導致同步操作的延遲,影響訓練的實時性。采用高性能的網絡技術(如 InfiniBand,簡稱 IB),可以顯著減少延遲,提高集群的穩(wěn)定性。 - 高可靠性與故障恢復
對于長時間運行的 AI 訓練任務,集群的穩(wěn)定性尤為重要。任何硬件故障或網絡中斷都可能導致訓練任務中斷,需要重新啟動,會浪費大量時間和資源。因此,集群需要具備高可靠性和故障恢復能力。 - 自動化部署與維護
自動化部署可以加快集群的搭建和維護速度,減少人為失誤。自動化部署配置需要進行全面的核查,以確保系統(tǒng)穩(wěn)定性和性能。 - 資源隔離與管理
在共享的 AI 萬卡集群中,不同用戶和業(yè)務需要進行隔離,以保證資源分配的公平性和數據安全。我們的資源管理技術能夠限制不同業(yè)務對計算和 IO 資源的使用,實現(xiàn)資源隔離和優(yōu)先級調度。
2. 網絡設計
構建一個高效的萬卡集群網絡拓撲,需要考慮如下一些因素:
- 確定算力規(guī)模
在構建 AI 萬卡集群時,首先需要評估所需的計算能力,涉及到模型的復雜度、訓練數據的規(guī)模以及期望的訓練時間。 - 選擇加速卡類型
加速卡的選擇取決于算法的特定需求和預算情況,不同類型的加速卡在性能和成本上有所不同,選擇時需要綜合考慮。 - 確認存儲需求
根據數據集的大小和訓練過程中對 IO 的需求,選擇合適的存儲解決方案,以確保數據的快速讀寫和高吞吐量。 - 管理和安全需求
設計集中管理系統(tǒng),用于集群性能監(jiān)控、作業(yè)調度、資源分配和安全防護,這是保證集群高效運行和數據安全的基礎。 - 網絡分區(qū)規(guī)劃
合理劃分網絡區(qū)域,以支持不同業(yè)務需求,并保證網絡的可擴展性和安全性。 - 高速網絡設計
計算節(jié)點之間的高速網絡設計至關重要,從而減少節(jié)點之間的通信延遲。 - 存儲網絡設計
構建高效的存儲網絡,以確保數據傳輸具備高帶寬和低延時,支持快速的數據訪問。 - 接入區(qū)設計
設計一個穩(wěn)定且安全的接入區(qū),允許用戶和應用程序安全地接入集群。 - 智能中心網絡建設
建立智能中心網絡,用于優(yōu)化資源分配,提高作業(yè)調度效率,并支持未來擴展。
遵循上述原則,即可構建一個高性能、高效率且可擴展的 AI 萬卡集群,以支持復雜的 AI 訓練和推理任務,有效解決高帶寬和低延時的痛點,為未來的 AI 應用奠定堅實的基礎。
3. 賴耶 AI 集群管理平臺 KAA
KAA 平臺所提供的關鍵能力包括:
- 統(tǒng)一管理平臺
KAA 平臺提供了一個集中化的統(tǒng)一管理界面,用于監(jiān)控和管理整個 AI 基礎設施,包括硬件資源、網絡配置和軟件應用的全方位管理。 - 自動化工具與流程
為簡化 AI 集群的部署工作,KAA 平臺提供了多種自動化工具和流程。這些自動化工具能夠最大限度地減少人為干預,加快部署速度。 - 智能調度算法
在優(yōu)化集群資源使用方面,KAA 平臺采用了智能調度算法來優(yōu)化資源分配。該算法能夠提高計算資源的利用率,確保關鍵任務能夠得到必要的資源支持,進而提升整體性能。 - 綜合監(jiān)控系統(tǒng)
平臺配備了綜合的監(jiān)控系統(tǒng),能夠實時跟蹤集群的性能,快速識別和解決問題,保證系統(tǒng)的穩(wěn)定性和可靠性。 - 多租戶與計費計量支持
KAA 平臺支持多租戶架構,允許多用戶訪問并使用平臺資源。通過隔離的資源和計費系統(tǒng),為不同的用戶和業(yè)務單元提供透明且公平的費用計算。
通過上述功能,KAA 平臺可以顯著提升 AI 項目的工程效率,降低成本,加速 AI 模型的開發(fā)和部署,同時確保資源的高效利用和系統(tǒng)的穩(wěn)定運行。
KAA 平臺提供了非常簡潔的操作界面,如上圖所示。用戶可以一鍵完成集群的系統(tǒng)安裝、算力分配、算力聚合和算力配置等操作。
- 自動化系統(tǒng)安裝:管理員通過簡單的一鍵操作即可安裝整個集群的操作系統(tǒng)。這個過程是高度自動化的,減少了手動配置每臺服務器的需求,從而節(jié)省了大量時間并減少了人為錯誤。
- 靈活的算力配置:平臺提供了直觀的算力配置工具,允許管理員根據不同的工作負載需求靈活分配和調整計算資源,包括 CPU、GPU、內存和其他硬件資源配置,都可以在 KAA 平臺上靈活選擇和調整。
- 高效的算力聚合:KAA 平臺能夠有效地聚合集群中的所有計算資源,形成一個統(tǒng)一的資源池,不同的作業(yè)和任務可以共享這些資源,從而提高了資源利用率,并允許更高效的作業(yè)調度。
- 自動化算力分配:平臺的自動算力分配功能,可以根據作業(yè)的優(yōu)先級、資源需求和截止時間等參數,自動將計算資源分配給最合適的作業(yè)。
KAA 平臺是一個全面的集群管理解決方案,提供了從物理基礎設施到單個硬件組件端到端的管理能力。平臺覆蓋整個數據中心集群的各個層面,確保了整個計算環(huán)境的完全控制和優(yōu)化。
- 機柜層面的基礎設施管理:KAA 平臺能夠管理機柜層面的基礎設施,包括電源分配、冷卻系統(tǒng)和機架組織的優(yōu)化等。通過這些措施,確保硬件在適宜的物理環(huán)境中運行,從而提高整體效率和穩(wěn)定性。
- 網絡層面的管理:KAA 平臺擴展到網絡層面,可以管理交換機和網絡連接,確保數據傳輸的高效性和可靠性,包括監(jiān)控網絡流量、優(yōu)化網絡配置以及保障網絡的安全性和隔離性。
- 服務器級別的管理:KAA 平臺提供對每臺服務器的管理,包括操作系統(tǒng)的安裝、更新和維護,以及服務器硬件的狀態(tài)監(jiān)控和故障排除等。
- 單個硬件組件的管理:KAA 平臺能夠對單個硬件組件進行管理,如 GPU、CPU 和內存。用戶可以細致地監(jiān)控和調整這些關鍵組件的性能和健康狀態(tài),確保它們運行在最佳狀態(tài)下。
- Nsight 工具的集成:KAA 平臺結合了 Nsight 工具,這是一款強大的硬件分析工具。通過 Nsight,用戶可以觀察每個 GPU 的行為,及時發(fā)現(xiàn)和解決潛在的性能瓶頸和故障問題,從而提高整體計算效率和穩(wěn)定性。
KAA 集群管理系統(tǒng)利用 BCM 技術實現(xiàn)了集群的全面監(jiān)控和自動化部署。系統(tǒng)部署在北京賴耶辦公室的 L20 集群中,包含算力節(jié)點、管理服務器和網絡交換機等設備。通過 2D 和 3D 視角,可以直觀地觀察設備的健康狀態(tài)。
系統(tǒng)提供了靈活的監(jiān)控和警告功能,允許用戶自定義監(jiān)控模塊和告警刷新頻率。通過監(jiān)控頁面,用戶還可以集中管理和監(jiān)控 CPU、GPU、內存和各節(jié)點的詳細狀態(tài),資源利用一目了然。
利用 BCM 的核心功能,KAA 集群管理系統(tǒng)極大地簡化了系統(tǒng)監(jiān)控工作,使其更加高效、多維。此外,系統(tǒng)還支持對所有節(jié)點進行快速的一鍵安裝和恢復操作。通過一鍵裝機功能,實現(xiàn)了輕松的規(guī)?;渴鸷凸芾?,極大提升了操作便捷性和效率。
三、企業(yè)大模型服務平臺 MANAS
接下來介紹專門為企業(yè)大模型服務的 MANAS 平臺。
1. 企業(yè)大模型服務平臺 MANAS 介紹
大模型開發(fā)的基本流程包括以下幾方面:
- 數據管理:數據管理涉及到數據的收集、清理、標注和存儲。該平臺通過 GPU 加速了訓練數據的處理,例如,一個 10TB 的訓練數據在 GPU 上的處理速度比在較高基準的 CPU 上要快 20 倍。
- 模型開發(fā):針對模型開發(fā)過程中的模型選擇、訓練和測試,MANAS 平臺提供了簡單易用的圖形化用戶界面,以簡化各種 AI 工廠微服務的使用。在界面上可以通過拖拉拽的方式進行操作,還支持編排算法任務和 pipeline 等多種調試運行方式,方便用戶使用 NVIDIA 提供的 NIM 微服務。
- 模型定制:平臺允許用戶針對不同的數據和計算限制進行模型定制,提供了最先進的調優(yōu)技術,國內 L20 最佳的優(yōu)化結果,性價比提高 4 倍,成本減少 80%。
- 模型評估:對于大模型的評估,平臺提供了快速和全面的基準測試和評估模型質量的方法。
- 模型部署:平臺支持將訓練好的模型部署到生產環(huán)境中,提供實際的應用。在推理優(yōu)化方面,平臺提供了低延遲、高吞吐量的部署方式,能夠根據需要動態(tài)加載和卸載模型,確保單個 GPU 服務器上運行盡可能多的模型。
- 信息檢索:嵌入和檢索模型,確保召回包含答案或者直接說“我不知道”,解決了大語言模型由于專業(yè)領域知識不足引起的幻覺問題。
- 數據防護:將大模型保護在安全邊界之內,防止惡意提示的影響,從而確保組織能夠放心地部署生產就緒的 AI 大模型,確保正常安全運營。
賴耶科技還提供了一些解決數據處理痛點的功能,例如基于 DASK 和 MPI 的分布式計算、模糊和精確的重復數據去重,以及文檔級的質量過濾。
2. MANAS 平臺優(yōu)化示例
上圖展示的是 MANAS 平臺 Notebook 開發(fā)界面。在這里,用戶可以在不修改任何代碼的情況下,加速數據處理流程。例如,對于 10 億萬行的數據,平臺可以提供高達 60 倍的處理速度。
MANAS 平臺提供了從算法到芯片的全鏈條優(yōu)化,包括存儲 IO 優(yōu)化、網絡 IO 優(yōu)化、在網計算優(yōu)化、IO 數據統(tǒng)一管理優(yōu)化、分片和多 GPU 融合優(yōu)化、系統(tǒng)內核優(yōu)化、訓練框架優(yōu)化和模型優(yōu)化。通過這些優(yōu)化能夠顯著提升企業(yè)大模型的開發(fā)進程,幫助企業(yè)更好地實現(xiàn)降本增效。
上圖展示了 MANAS 平臺對預訓練進行優(yōu)化的一個例子。
Mona 是賴耶的一個高效訓練框架,專為大模型預訓練提供高性能的加速服務。其技術亮點主要包括:
- 高維張量并行:有效解決了一維張量并行中數據冗余和通信量過大的問題,同時也解決了未配備 NVLink 的計算卡在節(jié)點內采用張量并行時的通信瓶頸。
- 完全數據并行:在數據并行模式下,優(yōu)化器參數、模型參數和梯度都均勻地分片存儲在并行設備中,解決了分片不完全導致的內存冗余問題。
- FP8 優(yōu)化:在加速的同時,帶來了更小的內存消耗。
- 動態(tài)選擇重計算技術:大幅降低了反向梯度計算的算力消耗。Mona 動態(tài)選擇內存和算力密度比值高的算子進行激活重計算,并實時根據顯存占用動態(tài)調整規(guī)模。
- 穩(wěn)定訓練機制:在訓練過程中,數據會被實時監(jiān)控,不穩(wěn)定的節(jié)點會及時下線,確保訓練過程始終在可控范圍內進行。針對預訓練,提供了 O0 到 O3 四個優(yōu)化選項,用戶可以根據需求進行對比和選擇。在平臺的 pipeline 中,可以直接使用這些優(yōu)化選項,并在 TensorBoard 中看到加速效果。以 Step Time 為例,可以從 O0 的 6 秒降到 O3 的 2 秒,實現(xiàn)了 3 倍的速度提升。
3. MANAS 平臺的模型定制和優(yōu)化
接下來深入了解一下 MANAS 平臺的模型定制化套件,如何針對企業(yè)的特定需求定制大語言模型。四個階段的模型定制流程如下:
- 提示工程(Prompt Engineering):類似于對運動員進行特定訓練,通過少量學習、思維鏈推理和系統(tǒng)化提示,在數據、計算和資源最小化的情況下實現(xiàn)良好的效果。這種方法迅速且經濟,但可能無法完全掌握專業(yè)任務的復雜性。
- 提示學習(Prompt Learning):在提升定制規(guī)模時,采用 Prompt tuning 和 P-tuning 等技術,相當于為運動員定制更高級的訓練計劃。盡管需要投入更多資源,但不會犧牲模型已有能力,并可帶來更出色的性能。
- 參數高效微調(PEFT):包括 Adapter、LoRA 和 IA3 等工具,專門針對特定領域進行訓練,以達到最佳效果。這種方法需要更多時間和專業(yè)知識。
- 全面調整(Fine Tuning):例如 SFT 和 RLHF,這類似于運動員的全面且個性化的訓練方案,允許對模型進行全面調整。這種方法提供了最卓越的結果,并具有靈活的模型參數修改能力,但對數據、計算資源和專業(yè)知識的要求也最高。模型在學習新技能時可能會存在丟失已有技能的風險。
無論是在支持快速設置還是深度定制解決方案方面,MANAS 都可以提供全方位的工具,以滿足大模型開發(fā)中的特定需求。從提示工程到指令調優(yōu),每種方法都權衡了數據、計算投資、準確性以及所需專業(yè)知識的復雜度,以提供最優(yōu)方案。
上圖展示了一個MANAS 平臺的實例,利用平臺的 Pipeline 工具和 Notebook 進行參數高效微調(PEFT)任務,并最終獲得精調評估結果。
MANAS 平臺支持市面上絕大多數的大模型框架,包括語言框架,還有圖像的模型框架,在平臺的模型管理模塊中都可以開箱即用。
MANAS 支持快速集成 NIM API 來開發(fā)企業(yè)應用。
以上展示了如何通過 Pipeline 方式或 Agent 編排的方式,輕松部署各項 NIM 服務,構建企業(yè)級 RAG(Retrieval-Augmented Generation)應用。
四、企業(yè)級專家技術服務
1. 賴耶 AI 工廠企業(yè)專家技術支持服務介紹
賴耶工廠提供了企業(yè)級的專家技術服務。其中,業(yè)務標準支持包括,配置、性能、AI 庫、工具的指導,最新的安全修復程序、維護版本以及合作伙伴之間的協(xié)調支持,還有靈活的部署,一個適用于所有平臺的許可證,并提供關于控制升級、維護計劃的長期支持。
增值技術支持包括,專用客戶支持服務和 7*24 小時快速響應服務。
2. 客戶生命周期服務
賴耶科技所提供的支持,涵蓋咨詢服務、部署服務、培訓服務、云運維和安全服務等各個方面。
五、賴耶 AI 工廠一體化集群解決方案
接下來,介紹企業(yè)級一體化集群部署方案,從單節(jié)點到超級算力集群,幫助企業(yè)快速搭建高效計算中心。
1. 企業(yè)級一體化集群解決方案
解決方案包括:
- 單節(jié)點部署:支持小型企業(yè)或初創(chuàng)團隊的初期需求。
- 16 節(jié)點中等規(guī)模部署:滿足中型企業(yè)的大數據處理和模型訓練需求。
- 250 節(jié)點大規(guī)模集群:面向需要高效算力的企業(yè),支持復雜任務。
- 1,000 節(jié)點超大規(guī)模集群:提供萬卡級算力,適用于大型企業(yè)和科研機構。
對上述規(guī)模賴耶科技均提供全面的技術支持,幫助企業(yè)順利搭建和運行算力集群,充分利用大模型的能力。
以上就是本次分享的內容,歡迎大家持續(xù)關注賴耶科技。讓我們一起見證大模型時代的進步。
六、問答環(huán)節(jié)
Q1:賴耶平臺是否支持異構 AI 芯片池化?是否支持國產芯片?
A1:是的,賴耶平臺支持異構 AI 芯片的混合調度,能進行池化操作,并滿足多模態(tài)大模型的不同流水線要求。目前正在規(guī)劃國產芯片的適配和優(yōu)化。
Q2:賴耶科技對于大模型推理方面有哪些優(yōu)化?
A2:主要在算法和系統(tǒng)兩個層面上,要應對高效推理服務的各種挑戰(zhàn),包括:
- 低延遲與快速響應:特別是在實時應用中,需要保持低延遲和快速響應。
- 內存占用與模型規(guī)模:大規(guī)模模型需要大量內存,對于內存有限的設備存在較大挑戰(zhàn)。
- 可擴展性與吞吐量:推理系統(tǒng)需要處理變化的請求負載,保證可擴展性和高吞吐量是關鍵。
- 硬件兼容與加速:需要有效利用硬件資源,并適配多種硬件設備。
- 準確性與效率的平衡:在優(yōu)化性能時,可能需要在一定程度上犧牲準確性。
賴耶平臺的解決方案還進行以下優(yōu)化:
- 模型結構優(yōu)化:減少自注意力計算的復雜度、共享激活和條件計算。
- 模型壓縮:通過網絡剪枝和模型量化,減少模型的內存和計算負載,提高推理速度。
- 請求調度優(yōu)化:動態(tài)分配請求,提高資源利用率,并通過搶占式調度根據剩余執(zhí)行時間調整請求優(yōu)先級。
賴耶平臺通過一系列優(yōu)化技術,致力于克服高效推理服務中的各種挑戰(zhàn),提升整體性能與效率。
Q3:什么是 L20 最佳的優(yōu)化技術?
A3:L20 最佳優(yōu)化技術主要指 MANAS 平臺對于 L20 計算的顯著加速。其優(yōu)化策略包括生成最佳并行方案、激活內存優(yōu)化、算力圖優(yōu)化加速和 FP8 支持,提供了一系列提升計算效率的技術手段。
Q4:模型預訓練時 checkpoint 的存儲模式有哪些?
A4:模型預訓練時,存儲 checkpoint 主要有兩種模式:
Flash 層 Checkpoint:在預訓練過程中定期進行 checkpoint 存儲,確保數據的穩(wěn)固保存。
分布式存儲支持:
提供 checkpoint 的分布式存儲,保證在大規(guī)模訓練中高效管理和恢復訓練進度。
Q5:什么是賴耶提供的預訓練加速包及其加速選項?
A5:賴耶的預訓練加速包包含四個加速選項,從 O0 到 O3,分別提供不同層級的優(yōu)化和性能提升。O1 的加速主要提供了并行的優(yōu)化,自動選擇并行方案,采用了完全分片并行技術、高維張量并行技術、流水線并行技術、異步流水線并行技術等;O2 比 O1 增加了內存冗余的優(yōu)化,包括動態(tài)選擇性激活值重計算,以及激活值的分片等,有效降低了內存的消耗;O3 的加速性能最優(yōu),提供了混合深度訓練、計算圖的優(yōu)化、算子優(yōu)化。
Q6:MANAS 和 Colossal-AI 的訓練框架有什么區(qū)別?
A6:MANAS 在算力圖優(yōu)化、FP8 優(yōu)化以及訓練穩(wěn)定性方面具有優(yōu)勢。
Q7:賴耶的模型精調支持哪些主流的大模型?
A7:目前支持的大模型包括:LLama 系列、Baichuan2 系列、Mistral、GPT、Bert 系列等。
Q8:數據集的構建有哪些渠道?數據集的增強手段有哪些?
A8:數據集的構建和增強手段主要有以下幾個方面:
- 構建渠道方面:
開源數據集:目前最常用的渠道是通過獲取和使用現(xiàn)有的開源數據集。
人工制作數據:人工手工制作的數據集,盡管前期數據量較少,但非常定制化且精準。
- 增強手段方面:
大模型擴展:利用大模型,從基礎數據集生成更多數據,增強數據集的豐富性。
線上數據收集:在應用上線后,持續(xù)收集線上用戶生成的真實數據,并定期將其加入數據集,以不斷擴充和更新數據集。
通過這些渠道和手段,可以構建和增強數據集,以提高模型的訓練效果和實際應用表現(xiàn)。
Q9:加速后準確率有折損嗎?
A9:沒有。
Q10:FP8 的 kernel 是只能在 H100 以上的架構上運行嗎?顯卡的起步款是哪款?
A10:支持 FP8 需要在 Hopper 和 Ada Lovelace 的顯卡架構上運行。目前支持的顯卡起步款是 L20。