騰訊云智能融合 AI+數(shù)據(jù),重塑數(shù)據(jù)管理新范式
原創(chuàng)WOT 全球技術(shù)創(chuàng)新大會2024·北京站于 6 月 22 日圓滿落幕。本屆大會以“智啟新紀,慧創(chuàng)萬物”為主題,邀請到 60+ 位不同行業(yè)的專家,聚焦 AIGC、領(lǐng)導力、研發(fā)效能、架構(gòu)演進、大數(shù)據(jù)等熱門技術(shù)話題進行分享。
近年來,數(shù)據(jù)和人工智能已成為推動各行業(yè)創(chuàng)新和增長的關(guān)鍵力量。但如何將數(shù)據(jù)與人工智能融合,從而創(chuàng)造更大的價值,是企業(yè)都在尋找的答案。在 WOT 全球技術(shù)創(chuàng)新大會《AI 與數(shù)據(jù)的智能融合》專場中,來自騰訊云的三位專家分享了騰訊云在數(shù)據(jù)管理與人工智能領(lǐng)域的技術(shù)成果和成功案例,并探討二者如何智能融合為企業(yè)提供更高效、更智能的數(shù)據(jù)服務。
數(shù)據(jù)庫 AI+Serverless 助力企業(yè)降本增效
騰訊云高級技術(shù)產(chǎn)品經(jīng)理 陳昊
隨著數(shù)據(jù)庫技術(shù)的不斷迭代,我們已經(jīng)邁入數(shù)據(jù)庫3.0時代——Serverless 數(shù)據(jù)庫服務興起。Serverless數(shù)據(jù)庫具有兩大特點:隨取隨用和按需付費,實現(xiàn)了資源的精準分配和合理計費。TDSQL-C Serverless數(shù)據(jù)庫則充分發(fā)揮 Serverless 數(shù)據(jù)庫架構(gòu)的特點,幫助用戶實現(xiàn)極致的彈性以及降本增效。
TDSQL-C Serverless 數(shù)據(jù)庫架構(gòu)分為接入層、管控層、計算層和存儲層。接入層增加了獨有的恢復感知器?;謴透兄魇禽p量級類 Proxy,用做 Serverless 數(shù)據(jù)庫實例喚醒時的鏈接保持,確保在數(shù)據(jù)庫沒有負載時暫停,在需要訪問數(shù)據(jù)庫時快速拉起實例的同時保證鏈接不斷,并且根據(jù)權(quán)重設計訪問路徑。這種極致的彈性伸縮,TDSQL-C Serverless 架構(gòu)是如何實現(xiàn)的呢?
陳昊介紹,TDSQL-C Serverless 數(shù)據(jù)庫架構(gòu)采用預制資源模式,提前預留資源,從而避免事后彈性方式的彈性間隔,實現(xiàn)瞬時滿載,并根據(jù) CPU 監(jiān)控擴展 Buffer pool,實現(xiàn)動態(tài)調(diào)整 BP。TDSQL-C Serverless 架構(gòu)支持 RW 節(jié)點和 RO 節(jié)點混部模式,為用戶預制普通規(guī)格資源的同時,搭載能夠?qū)崿F(xiàn)橫向彈性和縱向彈性的Serverless。
如果數(shù)據(jù)庫在進行彈性調(diào)整的過程中,對業(yè)務產(chǎn)生抖動怎么辦?針對這一點,陳昊介紹了 Buffer pool 的運行機制。Buffer pool 由多個instance組成,每個instance都包含 chunk,其中block是內(nèi)存的最小管理單元,每個 block 大小為16KB。這些 block 用于存儲熱數(shù)據(jù)。擴縮容操作涉及調(diào)整 chunk 區(qū)的大小,在操作過程中,Buffer pool 內(nèi)部的兩個關(guān)鍵鏈表——Lru list(最近最少使用列表)和Free list(空閑列表)發(fā)揮了重要的作用。擴容時,首先從 Free list 中添加新的 block,然后將這些新添加的 block 移動到 Lru list 中,完成擴容過程。
比起擴容,縮容更容易出現(xiàn)抖動。為了避免這一情況,TDSQL-C通過三種方式解決產(chǎn)生毛刺的問題:
第一,針對持久化 page 導致的 IO 瓶頸,TDSQL-C 采用 redo log 在存儲層異步生成 page,計算節(jié)點無需刷臟直接丟棄淘汰 page。
第二,針對遍歷過程中持有 mutex 鎖時間過長的問題,TDSQL-C 能夠按地址遍歷需要被回收的 chunk 中的 block,并且加鎖區(qū)間由整個 Lru 鏈表變成單個 block。
第三,針對獲取 BP 全局鎖執(zhí)行時間過長的問題, TDSQL-C 采用延遲釋放chunk 和提前預分配chunk的方式,同時優(yōu)化 resize hash 算法,改為異步模式。
TDSQL-C Serverless架構(gòu)還能幫助用戶極大程度減少存儲成本。TDSQL-C Serverless 架構(gòu)采用了全球首創(chuàng)的可釋放存儲技術(shù)。當數(shù)據(jù)庫中的實例暫停后,數(shù)據(jù)會自動歸檔到 COS 中,實現(xiàn)靈活存儲?;謴蛯嵗龝r,則按照表的訪問順序進行數(shù)據(jù)恢復,優(yōu)先恢復最先被訪問的表,同時保證恢復過程不影響數(shù)據(jù)庫的整體訪問,極大程度降低了存儲成本。
隨著 AI 技術(shù)的爆發(fā),AI 與數(shù)據(jù)庫開始融合,并且走向 AI4DB。既然我們已經(jīng)來到 AI4DB 時代,AI+Serverless該如何實現(xiàn)?如何幫助應用快速落地?陳昊表示,未來騰訊云 TDSQL 數(shù)據(jù)庫將結(jié)合混元大模型的能力,在智能運維、極致成本和智能預測等方向發(fā)力,借助AI的能力幫助用戶降本增效。
大模型時代下的存儲系統(tǒng)
騰訊云高級產(chǎn)品經(jīng)理 林楠
在當前時代的發(fā)展中,企業(yè)正逐步利用大規(guī)模的對象存儲來構(gòu)建企業(yè)級數(shù)據(jù)湖和智能存儲服務,存儲系統(tǒng)正朝著更加彈性、高效和智能的方向發(fā)展,以滿足企業(yè)在數(shù)據(jù)處理和利用方面日益增長的需求。隨著大模型的出現(xiàn),存儲系統(tǒng)還需要滿足大模型訓練和推理過程中對數(shù)據(jù)規(guī)模、性能和穩(wěn)定性的多樣化需求,以及在處理海量數(shù)據(jù)的同時保證對高價值數(shù)據(jù)的高性能訪問,實現(xiàn)大規(guī)模存儲與高性能訪問的平衡,確保大模型的高效訓練和推理能力。
騰訊云是如何應對多樣化的存儲需求的呢?首先,騰訊云通過全球基礎設施,在 21個地區(qū)部署 3200+ 加速節(jié)點,為企業(yè)提供卓越、穩(wěn)定的公網(wǎng)接入和傳輸能力,滿足企業(yè)安全、高效、可靠的數(shù)據(jù)遷移需求。在過往的數(shù)據(jù)遷移案例中,我們曾經(jīng)支持過數(shù)十 PB 甚至上百 PB 數(shù)據(jù)的穩(wěn)定遷移。
其次,騰訊云全自研對象存儲引擎 YottaStore 能夠為大模型訓練和推理提供非常堅實的底座支持。在數(shù)據(jù)接入層面,騰訊云自研了無狀態(tài)的彈性接入集群,支持豐富的公網(wǎng)接入和彈性伸縮能力;在存儲引擎層面,騰訊云提供了原生多 AZ 的特性,提供了高可靠的存儲能力;通過元數(shù)據(jù)分級存儲等方式,單集群可以輕松擴展到百 EB 級別。通過深耕軟硬件技術(shù)優(yōu)化,騰訊云對象存儲一方面可以滿足業(yè)務不同規(guī)模、不同類型的數(shù)據(jù)存儲需求;另一方面,也為業(yè)務提供了連續(xù)可用的服務,保證數(shù)據(jù)隨時可訪問,數(shù)據(jù)可以永久存儲、不壞不丟。
存儲系統(tǒng)存在著海量數(shù)據(jù),企業(yè)如何找到真正需要用的數(shù)據(jù)?這就需要騰訊云自研的 GooseFS 三級加速服務來提升數(shù)據(jù)使用效率。GooseFS可以將數(shù)據(jù)智能存儲到內(nèi)存、計算集群的本地盤、或可用區(qū)的全閃存儲集群等不同級別的緩存中,提供亞毫秒級的數(shù)據(jù)訪問時延、百萬級的IOPS和Tbps級別的吞吐能力,有效提升數(shù)據(jù)清洗效率。
AI 場景中存在海量文件的存儲和訪問需求,因此GooseFS 面臨著海量元數(shù)據(jù)存儲以及數(shù)據(jù)親和性調(diào)度的挑戰(zhàn)。為了應對海量元數(shù)據(jù)存儲的壓力,GooseFS 通過在高性能 KVDB 上實現(xiàn)了元數(shù)據(jù)分庫分表、跨節(jié)點硬鏈等技術(shù)手段,有效提升元數(shù)據(jù)規(guī)模和平行擴展能力,當遇到主節(jié)點元數(shù)據(jù)訪問故障時,整個元數(shù)據(jù)的訪問可以快速遷移到備節(jié)點中。通過這些方式,GooseFS可以為大模型訓練場景提供百億級的熱點元數(shù)據(jù)存儲能力,提供百萬級 IOPS,并且可以在高壓情況下做到秒級故障恢復的能力。
第一個能力是一體化AI審核+存儲。在大模型的生產(chǎn)框架中,無論是訓練還是推理都會涉及內(nèi)容安全的問題,因此騰訊云數(shù)據(jù)萬象在存儲端提前預置審核能力,通過對用戶輸入和AIGC模型輸出這兩個階段的內(nèi)容審核,可以充分保障內(nèi)容安全的合規(guī)要求。數(shù)據(jù)萬象的審核能力可以根據(jù)數(shù)據(jù)存儲位置智能地調(diào)度處理集群,通過近存儲側(cè)的處理能力,從而提供更優(yōu)的數(shù)據(jù)傳輸時延和更低的成本。
第二個能力是知識產(chǎn)權(quán)保護?,F(xiàn)階段 AIGC 產(chǎn)權(quán)并沒有明確的標識物,但當 AIGC 的產(chǎn)物被大規(guī)模應用時,知識產(chǎn)權(quán)保護的需求也會隨之而生,這個時候就需要明確聲明產(chǎn)出物的模型主權(quán)。騰訊云數(shù)據(jù)萬象的數(shù)字水印技術(shù)提供一站式明暗水印添加能力,可以在圖片、視頻,文本中嵌入機密信息,保證數(shù)字產(chǎn)品的版權(quán)保護和侵權(quán)溯源。
第三個能力是多模態(tài)智能檢索。與傳統(tǒng)的基于標簽的標量檢索不同,騰訊云數(shù)據(jù)萬象MetaInsight通過預先計算數(shù)據(jù)的向量空間并存儲于向量數(shù)據(jù)庫中,再利用向量檢索技術(shù)在向量空間內(nèi)尋找相似的圖片、文本或視頻內(nèi)容,從而實現(xiàn)更精準的全媒體類型跨模態(tài)檢索能力。MetaInsight支持以文搜圖、以圖搜圖等多種高性能的數(shù)據(jù)檢索手段,覆蓋了上千個細分場景,可以幫助客戶快速建設檢索應用。
高性能異構(gòu)云原生 PaaS 平臺建設實踐
騰訊云中間件產(chǎn)品資深架構(gòu)師 侯詩軍
根據(jù) IDC 和 Gartner 等權(quán)威機構(gòu)的調(diào)研數(shù)據(jù),越來越多的企業(yè)正逐步將有狀態(tài)中間件、大數(shù)據(jù)和數(shù)據(jù)庫進行云化,而算力融合是實現(xiàn)這些系統(tǒng)云化的關(guān)鍵。騰訊云憑借多年的內(nèi)部實踐和企業(yè)級市場經(jīng)驗,提出多級算力融合策略,作為云原生與傳統(tǒng)架構(gòu)結(jié)合的優(yōu)選方案,有效規(guī)避算力孤島,助力企業(yè)更有效地進行云原生數(shù)據(jù)庫、大數(shù)據(jù)和中間件等有狀態(tài)業(yè)務的實施落地。
眾所周知,網(wǎng)絡、計算、存儲是云計算的三大核心要素。接下來,侯詩軍從網(wǎng)絡、計算、存儲三個方面介紹騰訊高性能異構(gòu)云原生平臺的建設情況。
首先,高性能的網(wǎng)絡是構(gòu)筑大規(guī)模集群的基石。騰訊云基于 eBPF 和自研的智能網(wǎng)卡的自研高性能網(wǎng)絡,同時支持 Overlay 和 Underlay 等網(wǎng)絡架構(gòu),實現(xiàn)物理機、虛擬機和容器網(wǎng)絡的互聯(lián)互通,讓數(shù)據(jù)業(yè)務在不同計算形態(tài)間無縫遷移。例如騰訊內(nèi)部的節(jié)點和核心交換網(wǎng)基于BGP 協(xié)議進行路由管理,通過ECMP實現(xiàn)路由級負載均衡。在節(jié)點層面,通過自研的 L4/L7 負載均衡器、基于 eBPF 的高性能網(wǎng)絡插件,以及對操作系統(tǒng)內(nèi)核的深度優(yōu)化,大幅的提升網(wǎng)絡轉(zhuǎn)發(fā)處理效率與性能。例如通過優(yōu)化之后的Service新增規(guī)生效時間穩(wěn)定在0.5毫秒內(nèi),較開源的Iptables和IPVS的秒級生效有質(zhì)的提升,更適合大規(guī)模集群業(yè)務迭代與快速彈性。
此外,騰訊云自研的星星海服務器和智能網(wǎng)卡系統(tǒng)。通過將網(wǎng)絡和存儲虛擬化卸載到智能網(wǎng)卡,進一步減輕主機 CPU 的計算負擔。在騰訊云的裸金屬新一代統(tǒng)一架構(gòu)中,通用計算和裸金屬都已全面集成自研智能網(wǎng)卡系統(tǒng),網(wǎng)絡和計算性能顯著提升。
在計算層面,騰訊云自研的 VStation 計算調(diào)度器,可同時支持黑石物理計算、通用計算以及異構(gòu)計算,包括GPU/FPGA等。騰訊云基于KMD/UMD攔截控制自研的 qGPU 方案,也有效的避免了“缺卡”、干擾問題、峰谷利用率不足等問題。qGPU可提供兩個層面的調(diào)度。第一種方式是集群層面的調(diào)度,通過平均分配策略能夠保證負載均衡,而盡量填滿策略能夠保證利用率。第二種方式是在單卡中調(diào)度多個Pod,參照vGPU調(diào)度基礎上提供爭搶模式、固定配額和保證配額增加彈性三種方式。
騰訊云還優(yōu)化了有狀態(tài)工作負載控制器,在完全兼容原生 StatefulSet 的基礎上增強了 StatefulSetPlus Workload,并支持分批灰度、一鍵回滾、HPA、原地重啟與升級等,很好的應對有狀態(tài)數(shù)據(jù)類業(yè)務云化過程中的剛需問題。同時,騰訊云自研的 SSM 控制器可以屏蔽不同類型數(shù)據(jù)庫中間件,通過 SSM Controller 統(tǒng)一創(chuàng)建,實現(xiàn)云原生的聲明式和面向終態(tài)運維。除了 StatefulSet,騰訊云還自研了基于云原生的虛擬化 KubeVM。通過 Kubernetes 平臺可同時調(diào)度容器和虛擬機,在網(wǎng)絡、算力、存儲多個層面上實現(xiàn)統(tǒng)一管控。
在存儲方面,騰訊云自研的 TCS Local Persistent Volume能夠滿足工作負載在節(jié)點本地存儲的使用需求,讓有狀態(tài)業(yè)務能充分地利用好本地存儲的資源。TCS Local Persistent Volume支持全生命周期單獨管理,確保工作負載被刪除后,數(shù)據(jù)不會丟失;支持調(diào)度強綁定,可以防止有狀態(tài)業(yè)務調(diào)度到?jīng)]有數(shù)據(jù)的工作節(jié)點。
在分布式存儲也實施了多項優(yōu)化措施,以提升其性能和可靠性。首先,通過三副本結(jié)對、多集群故障域、IO 與控制分離以及快照異地容災等策略確保了存儲的高可用性;其次,引入了漸進式條帶化處理方法,通過文件大小的 Hash 調(diào)度至不同存儲區(qū)域,優(yōu)化了存儲空間的利用率和讀寫性能;最后,在元數(shù)據(jù)管理方面,通過將元數(shù)據(jù)服務(MDS)信息分散至多個節(jié)點,不僅提高了元數(shù)據(jù)的處理效率,還增強了系統(tǒng)的健壯性,確保了元數(shù)據(jù)性能的線性增長。
有了好的能力建設,接下來還需要沉淀復用,騰訊云如何賦能更多業(yè)務和對外輸出?
侯詩軍表示,在全面云化之后,公有云全棧能力下沉到私有云是私有云發(fā)展的新趨勢,因此騰訊云打造了TCS云原生企業(yè)級PaaS平臺和TCE全棧企業(yè)級云平臺。TCS云原生企業(yè)級PaaS平臺能夠向下兼容第三方的異構(gòu) IaaS,向上支撐 CVM虛擬機、K8S 容器、qGPU、邊緣計算等多級算力,實現(xiàn)統(tǒng)一異構(gòu)的資源調(diào)度。在對外輸出方面,微服務、中間件、數(shù)據(jù)庫、存儲等能力都可以通過騰訊云TCS云原生企業(yè)級PaaS平臺快速交付至企業(yè)。例如在數(shù)據(jù)庫方面,騰訊云提供 TDSQL、CRedis、PostgreSQL 等私有化的數(shù)據(jù)庫能力;在消息中間件方面,騰訊云提供 Puslar、Ckafka、RocketMQ 等主流的消息中間件;在微服務方面,騰訊云提供 PolarisMesh 治理中心、TSF 微服務框架、RIOGW 智能API網(wǎng)關(guān)等微服務套件。目前騰訊云已在金融、政企、交通、制造、互聯(lián)網(wǎng)等多個行業(yè)落地。
最后,侯詩軍用一首詩總結(jié)了今天分享的內(nèi)容:架構(gòu)云化尋常路,循序漸進來過渡。異構(gòu) PaaS 啟新紀,算力融合創(chuàng)萬物!
以上就是《AI 與數(shù)據(jù)的智能融合》騰訊云專場的精彩分享。騰訊云在AI與數(shù)據(jù)領(lǐng)域的最新技術(shù)和成果不僅為企業(yè)提供了降本增效的新途徑,也為企業(yè)走向智能化提供了強有力的支持。隨著技術(shù)的不斷進步和創(chuàng)新,騰訊云將繼續(xù)在智能化轉(zhuǎn)型的道路上引領(lǐng)企業(yè)走向更廣闊的未來。