自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="v1tt3"><p id="v1tt3"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

阿里云大數(shù)據(jù) AI 一體化優(yōu)秀實(shí)踐

作者：劉一鳴 2024-07-10 08:52:17

本文將探討在 AI 應(yīng)用數(shù)據(jù)處理場(chǎng)景，如何發(fā)揮大數(shù)據(jù)平臺(tái)的規(guī)模優(yōu)勢(shì)，降低開發(fā)的復(fù)雜度，并分享阿里云在大數(shù)據(jù) AI 一體化方面的實(shí)踐經(jīng)驗(yàn)。

一、大數(shù)據(jù) AI 開發(fā)范式的演變

近年來(lái)，機(jī)器學(xué)習(xí)備受關(guān)注，但開發(fā)流程上并沒有本質(zhì)的變化，依舊是從數(shù)據(jù)準(zhǔn)備到預(yù)處理，到模型的開發(fā)、訓(xùn)練，再到評(píng)估、上線，依次反復(fù)迭代。流程沒有本質(zhì)變化，但在不同階段所花費(fèi)的精力和時(shí)間正在發(fā)生變化。

隨著大模型等新型機(jī)器學(xué)習(xí)項(xiàng)目逐漸成為主流，機(jī)器學(xué)習(xí)項(xiàng)目從以模型為中心的開發(fā)范式，向以數(shù)據(jù)為中心的開發(fā)范式轉(zhuǎn)變。在過去，計(jì)算的算力有限，沒辦法低成本處理大規(guī)模數(shù)據(jù)，更多是在模型上通過多次迭代調(diào)參處理各種過擬合、欠擬合等問題。當(dāng)時(shí)的機(jī)器學(xué)習(xí)訓(xùn)練非常依賴于數(shù)據(jù)的準(zhǔn)確性，依賴于標(biāo)注數(shù)據(jù)的質(zhì)量，而標(biāo)注數(shù)據(jù)的成本是非常高的。在 Transform 模型出現(xiàn)之后，工程師精力的中心從模型的調(diào)優(yōu)轉(zhuǎn)向了數(shù)據(jù)質(zhì)量的提升，不再完全依賴于標(biāo)注數(shù)據(jù)的獲取，這時(shí)數(shù)據(jù)平臺(tái)的效率就成為了整個(gè)開發(fā)流水線中的關(guān)鍵瓶頸。

最近大家經(jīng)常說，成功的機(jī)器學(xué)習(xí)項(xiàng)目，80% 來(lái)自于數(shù)據(jù)加工效率的改進(jìn)，20% 來(lái)自于模型的優(yōu)化。當(dāng)然沒有算力不行，但光有算力也不行，所以公式就變成了算力+數(shù)據(jù)+模型。數(shù)據(jù)部分包括結(jié)構(gòu)化數(shù)據(jù)處理、非結(jié)構(gòu)化數(shù)據(jù)處理、海量文件數(shù)據(jù)處理等等。

大數(shù)據(jù) AI 一體化并不是今天才有的課題，已經(jīng)發(fā)展很久了。很多公司都在做的推薦系統(tǒng)就是一個(gè)典型的大數(shù)據(jù)+AI 的工作，要通過數(shù)據(jù)做標(biāo)簽化，形成特征庫(kù)，訓(xùn)練推薦模型。推薦模型分很多版本，要不斷迭代，做各種 AB test，反復(fù)調(diào)整模型再持續(xù)上線。有些是離線的模型，有些是在線的，還有的是離在線一體的。

上圖中就是典型的實(shí)現(xiàn)路徑，也是阿里云上最經(jīng)典的解決方案，包括用 Flink 處理標(biāo)簽實(shí)時(shí)加工，通過 MaxCompute 處理離線批量數(shù)據(jù)，然后通過 PAI-TF 進(jìn)行在線訓(xùn)練。訓(xùn)練出的模型在線服務(wù)之后要做指標(biāo)實(shí)時(shí)采集，以及多維度對(duì)比分析，多數(shù)交互式分析的場(chǎng)景使用 Hologres 這樣的 OLAP 工具，支持秒級(jí)的快速查詢響應(yīng)。

近一年時(shí)間里大模型成為焦點(diǎn)，使用大模型的一個(gè)典型場(chǎng)景是各種公司都在建設(shè)專屬知識(shí)庫(kù)。阿里云的網(wǎng)站也做了類似的工作，在每個(gè)工單控制臺(tái)會(huì)有一個(gè)提問按鈕，以前提問的背后都是真人在服務(wù)，服務(wù)響應(yīng)時(shí)間無(wú)法保證，現(xiàn)在工單第一輪會(huì)是智能機(jī)器人在服務(wù)，它可以針對(duì)上下文和產(chǎn)品知識(shí)庫(kù)，為用戶提供最有相關(guān)性、更準(zhǔn)確、更及時(shí)的回答。

具體做法是把相關(guān)的技術(shù)文檔、產(chǎn)品使用文檔做向量化處理，輸入到向量數(shù)據(jù)庫(kù)。當(dāng)用戶提出問題，會(huì)把問題做一定的改寫使其上下文更加豐富，并與向量數(shù)據(jù)庫(kù)做近似度匹配計(jì)算，把問題最相關(guān)的上下文文檔信息抽取出來(lái)，再把這些文檔一起喂給大模型，讓大模型基于這些上下文相關(guān)文檔輸出一份準(zhǔn)確的、可理解的、有上下文的、可解讀的回答。在這個(gè)基本的流程中涉及到的技術(shù)包括了文本處理、向量數(shù)據(jù)庫(kù)、大模型等等。

然而實(shí)現(xiàn)這樣一個(gè)系統(tǒng)并不容易，要同時(shí)考慮成本、效率、運(yùn)維等多方因素，會(huì)遇到很多問題。第一個(gè)問題是研發(fā)階段割裂感非常強(qiáng)，做數(shù)據(jù)的人和做 AI 的人往往屬于不同的團(tuán)隊(duì)，使用不同的平臺(tái)和不同的開發(fā)語(yǔ)言，大家互相交流很困難。數(shù)據(jù)人喜歡做數(shù)倉(cāng)、做結(jié)構(gòu)化，聚焦元數(shù)據(jù)生產(chǎn)。而AI 同學(xué)往往基于 Python 開發(fā)語(yǔ)言在單機(jī)上做開發(fā)，開發(fā)之后與數(shù)據(jù)不再做閉環(huán)交互，導(dǎo)致這份數(shù)據(jù)往往是單向流動(dòng)，造成很多的數(shù)據(jù)割裂。

其次，效率也是個(gè)問題。大數(shù)據(jù)同學(xué)非常擅長(zhǎng)處理并行化分布式的問題，AI 同學(xué)往往更擅長(zhǎng)怎么把模型調(diào)參，在單機(jī)上跑足夠好。但如今重要的點(diǎn)不再是模型是否要反復(fù)調(diào)優(yōu)，而是數(shù)據(jù)處理的量要上幾個(gè)數(shù)量級(jí)，這時(shí)單機(jī)的算子是否還能適合新的場(chǎng)景，就是很大的問題，可能會(huì)遇到性能的瓶頸。

第三個(gè)是工程化的問題。過去公司數(shù)據(jù)平臺(tái)，AI 平臺(tái)往往是因?yàn)椴煌膱?chǎng)景，不同的目的采購(gòu)不同的供應(yīng)商，平臺(tái)之間很難打通。很多公司采購(gòu)了很多系統(tǒng)，用不同賬號(hào)，不同權(quán)限，被不同人運(yùn)維，這樣會(huì)把公司平臺(tái)的脆弱性全部暴露出來(lái)。

最后是數(shù)據(jù)管理能力，這是整個(gè)項(xiàng)目的核心。由于系統(tǒng)上的割裂，很難看到一個(gè)全局的、統(tǒng)一的數(shù)據(jù)的治理能力。大數(shù)據(jù)平臺(tái)和 AI 開發(fā)平臺(tái)的元數(shù)據(jù)割裂也是不容易解決的問題。

大數(shù)據(jù) AI 一體化就是要解決上述問題。大數(shù)據(jù)平臺(tái)要做好幾件事情，包括統(tǒng)一的元數(shù)據(jù)管理，大規(guī)模的數(shù)據(jù)處理能力，分布式計(jì)算的算子，以及提供豐富的、海量的、彈性的計(jì)算資源。AI 平臺(tái)要提供統(tǒng)一的模型管理，可視化的建模流程，分布式的訓(xùn)練環(huán)境，以及豐富的 GPU 的資源。大數(shù)據(jù)與 AI 的結(jié)合就是一個(gè)互相支撐的過程，大數(shù)據(jù)平臺(tái)要為 AI 平臺(tái)做好數(shù)據(jù)支撐，AI 平臺(tái)則通過智能化的算法，讓數(shù)據(jù)平臺(tái)更好用。接下來(lái)將介紹阿里云在數(shù)據(jù)支撐和算法優(yōu)化上所做的工作。

二、阿里云大數(shù)據(jù) AI 一體化架構(gòu)演進(jìn)

上圖展示了阿里云所提供的解決方案，包括了基礎(chǔ)的資源層，中間的大數(shù)據(jù) AI 一體化 PaaS 平臺(tái)服務(wù)層，上層的模型服務(wù)層，最后是應(yīng)用層。其中大部分應(yīng)用和模型來(lái)自于我們的合作伙伴，藍(lán)色的部分是阿里云原生的產(chǎn)品和服務(wù)，本文重點(diǎn)介紹的是其中數(shù)據(jù)平臺(tái)的部分，在豐富的計(jì)算資源之上提供一個(gè)易用的可擴(kuò)展的數(shù)據(jù)處理平臺(tái)，同時(shí)和 AI 機(jī)器學(xué)習(xí)平臺(tái) PAI 集成、打通。

數(shù)據(jù)平臺(tái)核心的部分是 MaxCompute，以前的名字叫 ODPS，即 Open Data Processing Service，其中包含兩個(gè)主要的引擎，一個(gè)就是離線數(shù)倉(cāng) MaxCompute，另一個(gè)是實(shí)時(shí)數(shù)倉(cāng) Hologres。MaxCompute 是一款比 Spark 更易用，執(zhí)行效率更高，企業(yè)級(jí)能力更豐富的大數(shù)據(jù)平臺(tái)。

MaxCompute 經(jīng)歷了 15 年的迭代發(fā)展，在不同階段，著力解決的重點(diǎn)問題是有差異的。最早 09 年開始做這款產(chǎn)品的時(shí)候，是因?yàn)榘⒗锛瘓F(tuán)內(nèi)部有海量的數(shù)據(jù)要做分析，既要替換 Oracle 降低成本，又需要很強(qiáng)的擴(kuò)展性，支持當(dāng)時(shí)業(yè)務(wù)的快速發(fā)展。當(dāng)時(shí)做了 5K 項(xiàng)目，也就是單集群超過 5000 個(gè)節(jié)點(diǎn)，解決集群的可擴(kuò)展問題，從此數(shù)據(jù)量不再是瓶頸。

17 年之后，開始做公有云服務(wù)，做 Serverless，這實(shí)際上是對(duì)運(yùn)維方式的一個(gè)本質(zhì)性變革。其背后的挑戰(zhàn)非常大，比如升級(jí)怎么做到業(yè)務(wù)無(wú)感，無(wú)中斷，怎么做到流量分配均衡，怎么做到灰度和回滾等等。Serverless 背后是租戶體系的改革，一個(gè)集群服務(wù)一個(gè) Region 所有的用戶，所有類型的作業(yè)。

第三個(gè)階段是湖倉(cāng)一體的改造。這個(gè)時(shí)候我們發(fā)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)已經(jīng)無(wú)法滿足用戶的靈活性需求，有很多非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)需要管理和加工，有很多第三方的 Hadoop 集群需要被托管，需要更有質(zhì)量的數(shù)據(jù)治理，我們提出了湖倉(cāng)一體的架構(gòu)，可以把基于開放存儲(chǔ)，使用開放格式的數(shù)據(jù)統(tǒng)一納管到 MaxCompute 的元數(shù)據(jù)體系下。同時(shí)也做了離線實(shí)時(shí)一體，一個(gè)在線的交互式分析引擎 Hologres 和一個(gè)離線數(shù)據(jù)加工引擎 MaxCompute 之間的元數(shù)據(jù)和數(shù)據(jù)之間的集成。

從 2023 年開始走向下一個(gè)階段。這一階段的一個(gè)特征是我們提出了開放架構(gòu)，我們希望數(shù)倉(cāng)應(yīng)該是開放的、多元的，在數(shù)倉(cāng)存儲(chǔ)層提供一個(gè) MaxCompute Storage API，第三方的計(jì)算引擎可以直接以原生的、底層的、高吞吐的方式訪問數(shù)倉(cāng)里的數(shù)據(jù)。過去數(shù)倉(cāng)是為性能優(yōu)化設(shè)計(jì)的，但今天不再是封閉的。其次我們也提出了 Data+AI 這樣一個(gè)解決方案，稍后會(huì)大家做進(jìn)一步解析。

MaxCompute 的核心形態(tài)是完全的 Serverless。上圖是來(lái)自于 Gartner 的分析報(bào)告，Serverless 分很多級(jí)別，體現(xiàn)在對(duì)資源共享的力度不同。從最原始的機(jī)器層面上的機(jī)器資源共享，到后來(lái)操作系統(tǒng)層面的共享、容器層面的共享、應(yīng)用層的共享、租戶的共享。一層層共享力度的提升，背后對(duì)于服務(wù)提供方來(lái)說，技術(shù)難度都是一個(gè)指數(shù)級(jí)的提升，但是對(duì)用戶來(lái)說，收益則會(huì)越來(lái)越大。通過資源復(fù)用，有機(jī)會(huì)把整個(gè)服務(wù)的成本降得足夠低，給用戶更低價(jià)格的計(jì)算服務(wù)。這對(duì)資源隔離要求更高，做系統(tǒng)升級(jí)的難度也更大。

MaxCompute 從設(shè)計(jì)之初就被定位為一個(gè) serverless 的產(chǎn)品，只有把運(yùn)維效率解決好，提高資源利用率，才能提供更有競(jìng)爭(zhēng)力的數(shù)據(jù)計(jì)算服務(wù)。除了成本之外，還有另外一個(gè)好處就是彈性。特別在機(jī)器學(xué)習(xí)場(chǎng)景下，只在部分時(shí)間有大量的資源需求，如果采購(gòu)一臺(tái)機(jī)器，有大部分時(shí)間閑置，是巨大的浪費(fèi)。所以機(jī)器學(xué)習(xí)場(chǎng)景下對(duì) Serverless 服務(wù)有很強(qiáng)的訴求。

接下來(lái)給大家講講 Data+AI 的解決方案，MaxCompute 針對(duì) AI 場(chǎng)景的創(chuàng)新主要包括以下幾大方面。

首先是在數(shù)據(jù)管理層面上。數(shù)倉(cāng)是很擅長(zhǎng)處理結(jié)構(gòu)化數(shù)據(jù)的，但是在機(jī)器學(xué)習(xí)場(chǎng)景下，有大量的非結(jié)構(gòu)化數(shù)據(jù)、文件數(shù)據(jù)、圖像數(shù)據(jù)等等，所以我們?cè)诜墙Y(jié)構(gòu)化數(shù)據(jù)的管理上有了一些創(chuàng)新，引入了 Object Table 這種新型的表類型。
其次是計(jì)算框架，我們推出了針對(duì) Python 開發(fā)的分布式執(zhí)行框架 MaxFrame。過去數(shù)據(jù)平臺(tái)往往是提供 SQL 接口來(lái)開發(fā)，但數(shù)據(jù)科學(xué)家們最習(xí)慣使用 Python 及各類 Python 開源工具包。通過 MaxFrame，MaxCompute 數(shù)據(jù)平臺(tái)提供了 SQL+Python 雙引擎的能力，Python 成為數(shù)據(jù)平臺(tái)的一級(jí)開發(fā)語(yǔ)言。
第三是提供了交互式的 Notebook 開發(fā)環(huán)境，這也是 AI 同學(xué)非常喜歡的開發(fā)環(huán)境，在 Notebook 里邊可以做交互式的驗(yàn)證和作業(yè)分享。
最后是鏡像管理。Python 開發(fā)中版本管理、鏡像打包等一系列的工程問題也是效率的關(guān)鍵。

數(shù)據(jù)管理能力的演進(jìn)分為幾個(gè)階段。

第一個(gè)階段解決聯(lián)邦問題，當(dāng)數(shù)據(jù)交互雙方使用不同引擎時(shí)，數(shù)據(jù)是否可以兼容，讓數(shù)據(jù)不搬遷，就可以實(shí)現(xiàn)聯(lián)邦查詢。希望以聯(lián)邦為中心，打通元數(shù)據(jù)管理，給用戶統(tǒng)一的元數(shù)據(jù)視圖和權(quán)限管理。

第二個(gè)階段，僅有聯(lián)邦不夠，希望不同的存儲(chǔ)格式，可以放在湖上提供一份數(shù)據(jù)多引擎的能力，所以第二階段做了湖倉(cāng)一體的能力，提高數(shù)據(jù)的易用性，提供原生的查詢的能力和元數(shù)據(jù)的管理能力。

第三個(gè)階段，越來(lái)越多的用戶提出非結(jié)構(gòu)化數(shù)據(jù)管理的需求。大量非結(jié)構(gòu)化數(shù)據(jù)作為輸入給很多 Python library 進(jìn)行向量化轉(zhuǎn)化，但是這些文件背后缺乏一個(gè)元數(shù)據(jù)管理能力，也很難進(jìn)行分布式計(jì)算，因此我們做了 Object Table 來(lái)解決這個(gè)問題。

Object Table 是一種新的表類型，用來(lái)處理非結(jié)構(gòu)化數(shù)據(jù)。其中存儲(chǔ)的是非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)，而不是數(shù)據(jù)本身。存儲(chǔ)的元數(shù)據(jù)包括文件的路徑、文件名、文件的大小、更新時(shí)間等等，還有不少可擴(kuò)展的 tag 值。

基于這些元數(shù)據(jù)可以做很多提升開發(fā)效率的事情，假如有 1000 萬(wàn)個(gè)文件，要交給一個(gè)大數(shù)據(jù)平臺(tái)，希望平臺(tái)可以并行化處理這些文件，從 PDF 文件抽取文本。一種簡(jiǎn)單的做法是一個(gè)文件啟動(dòng)一個(gè)進(jìn)程，但是對(duì)于 1000 萬(wàn)個(gè)文件就要啟動(dòng) 1000 萬(wàn)個(gè)進(jìn)程，調(diào)度上開銷非常大。如果這些文件里邊有些文件可以跳過，可以忽略，比如太小的文件不打開，很長(zhǎng)時(shí)間沒人動(dòng)的文件可以跳過，其實(shí)有很多需要對(duì)元數(shù)據(jù)過濾的場(chǎng)景，過去沒有元數(shù)據(jù)信息，很難做這件事情，但現(xiàn)在表里面有元信息就可以處理。

還有就是并行化處理的問題，一個(gè)進(jìn)程處理一個(gè)文件，還是一個(gè)進(jìn)程處理 10 個(gè)文件，對(duì)吞吐的影響是非常大的，過去沒有元信息很難做，但現(xiàn)在有元信息之后 worker 可以進(jìn)行判斷。假設(shè)一個(gè) worker 可以處理 100 兆數(shù)據(jù)，就可以把 100 兆數(shù)據(jù)以批量的形式作為輸入傳給一個(gè)進(jìn)程 worker 并行化處理，這樣整體處理的吞吐量會(huì)有本質(zhì)性的提升，這也是工程化非常常見的做法。

除了這些元數(shù)據(jù)管理之外，還有很多性能上的優(yōu)化，比如在海量小文件、碎片文件處理上有幾十倍的提效，在單一大文件的訪問 IO 上的也做了提效。

第二大創(chuàng)新是 MaxFrame，把 Python 的開發(fā)體驗(yàn)做到原生化。我們希望給用戶的心智是，在單機(jī)上本地開發(fā)的 Python 程序，基于主流的 Pandas 接口開發(fā)的，可以 100% 透明的遷移到 MaxFrame 平臺(tái)之上，可以享受平臺(tái)上可擴(kuò)展的計(jì)算算力，MaxFrame 提供并行化的計(jì)算能力。

用戶寫的 Python code 并不是針對(duì)分布場(chǎng)景，而是針對(duì)單機(jī)場(chǎng)景寫的。但數(shù)據(jù)的輸入來(lái)自于 MaxCompute 表的輸入，MaxFrame 會(huì)將算子并行化，運(yùn)行在不同的分布式節(jié)點(diǎn)之上，這也意味著在單機(jī)上跑的 Python 的作業(yè)，以前要運(yùn)行幾十個(gè)小時(shí)，現(xiàn)在可能僅需幾十分鐘，甚至更快。MaxFrame 的核心理念就是讓使用 Pandas 接口開發(fā)的數(shù)據(jù)分析、數(shù)據(jù)加工的程序，可以無(wú)縫的、透明的遷移到大數(shù)據(jù)平臺(tái)上。同時(shí)平臺(tái)做到了跟 MaxCompute 底層數(shù)據(jù)的原生打通，可以高吞吐、高效率的方式訪問所有數(shù)據(jù)，不只是讀也包括寫。

上圖左側(cè)是 Pandas 算子，包含表連接、關(guān)聯(lián)、過濾、聚合等等，幾乎所有的數(shù)據(jù)分析常見的 Pandas 算子都支持。右邊是機(jī)器學(xué)習(xí)平臺(tái)數(shù)據(jù)處理部分的 55 個(gè)算子，有大量的文本處理、文本過濾、文本去重、文本計(jì)數(shù)等等，都是 MaxFrame 原生支持的算子。這些算子背后都做了性能和可擴(kuò)展性支持，用戶使用起來(lái)會(huì)非常簡(jiǎn)單。

這里是一個(gè)對(duì)比的例子，左側(cè)是開源的 RedPajama，在大模型場(chǎng)景下，端到端的，從數(shù)據(jù)的采集加工處理，到產(chǎn)出結(jié)果等七八個(gè)環(huán)節(jié)，每個(gè)環(huán)節(jié)有不同算子，以前是單機(jī)運(yùn)行，跑這一流程得需要 59 個(gè)小時(shí)。轉(zhuǎn)成 MaxFrame 之后僅用 1.3 小時(shí)即可跑完，對(duì)效率提升是非常明顯的。

Python 開發(fā)非常依賴于不同的版本管理，鏡像管理。一份作業(yè)里會(huì)依賴幾十個(gè)不同的 library，所以我們做了一套鏡像管理，包含內(nèi)置鏡像和自定義鏡像。內(nèi)置鏡像部分把很多主流的常見的數(shù)據(jù)分析，數(shù)據(jù)加工用到的 Python library 都做了內(nèi)置化，用戶引用就可以了。

講完加工的環(huán)節(jié)之后，接下來(lái)介紹數(shù)據(jù)服務(wù)環(huán)節(jié)，以向量檢索服務(wù)為例。這兩年向量數(shù)據(jù)庫(kù)特別火，但業(yè)界常存在一個(gè)困惑就是每家公司是應(yīng)該采購(gòu)一個(gè)專屬的向量數(shù)據(jù)庫(kù)，還是選一款帶有向量擴(kuò)展能力的通用分析數(shù)據(jù)庫(kù)。我們看到主流的云廠商大多采用后者，數(shù)據(jù)庫(kù)增加向量化檢索能力，通過與原生的 OLAP 能力結(jié)合，場(chǎng)景更豐富、開發(fā)更易用，用戶使用門檻更低。阿里云也是采用這種方式。

Hologres 是一款分布式的高性能的 OLAP 引擎。在 2020，Hologres 與達(dá)摩院合作，將高性能的向量化引擎 Proxima 集成到 SQL 引擎中，提供 SQL 查詢接口。Proxima，性能優(yōu)異，精度也高，計(jì)算效率非?？?，內(nèi)置多種檢索的算法。

當(dāng) Proxima 和 Hologres 結(jié)合在一起的時(shí)候，就能夠把 Hologres 強(qiáng)大的性能充分發(fā)揮出來(lái)。Hologres 是一個(gè)面向高并發(fā)、低延遲場(chǎng)景設(shè)計(jì)的一個(gè) OLAP 引擎，性能可以做到毫秒級(jí)的響應(yīng)。同時(shí)也滿足了易用性要求，因?yàn)椴恍枰獙W(xué)習(xí)新的接口，就是 SQL 接口，對(duì)于數(shù)據(jù)同學(xué)來(lái)說非常容易使用。

向量這件事情其實(shí)并不復(fù)雜，是把文本、圖片等轉(zhuǎn)化為向量數(shù)組，存儲(chǔ)在數(shù)據(jù)庫(kù)表中的一個(gè)字段，Hologres 在底層自動(dòng)構(gòu)建各類向量索引。向量計(jì)算廣泛應(yīng)用在推薦引擎，大模型推理等。

數(shù)據(jù)庫(kù)和向量融合在一起的好處在哪里呢？以前向量引擎只能做向量查詢，數(shù)據(jù)庫(kù)只能做結(jié)構(gòu)化查詢，現(xiàn)在把向量和數(shù)據(jù)庫(kù)放在一起，既可以做結(jié)構(gòu)化的過濾，也可以做向量化檢索，所以 SQL 語(yǔ)句寫起來(lái)就很簡(jiǎn)單，很多以前必須在專業(yè)的向量數(shù)據(jù)庫(kù)里做的事情，現(xiàn)在在一個(gè)通用數(shù)據(jù)庫(kù)里面就做好了，一個(gè) SQL 實(shí)現(xiàn)向量檢索、過濾、排序、去重等操作，真正實(shí)現(xiàn)了一個(gè)引擎，一份數(shù)據(jù)，多個(gè)場(chǎng)景。

以上介紹了數(shù)據(jù)平臺(tái)如何為 AI 提供支持，是 Data for AI 的視角，那么反過來(lái) AI 平臺(tái)怎么讓數(shù)據(jù)平臺(tái)變得更好用呢？今天所有的數(shù)據(jù)分析都在從 BI 演化到 BI 加 AI 的場(chǎng)景。

Copilot 從去年開始變?yōu)橹髁鳎琋L2SQL 是常見場(chǎng)景，它可以幫用戶寫 SQL，幫助用戶找表，幫助用戶更容易地診斷出 SQL 的錯(cuò)誤。阿里云推出了 DataWorks Copilot，在背后，工程師把很多 SQL 語(yǔ)料喂給 Copilot 的模型，希望產(chǎn)出一個(gè)好用的，更智能的 SQL Copilot 能力。

除了寫 SQL 的開發(fā)階段之外，分析階段更為重要，所以 DataWorks 和 DataV 也在做合作實(shí)現(xiàn)增強(qiáng)分析，這意味著過去以經(jīng)驗(yàn)為主的分析范式，將轉(zhuǎn)化為由機(jī)器做推斷。增強(qiáng)分析，可以自動(dòng)生成各種洞察，不同的報(bào)表，不同的視圖，不同的看數(shù)角度。

三、Data+AI 場(chǎng)景實(shí)踐分享

最后通過具體場(chǎng)景實(shí)踐來(lái)介紹一下數(shù)據(jù)平臺(tái)怎么用。

這是通義大模型的一個(gè)加工場(chǎng)景的簡(jiǎn)化版本，主要是在處理文本去重。主要環(huán)節(jié)包括數(shù)據(jù)采集、讀取、處理到模型訓(xùn)練。中間有很多小的環(huán)節(jié)，比如文本的去重、敏感詞的過濾、copy write 刪除、文本標(biāo)準(zhǔn)化等等，依賴了很多不同的 Python library。

文本去重的基本流程是，先做分詞，之后計(jì)算哈希值，然后求哈希近鄰。

我們的做法是，首先把依賴鏡像做一個(gè)好的鏡像管理，這個(gè)鏡像里邊的用戶很多依賴第三方的 library。不同的 python 的版本，不同 library 版本，大家要有共享的開發(fā)環(huán)境，所以首先要做鏡像管理，把這些依賴鏡像做成一個(gè)團(tuán)隊(duì)內(nèi)可以共享的。

之后是開發(fā)環(huán)節(jié)。右側(cè)部分是一段 demo 代碼，這段代碼最后不超過 100 行。初始化依賴 4-5 行代碼，初始化框架資源，身份認(rèn)證，就可以有幾行代碼做數(shù)據(jù)過濾，再有幾行代碼做分詞，背后通過 Pandas 開發(fā)接口。Pandas 接口里邊有各種各樣的數(shù)據(jù)轉(zhuǎn)換邏輯。這 100 行代碼，可以跑在幾乎無(wú)限擴(kuò)展的計(jì)算平臺(tái)之上，我們希望實(shí)現(xiàn)的效果是可以用小代碼快速迭代的方式，在更規(guī)?；?jì)算平臺(tái)上處理規(guī)模化的問題。分布式怎么調(diào)度，怎么容錯(cuò)，數(shù)據(jù)該怎么切分，怎么做并行化的切分，大量類似的工程化細(xì)節(jié)都由底層的大數(shù)據(jù)平臺(tái)來(lái)完成，可以大大提升效率。

如果不喜歡寫代碼，也可以用拖拽的方式，平臺(tái)提供了一個(gè)可拖拽的 pipeline 的組合方式，可以把整個(gè)計(jì)算流程中不同的算子以拖拽的方式組合在一起。

從通用場(chǎng)景來(lái)看，絕大部分性能都有 70% 到 90% 的提升，數(shù)據(jù)量越大，提升越明顯。同時(shí)環(huán)境準(zhǔn)備方面，我們反復(fù)強(qiáng)調(diào)工程一定要提效率，效率不一定都是計(jì)算效率，往往開發(fā)、調(diào)試、環(huán)境準(zhǔn)備會(huì)占用大量的精力，我們希望通過平臺(tái)來(lái)減少這部分的工作量，我們的數(shù)據(jù)平臺(tái)在這方面也實(shí)現(xiàn)了很好的效果。

最后對(duì)大數(shù)據(jù)AI 一體化的工作進(jìn)行一下總結(jié)。在本次分享中沒有專門講大數(shù)據(jù)做哪些事，也沒有專門講 AI 做哪些事，更多的是討論二者如何更好地集成。阿里云大數(shù)據(jù)平臺(tái) MaxCompute 做了非結(jié)構(gòu)化的元數(shù)據(jù)管理，支持 Python 開發(fā)語(yǔ)言，也讓 Python 可以跑在并行化的運(yùn)行環(huán)境里邊。還做了大量 IO 的優(yōu)化，調(diào)度的優(yōu)化，提供了很好的 notebook 交互式的開發(fā)環(huán)境，提供了鏡像管理的能力。這些工程化能力實(shí)現(xiàn)之后，可以實(shí)現(xiàn)大數(shù)據(jù)和 AI 之間的數(shù)據(jù)一體化、權(quán)限一體化和開發(fā)界面上的一體化。通過這些一體化，可以讓 AI 同學(xué)更熟悉數(shù)據(jù)平臺(tái)，也讓數(shù)據(jù)平臺(tái)同學(xué)可以更快地上手 AI 應(yīng)用。這正是我們希望實(shí)現(xiàn)的效果。

責(zé)任編輯：姜華來(lái)源： DataFunTalk

AI 大數(shù)據(jù)機(jī)器學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="tmchf"><track id="tmchf"></track></legend>