自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里云大數(shù)據(jù) AI 一體化優(yōu)秀實(shí)踐

人工智能
本文將探討在 AI 應(yīng)用數(shù)據(jù)處理場(chǎng)景,如何發(fā)揮大數(shù)據(jù)平臺(tái)的規(guī)模優(yōu)勢(shì),降低開發(fā)的復(fù)雜度,并分享阿里云在大數(shù)據(jù) AI 一體化方面的實(shí)踐經(jīng)驗(yàn)。

一、大數(shù)據(jù) AI 開發(fā)范式的演變

近年來(lái),機(jī)器學(xué)習(xí)備受關(guān)注,但開發(fā)流程上并沒有本質(zhì)的變化,依舊是從數(shù)據(jù)準(zhǔn)備到預(yù)處理,到模型的開發(fā)、訓(xùn)練,再到評(píng)估、上線,依次反復(fù)迭代。流程沒有本質(zhì)變化,但在不同階段所花費(fèi)的精力和時(shí)間正在發(fā)生變化。

圖片

隨著大模型等新型機(jī)器學(xué)習(xí)項(xiàng)目逐漸成為主流,機(jī)器學(xué)習(xí)項(xiàng)目從以模型為中心的開發(fā)范式,向以數(shù)據(jù)為中心的開發(fā)范式轉(zhuǎn)變。在過去,計(jì)算的算力有限,沒辦法低成本處理大規(guī)模數(shù)據(jù),更多是在模型上通過多次迭代調(diào)參處理各種過擬合、欠擬合等問題。當(dāng)時(shí)的機(jī)器學(xué)習(xí)訓(xùn)練非常依賴于數(shù)據(jù)的準(zhǔn)確性,依賴于標(biāo)注數(shù)據(jù)的質(zhì)量,而標(biāo)注數(shù)據(jù)的成本是非常高的。在 Transform 模型出現(xiàn)之后,工程師精力的中心從模型的調(diào)優(yōu)轉(zhuǎn)向了數(shù)據(jù)質(zhì)量的提升,不再完全依賴于標(biāo)注數(shù)據(jù)的獲取,這時(shí)數(shù)據(jù)平臺(tái)的效率就成為了整個(gè)開發(fā)流水線中的關(guān)鍵瓶頸。

圖片

最近大家經(jīng)常說,成功的機(jī)器學(xué)習(xí)項(xiàng)目,80% 來(lái)自于數(shù)據(jù)加工效率的改進(jìn),20% 來(lái)自于模型的優(yōu)化。當(dāng)然沒有算力不行,但光有算力也不行,所以公式就變成了算力+數(shù)據(jù)+模型。數(shù)據(jù)部分包括結(jié)構(gòu)化數(shù)據(jù)處理、非結(jié)構(gòu)化數(shù)據(jù)處理、海量文件數(shù)據(jù)處理等等。

圖片

大數(shù)據(jù) AI 一體化并不是今天才有的課題,已經(jīng)發(fā)展很久了。很多公司都在做的推薦系統(tǒng)就是一個(gè)典型的大數(shù)據(jù)+AI 的工作,要通過數(shù)據(jù)做標(biāo)簽化,形成特征庫(kù),訓(xùn)練推薦模型。推薦模型分很多版本,要不斷迭代,做各種 AB test,反復(fù)調(diào)整模型再持續(xù)上線。有些是離線的模型,有些是在線的,還有的是離在線一體的。

上圖中就是典型的實(shí)現(xiàn)路徑,也是阿里云上最經(jīng)典的解決方案,包括用 Flink 處理標(biāo)簽實(shí)時(shí)加工,通過 MaxCompute 處理離線批量數(shù)據(jù),然后通過 PAI-TF 進(jìn)行在線訓(xùn)練。訓(xùn)練出的模型在線服務(wù)之后要做指標(biāo)實(shí)時(shí)采集,以及多維度對(duì)比分析,多數(shù)交互式分析的場(chǎng)景使用 Hologres 這樣的 OLAP 工具,支持秒級(jí)的快速查詢響應(yīng)。

圖片

近一年時(shí)間里大模型成為焦點(diǎn),使用大模型的一個(gè)典型場(chǎng)景是各種公司都在建設(shè)專屬知識(shí)庫(kù)。阿里云的網(wǎng)站也做了類似的工作,在每個(gè)工單控制臺(tái)會(huì)有一個(gè)提問按鈕,以前提問的背后都是真人在服務(wù),服務(wù)響應(yīng)時(shí)間無(wú)法保證,現(xiàn)在工單第一輪會(huì)是智能機(jī)器人在服務(wù),它可以針對(duì)上下文和產(chǎn)品知識(shí)庫(kù),為用戶提供最有相關(guān)性、更準(zhǔn)確、更及時(shí)的回答。

具體做法是把相關(guān)的技術(shù)文檔、產(chǎn)品使用文檔做向量化處理,輸入到向量數(shù)據(jù)庫(kù)。當(dāng)用戶提出問題,會(huì)把問題做一定的改寫使其上下文更加豐富,并與向量數(shù)據(jù)庫(kù)做近似度匹配計(jì)算,把問題最相關(guān)的上下文文檔信息抽取出來(lái),再把這些文檔一起喂給大模型,讓大模型基于這些上下文相關(guān)文檔輸出一份準(zhǔn)確的、可理解的、有上下文的、可解讀的回答。在這個(gè)基本的流程中涉及到的技術(shù)包括了文本處理、向量數(shù)據(jù)庫(kù)、大模型等等。

圖片

然而實(shí)現(xiàn)這樣一個(gè)系統(tǒng)并不容易,要同時(shí)考慮成本、效率、運(yùn)維等多方因素,會(huì)遇到很多問題。第一個(gè)問題是研發(fā)階段割裂感非常強(qiáng),做數(shù)據(jù)的人和做 AI 的人往往屬于不同的團(tuán)隊(duì),使用不同的平臺(tái)和不同的開發(fā)語(yǔ)言,大家互相交流很困難。數(shù)據(jù)人喜歡做數(shù)倉(cāng)、做結(jié)構(gòu)化,聚焦元數(shù)據(jù)生產(chǎn)。而AI 同學(xué)往往基于 Python 開發(fā)語(yǔ)言在單機(jī)上做開發(fā),開發(fā)之后與數(shù)據(jù)不再做閉環(huán)交互,導(dǎo)致這份數(shù)據(jù)往往是單向流動(dòng),造成很多的數(shù)據(jù)割裂。

其次,效率也是個(gè)問題。大數(shù)據(jù)同學(xué)非常擅長(zhǎng)處理并行化分布式的問題,AI 同學(xué)往往更擅長(zhǎng)怎么把模型調(diào)參,在單機(jī)上跑足夠好。但如今重要的點(diǎn)不再是模型是否要反復(fù)調(diào)優(yōu),而是數(shù)據(jù)處理的量要上幾個(gè)數(shù)量級(jí),這時(shí)單機(jī)的算子是否還能適合新的場(chǎng)景,就是很大的問題,可能會(huì)遇到性能的瓶頸。

第三個(gè)是工程化的問題。過去公司數(shù)據(jù)平臺(tái),AI 平臺(tái)往往是因?yàn)椴煌膱?chǎng)景,不同的目的采購(gòu)不同的供應(yīng)商,平臺(tái)之間很難打通。很多公司采購(gòu)了很多系統(tǒng),用不同賬號(hào),不同權(quán)限,被不同人運(yùn)維,這樣會(huì)把公司平臺(tái)的脆弱性全部暴露出來(lái)。

最后是數(shù)據(jù)管理能力,這是整個(gè)項(xiàng)目的核心。由于系統(tǒng)上的割裂,很難看到一個(gè)全局的、統(tǒng)一的數(shù)據(jù)的治理能力。大數(shù)據(jù)平臺(tái)和 AI 開發(fā)平臺(tái)的元數(shù)據(jù)割裂也是不容易解決的問題。

圖片

大數(shù)據(jù) AI 一體化就是要解決上述問題。大數(shù)據(jù)平臺(tái)要做好幾件事情,包括統(tǒng)一的元數(shù)據(jù)管理,大規(guī)模的數(shù)據(jù)處理能力,分布式計(jì)算的算子,以及提供豐富的、海量的、彈性的計(jì)算資源。AI 平臺(tái)要提供統(tǒng)一的模型管理,可視化的建模流程,分布式的訓(xùn)練環(huán)境,以及豐富的 GPU 的資源。大數(shù)據(jù)與 AI 的結(jié)合就是一個(gè)互相支撐的過程,大數(shù)據(jù)平臺(tái)要為 AI 平臺(tái)做好數(shù)據(jù)支撐,AI 平臺(tái)則通過智能化的算法,讓數(shù)據(jù)平臺(tái)更好用。接下來(lái)將介紹阿里云在數(shù)據(jù)支撐和算法優(yōu)化上所做的工作。

二、阿里云大數(shù)據(jù) AI 一體化架構(gòu)演進(jìn)

圖片

上圖展示了阿里云所提供的解決方案,包括了基礎(chǔ)的資源層,中間的大數(shù)據(jù) AI 一體化 PaaS 平臺(tái)服務(wù)層,上層的模型服務(wù)層,最后是應(yīng)用層。其中大部分應(yīng)用和模型來(lái)自于我們的合作伙伴,藍(lán)色的部分是阿里云原生的產(chǎn)品和服務(wù),本文重點(diǎn)介紹的是其中數(shù)據(jù)平臺(tái)的部分,在豐富的計(jì)算資源之上提供一個(gè)易用的可擴(kuò)展的數(shù)據(jù)處理平臺(tái),同時(shí)和 AI 機(jī)器學(xué)習(xí)平臺(tái) PAI 集成、打通。

圖片

數(shù)據(jù)平臺(tái)核心的部分是 MaxCompute,以前的名字叫 ODPS,即 Open Data Processing Service,其中包含兩個(gè)主要的引擎,一個(gè)就是離線數(shù)倉(cāng) MaxCompute,另一個(gè)是實(shí)時(shí)數(shù)倉(cāng) Hologres。MaxCompute 是一款比 Spark 更易用,執(zhí)行效率更高,企業(yè)級(jí)能力更豐富的大數(shù)據(jù)平臺(tái)。

MaxCompute 經(jīng)歷了 15 年的迭代發(fā)展,在不同階段,著力解決的重點(diǎn)問題是有差異的。最早 09 年開始做這款產(chǎn)品的時(shí)候,是因?yàn)榘⒗锛瘓F(tuán)內(nèi)部有海量的數(shù)據(jù)要做分析,既要替換 Oracle 降低成本,又需要很強(qiáng)的擴(kuò)展性,支持當(dāng)時(shí)業(yè)務(wù)的快速發(fā)展。當(dāng)時(shí)做了 5K 項(xiàng)目,也就是單集群超過 5000 個(gè)節(jié)點(diǎn),解決集群的可擴(kuò)展問題,從此數(shù)據(jù)量不再是瓶頸。

17 年之后,開始做公有云服務(wù),做 Serverless,這實(shí)際上是對(duì)運(yùn)維方式的一個(gè)本質(zhì)性變革。其背后的挑戰(zhàn)非常大,比如升級(jí)怎么做到業(yè)務(wù)無(wú)感,無(wú)中斷,怎么做到流量分配均衡,怎么做到灰度和回滾等等。Serverless 背后是租戶體系的改革,一個(gè)集群服務(wù)一個(gè) Region 所有的用戶,所有類型的作業(yè)。

第三個(gè)階段是湖倉(cāng)一體的改造。這個(gè)時(shí)候我們發(fā)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)已經(jīng)無(wú)法滿足用戶的靈活性需求,有很多非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)需要管理和加工,有很多第三方的 Hadoop 集群需要被托管,需要更有質(zhì)量的數(shù)據(jù)治理,我們提出了湖倉(cāng)一體的架構(gòu),可以把基于開放存儲(chǔ),使用開放格式的數(shù)據(jù)統(tǒng)一納管到 MaxCompute 的元數(shù)據(jù)體系下。同時(shí)也做了離線實(shí)時(shí)一體,一個(gè)在線的交互式分析引擎 Hologres 和一個(gè)離線數(shù)據(jù)加工引擎 MaxCompute 之間的元數(shù)據(jù)和數(shù)據(jù)之間的集成。

從 2023 年開始走向下一個(gè)階段。這一階段的一個(gè)特征是我們提出了開放架構(gòu),我們希望數(shù)倉(cāng)應(yīng)該是開放的、多元的,在數(shù)倉(cāng)存儲(chǔ)層提供一個(gè) MaxCompute Storage API,第三方的計(jì)算引擎可以直接以原生的、底層的、高吞吐的方式訪問數(shù)倉(cāng)里的數(shù)據(jù)。過去數(shù)倉(cāng)是為性能優(yōu)化設(shè)計(jì)的,但今天不再是封閉的。其次我們也提出了 Data+AI 這樣一個(gè)解決方案,稍后會(huì)大家做進(jìn)一步解析。

圖片

MaxCompute 的核心形態(tài)是完全的 Serverless。上圖是來(lái)自于 Gartner 的分析報(bào)告,Serverless 分很多級(jí)別,體現(xiàn)在對(duì)資源共享的力度不同。從最原始的機(jī)器層面上的機(jī)器資源共享,到后來(lái)操作系統(tǒng)層面的共享、容器層面的共享、應(yīng)用層的共享、租戶的共享。一層層共享力度的提升,背后對(duì)于服務(wù)提供方來(lái)說,技術(shù)難度都是一個(gè)指數(shù)級(jí)的提升,但是對(duì)用戶來(lái)說,收益則會(huì)越來(lái)越大。通過資源復(fù)用,有機(jī)會(huì)把整個(gè)服務(wù)的成本降得足夠低,給用戶更低價(jià)格的計(jì)算服務(wù)。這對(duì)資源隔離要求更高,做系統(tǒng)升級(jí)的難度也更大。

MaxCompute 從設(shè)計(jì)之初就被定位為一個(gè) serverless 的產(chǎn)品,只有把運(yùn)維效率解決好,提高資源利用率,才能提供更有競(jìng)爭(zhēng)力的數(shù)據(jù)計(jì)算服務(wù)。除了成本之外,還有另外一個(gè)好處就是彈性。特別在機(jī)器學(xué)習(xí)場(chǎng)景下,只在部分時(shí)間有大量的資源需求,如果采購(gòu)一臺(tái)機(jī)器,有大部分時(shí)間閑置,是巨大的浪費(fèi)。所以機(jī)器學(xué)習(xí)場(chǎng)景下對(duì) Serverless 服務(wù)有很強(qiáng)的訴求。

圖片

接下來(lái)給大家講講 Data+AI 的解決方案,MaxCompute 針對(duì) AI 場(chǎng)景的創(chuàng)新主要包括以下幾大方面。

  • 首先是在數(shù)據(jù)管理層面上。數(shù)倉(cāng)是很擅長(zhǎng)處理結(jié)構(gòu)化數(shù)據(jù)的,但是在機(jī)器學(xué)習(xí)場(chǎng)景下,有大量的非結(jié)構(gòu)化數(shù)據(jù)、文件數(shù)據(jù)、圖像數(shù)據(jù)等等,所以我們?cè)诜墙Y(jié)構(gòu)化數(shù)據(jù)的管理上有了一些創(chuàng)新,引入了 Object Table 這種新型的表類型。
  • 其次是計(jì)算框架,我們推出了針對(duì) Python 開發(fā)的分布式執(zhí)行框架 MaxFrame。過去數(shù)據(jù)平臺(tái)往往是提供 SQL 接口來(lái)開發(fā),但數(shù)據(jù)科學(xué)家們最習(xí)慣使用 Python 及各類 Python 開源工具包。通過 MaxFrame,MaxCompute 數(shù)據(jù)平臺(tái)提供了 SQL+Python 雙引擎的能力,Python 成為數(shù)據(jù)平臺(tái)的一級(jí)開發(fā)語(yǔ)言。
  • 第三是提供了交互式的 Notebook 開發(fā)環(huán)境,這也是 AI 同學(xué)非常喜歡的開發(fā)環(huán)境,在 Notebook 里邊可以做交互式的驗(yàn)證和作業(yè)分享。
  • 最后是鏡像管理。Python 開發(fā)中版本管理、鏡像打包等一系列的工程問題也是效率的關(guān)鍵。

圖片

數(shù)據(jù)管理能力的演進(jìn)分為幾個(gè)階段。

第一個(gè)階段解決聯(lián)邦問題,當(dāng)數(shù)據(jù)交互雙方使用不同引擎時(shí),數(shù)據(jù)是否可以兼容,讓數(shù)據(jù)不搬遷,就可以實(shí)現(xiàn)聯(lián)邦查詢。希望以聯(lián)邦為中心,打通元數(shù)據(jù)管理,給用戶統(tǒng)一的元數(shù)據(jù)視圖和權(quán)限管理。

第二個(gè)階段,僅有聯(lián)邦不夠,希望不同的存儲(chǔ)格式,可以放在湖上提供一份數(shù)據(jù)多引擎的能力,所以第二階段做了湖倉(cāng)一體的能力,提高數(shù)據(jù)的易用性,提供原生的查詢的能力和元數(shù)據(jù)的管理能力。

第三個(gè)階段,越來(lái)越多的用戶提出非結(jié)構(gòu)化數(shù)據(jù)管理的需求。大量非結(jié)構(gòu)化數(shù)據(jù)作為輸入給很多 Python library 進(jìn)行向量化轉(zhuǎn)化,但是這些文件背后缺乏一個(gè)元數(shù)據(jù)管理能力,也很難進(jìn)行分布式計(jì)算,因此我們做了 Object Table 來(lái)解決這個(gè)問題。

圖片

Object Table 是一種新的表類型,用來(lái)處理非結(jié)構(gòu)化數(shù)據(jù)。其中存儲(chǔ)的是非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù),而不是數(shù)據(jù)本身。存儲(chǔ)的元數(shù)據(jù)包括文件的路徑、文件名、文件的大小、更新時(shí)間等等,還有不少可擴(kuò)展的 tag 值。

基于這些元數(shù)據(jù)可以做很多提升開發(fā)效率的事情,假如有 1000 萬(wàn)個(gè)文件,要交給一個(gè)大數(shù)據(jù)平臺(tái),希望平臺(tái)可以并行化處理這些文件,從 PDF 文件抽取文本。一種簡(jiǎn)單的做法是一個(gè)文件啟動(dòng)一個(gè)進(jìn)程,但是對(duì)于 1000 萬(wàn)個(gè)文件就要啟動(dòng) 1000 萬(wàn)個(gè)進(jìn)程,調(diào)度上開銷非常大。如果這些文件里邊有些文件可以跳過,可以忽略,比如太小的文件不打開,很長(zhǎng)時(shí)間沒人動(dòng)的文件可以跳過,其實(shí)有很多需要對(duì)元數(shù)據(jù)過濾的場(chǎng)景,過去沒有元數(shù)據(jù)信息,很難做這件事情,但現(xiàn)在表里面有元信息就可以處理。

還有就是并行化處理的問題,一個(gè)進(jìn)程處理一個(gè)文件,還是一個(gè)進(jìn)程處理 10 個(gè)文件,對(duì)吞吐的影響是非常大的,過去沒有元信息很難做,但現(xiàn)在有元信息之后 worker 可以進(jìn)行判斷。假設(shè)一個(gè) worker 可以處理 100 兆數(shù)據(jù),就可以把 100 兆數(shù)據(jù)以批量的形式作為輸入傳給一個(gè)進(jìn)程 worker 并行化處理,這樣整體處理的吞吐量會(huì)有本質(zhì)性的提升,這也是工程化非常常見的做法。

除了這些元數(shù)據(jù)管理之外,還有很多性能上的優(yōu)化,比如在海量小文件、碎片文件處理上有幾十倍的提效,在單一大文件的訪問 IO 上的也做了提效。

圖片

第二大創(chuàng)新是 MaxFrame,把 Python 的開發(fā)體驗(yàn)做到原生化。我們希望給用戶的心智是,在單機(jī)上本地開發(fā)的 Python 程序,基于主流的 Pandas 接口開發(fā)的,可以 100% 透明的遷移到 MaxFrame 平臺(tái)之上,可以享受平臺(tái)上可擴(kuò)展的計(jì)算算力,MaxFrame 提供并行化的計(jì)算能力。

用戶寫的 Python code 并不是針對(duì)分布場(chǎng)景,而是針對(duì)單機(jī)場(chǎng)景寫的。但數(shù)據(jù)的輸入來(lái)自于 MaxCompute 表的輸入,MaxFrame 會(huì)將算子并行化,運(yùn)行在不同的分布式節(jié)點(diǎn)之上,這也意味著在單機(jī)上跑的 Python 的作業(yè),以前要運(yùn)行幾十個(gè)小時(shí),現(xiàn)在可能僅需幾十分鐘,甚至更快。MaxFrame 的核心理念就是讓使用 Pandas 接口開發(fā)的數(shù)據(jù)分析、數(shù)據(jù)加工的程序,可以無(wú)縫的、透明的遷移到大數(shù)據(jù)平臺(tái)上。同時(shí)平臺(tái)做到了跟 MaxCompute 底層數(shù)據(jù)的原生打通,可以高吞吐、高效率的方式訪問所有數(shù)據(jù),不只是讀也包括寫。

圖片

上圖左側(cè)是 Pandas 算子,包含表連接、關(guān)聯(lián)、過濾、聚合等等,幾乎所有的數(shù)據(jù)分析常見的 Pandas 算子都支持。右邊是機(jī)器學(xué)習(xí)平臺(tái)數(shù)據(jù)處理部分的 55 個(gè)算子,有大量的文本處理、文本過濾、文本去重、文本計(jì)數(shù)等等,都是 MaxFrame 原生支持的算子。這些算子背后都做了性能和可擴(kuò)展性支持,用戶使用起來(lái)會(huì)非常簡(jiǎn)單。

圖片

這里是一個(gè)對(duì)比的例子,左側(cè)是開源的 RedPajama,在大模型場(chǎng)景下,端到端的,從數(shù)據(jù)的采集加工處理,到產(chǎn)出結(jié)果等七八個(gè)環(huán)節(jié),每個(gè)環(huán)節(jié)有不同算子,以前是單機(jī)運(yùn)行,跑這一流程得需要 59 個(gè)小時(shí)。轉(zhuǎn)成 MaxFrame 之后僅用 1.3 小時(shí)即可跑完,對(duì)效率提升是非常明顯的。

圖片

Python 開發(fā)非常依賴于不同的版本管理,鏡像管理。一份作業(yè)里會(huì)依賴幾十個(gè)不同的 library,所以我們做了一套鏡像管理,包含內(nèi)置鏡像和自定義鏡像。內(nèi)置鏡像部分把很多主流的常見的數(shù)據(jù)分析,數(shù)據(jù)加工用到的 Python library 都做了內(nèi)置化,用戶引用就可以了。

圖片

講完加工的環(huán)節(jié)之后,接下來(lái)介紹數(shù)據(jù)服務(wù)環(huán)節(jié),以向量檢索服務(wù)為例。這兩年向量數(shù)據(jù)庫(kù)特別火,但業(yè)界常存在一個(gè)困惑就是每家公司是應(yīng)該采購(gòu)一個(gè)專屬的向量數(shù)據(jù)庫(kù),還是選一款帶有向量擴(kuò)展能力的通用分析數(shù)據(jù)庫(kù)。我們看到主流的云廠商大多采用后者,數(shù)據(jù)庫(kù)增加向量化檢索能力,通過與原生的 OLAP 能力結(jié)合,場(chǎng)景更豐富、開發(fā)更易用,用戶使用門檻更低。阿里云也是采用這種方式。

Hologres 是一款分布式的高性能的 OLAP 引擎。在 2020,Hologres 與達(dá)摩院合作,將高性能的向量化引擎 Proxima 集成到 SQL 引擎中,提供 SQL 查詢接口。Proxima,性能優(yōu)異,精度也高,計(jì)算效率非???,內(nèi)置多種檢索的算法。

當(dāng) Proxima 和 Hologres 結(jié)合在一起的時(shí)候,就能夠把 Hologres 強(qiáng)大的性能充分發(fā)揮出來(lái)。Hologres 是一個(gè)面向高并發(fā)、低延遲場(chǎng)景設(shè)計(jì)的一個(gè) OLAP 引擎,性能可以做到毫秒級(jí)的響應(yīng)。同時(shí)也滿足了易用性要求,因?yàn)椴恍枰獙W(xué)習(xí)新的接口,就是 SQL 接口,對(duì)于數(shù)據(jù)同學(xué)來(lái)說非常容易使用。

圖片

向量這件事情其實(shí)并不復(fù)雜,是把文本、圖片等轉(zhuǎn)化為向量數(shù)組,存儲(chǔ)在數(shù)據(jù)庫(kù)表中的一個(gè)字段,Hologres 在底層自動(dòng)構(gòu)建各類向量索引。向量計(jì)算廣泛應(yīng)用在推薦引擎,大模型推理等。

圖片

數(shù)據(jù)庫(kù)和向量融合在一起的好處在哪里呢?以前向量引擎只能做向量查詢,數(shù)據(jù)庫(kù)只能做結(jié)構(gòu)化查詢,現(xiàn)在把向量和數(shù)據(jù)庫(kù)放在一起,既可以做結(jié)構(gòu)化的過濾,也可以做向量化檢索,所以 SQL 語(yǔ)句寫起來(lái)就很簡(jiǎn)單,很多以前必須在專業(yè)的向量數(shù)據(jù)庫(kù)里做的事情,現(xiàn)在在一個(gè)通用數(shù)據(jù)庫(kù)里面就做好了,一個(gè) SQL 實(shí)現(xiàn)向量檢索、過濾、排序、去重等操作,真正實(shí)現(xiàn)了一個(gè)引擎,一份數(shù)據(jù),多個(gè)場(chǎng)景。

圖片

以上介紹了數(shù)據(jù)平臺(tái)如何為 AI 提供支持,是 Data for AI 的視角,那么反過來(lái) AI 平臺(tái)怎么讓數(shù)據(jù)平臺(tái)變得更好用呢?今天所有的數(shù)據(jù)分析都在從 BI 演化到 BI 加 AI 的場(chǎng)景。

Copilot 從去年開始變?yōu)橹髁鳎琋L2SQL 是常見場(chǎng)景,它可以幫用戶寫 SQL,幫助用戶找表,幫助用戶更容易地診斷出 SQL 的錯(cuò)誤。阿里云推出了 DataWorks Copilot,在背后,工程師把很多 SQL 語(yǔ)料喂給 Copilot 的模型,希望產(chǎn)出一個(gè)好用的,更智能的 SQL Copilot 能力。


圖片

除了寫 SQL 的開發(fā)階段之外,分析階段更為重要,所以 DataWorks 和 DataV 也在做合作實(shí)現(xiàn)增強(qiáng)分析,這意味著過去以經(jīng)驗(yàn)為主的分析范式,將轉(zhuǎn)化為由機(jī)器做推斷。增強(qiáng)分析,可以自動(dòng)生成各種洞察,不同的報(bào)表,不同的視圖,不同的看數(shù)角度。

三、Data+AI 場(chǎng)景實(shí)踐分享

最后通過具體場(chǎng)景實(shí)踐來(lái)介紹一下數(shù)據(jù)平臺(tái)怎么用。

圖片

這是通義大模型的一個(gè)加工場(chǎng)景的簡(jiǎn)化版本,主要是在處理文本去重。主要環(huán)節(jié)包括數(shù)據(jù)采集、讀取、處理到模型訓(xùn)練。中間有很多小的環(huán)節(jié),比如文本的去重、敏感詞的過濾、copy write 刪除、文本標(biāo)準(zhǔn)化等等,依賴了很多不同的 Python library。

圖片

文本去重的基本流程是,先做分詞,之后計(jì)算哈希值,然后求哈希近鄰。

圖片

我們的做法是,首先把依賴鏡像做一個(gè)好的鏡像管理,這個(gè)鏡像里邊的用戶很多依賴第三方的 library。不同的 python 的版本,不同 library 版本,大家要有共享的開發(fā)環(huán)境,所以首先要做鏡像管理,把這些依賴鏡像做成一個(gè)團(tuán)隊(duì)內(nèi)可以共享的。

圖片

之后是開發(fā)環(huán)節(jié)。右側(cè)部分是一段 demo 代碼,這段代碼最后不超過 100 行。初始化依賴 4-5 行代碼,初始化框架資源,身份認(rèn)證,就可以有幾行代碼做數(shù)據(jù)過濾,再有幾行代碼做分詞,背后通過 Pandas 開發(fā)接口。Pandas 接口里邊有各種各樣的數(shù)據(jù)轉(zhuǎn)換邏輯。這 100 行代碼,可以跑在幾乎無(wú)限擴(kuò)展的計(jì)算平臺(tái)之上,我們希望實(shí)現(xiàn)的效果是可以用小代碼快速迭代的方式,在更規(guī)?;?jì)算平臺(tái)上處理規(guī)模化的問題。分布式怎么調(diào)度,怎么容錯(cuò),數(shù)據(jù)該怎么切分,怎么做并行化的切分,大量類似的工程化細(xì)節(jié)都由底層的大數(shù)據(jù)平臺(tái)來(lái)完成,可以大大提升效率。

圖片

如果不喜歡寫代碼,也可以用拖拽的方式,平臺(tái)提供了一個(gè)可拖拽的 pipeline 的組合方式,可以把整個(gè)計(jì)算流程中不同的算子以拖拽的方式組合在一起。

圖片

從通用場(chǎng)景來(lái)看,絕大部分性能都有 70% 到 90% 的提升,數(shù)據(jù)量越大,提升越明顯。同時(shí)環(huán)境準(zhǔn)備方面,我們反復(fù)強(qiáng)調(diào)工程一定要提效率,效率不一定都是計(jì)算效率,往往開發(fā)、調(diào)試、環(huán)境準(zhǔn)備會(huì)占用大量的精力,我們希望通過平臺(tái)來(lái)減少這部分的工作量,我們的數(shù)據(jù)平臺(tái)在這方面也實(shí)現(xiàn)了很好的效果。

圖片

最后對(duì)大數(shù)據(jù)AI 一體化的工作進(jìn)行一下總結(jié)。在本次分享中沒有專門講大數(shù)據(jù)做哪些事,也沒有專門講 AI 做哪些事,更多的是討論二者如何更好地集成。阿里云大數(shù)據(jù)平臺(tái) MaxCompute 做了非結(jié)構(gòu)化的元數(shù)據(jù)管理,支持 Python 開發(fā)語(yǔ)言,也讓 Python 可以跑在并行化的運(yùn)行環(huán)境里邊。還做了大量 IO 的優(yōu)化,調(diào)度的優(yōu)化,提供了很好的 notebook 交互式的開發(fā)環(huán)境,提供了鏡像管理的能力。這些工程化能力實(shí)現(xiàn)之后,可以實(shí)現(xiàn)大數(shù)據(jù)和 AI 之間的數(shù)據(jù)一體化、權(quán)限一體化和開發(fā)界面上的一體化。通過這些一體化,可以讓 AI 同學(xué)更熟悉數(shù)據(jù)平臺(tái),也讓數(shù)據(jù)平臺(tái)同學(xué)可以更快地上手 AI 應(yīng)用。這正是我們希望實(shí)現(xiàn)的效果。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2024-03-25 08:15:02

數(shù)據(jù)分析AI 一體化大數(shù)據(jù)

2023-12-20 07:35:03

大模型數(shù)據(jù)治理機(jī)器學(xué)習(xí)

2022-03-15 10:00:00

美團(tuán)數(shù)據(jù)治理

2023-07-19 22:13:25

一體化推送平臺(tái)

2016-11-07 12:36:18

2018-08-07 09:02:02

開發(fā)運(yùn)維 實(shí)踐

2012-05-07 17:09:52

2017-04-26 21:08:22

研發(fā)協(xié)同云

2009-09-07 23:09:17

2024-05-14 08:03:31

SaaS 服務(wù)云原生AI 一體架構(gòu)

2022-08-18 11:12:51

Cloudera?數(shù)據(jù)湖倉(cāng)SaaS

2023-11-16 13:24:39

OceanBase數(shù)據(jù)庫(kù)

2017-10-18 22:46:57

數(shù)據(jù)中心網(wǎng)絡(luò)通信技術(shù)

2022-12-20 17:38:02

紫光云

2022-03-18 10:09:14

Prometheus微服務(wù)架構(gòu)

2011-05-24 09:26:02

有線無(wú)線3G

2009-08-17 22:32:25

IT運(yùn)維管理監(jiān)控運(yùn)維一體化摩卡

2014-07-26 14:44:01

Databricks連城Spark
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)