大數(shù)據(jù)十問(wèn):落地、效率與開(kāi)發(fā),如何齊頭并進(jìn)?
眾所周知,數(shù)據(jù)、算法與算力是人工智能發(fā)展的三駕馬車。
過(guò)去的十年,是基于深度學(xué)習(xí)的「AI 大飛躍」,各類創(chuàng)新算法的迸發(fā)不斷帶來(lái)新的焦點(diǎn),算法突破成為 AI 研究者的集中攻堅(jiān)地。
然而,與時(shí)俱進(jìn),人們不斷發(fā)現(xiàn):隨著深度學(xué)習(xí)的日新月異,單單算法的飛躍已經(jīng)無(wú)法滿足 AI 整體的前進(jìn)需求。算法 / 模型的長(zhǎng)板,在數(shù)據(jù)、算力甚至應(yīng)用等因素的短板牽制下,也開(kāi)始寸步難行。
這其中,一個(gè)典型的例子是大模型的發(fā)展——盡管 AI 領(lǐng)域的研究者都清楚大模型的性能優(yōu)勢(shì)與未來(lái)潛力,知道大模型開(kāi)源對(duì) AI 發(fā)展的遠(yuǎn)大意義,但卻繞不過(guò)大模型開(kāi)源的一個(gè)兇猛的「攔路虎」:算力。
在數(shù)據(jù)端也同樣如此。不久前,AI 科技評(píng)論就報(bào)道過(guò)一項(xiàng)研究,其稱在 ??AI 研究??中,數(shù)據(jù)存量的增速遠(yuǎn)低于大模型訓(xùn)練數(shù)據(jù)集規(guī)模的增速;預(yù)計(jì) 2026 年之前,高質(zhì)量的數(shù)據(jù)源將會(huì)耗盡。
要知道,數(shù)據(jù)端的規(guī)模與質(zhì)量是決定 AI 模型最終性能高低與實(shí)際應(yīng)用表現(xiàn)的重要因素之一。比如,在近日大火的 AIGC 中,文本生成一側(cè)就受到數(shù)據(jù)端的限制與影響。在 2022 年,數(shù)據(jù)又重新進(jìn)入大眾視野。
那么,當(dāng)我們?cè)谡f(shuō)「大數(shù)據(jù)」的時(shí)候,我們應(yīng)該將目光投注到哪些關(guān)鍵的話題上?
近日,英特爾大數(shù)據(jù)技術(shù)全球 CTO 戴金權(quán)老師圍繞「大數(shù)據(jù)」的十個(gè)問(wèn)題給出了自己的觀點(diǎn)。戴金權(quán)博士是英特爾的院士,也是大數(shù)據(jù)領(lǐng)域的國(guó)際知名專家,同時(shí)兼具研究與落地的雙向視角,其觀點(diǎn)頗有啟發(fā)。
在開(kāi)始這場(chǎng)“大數(shù)據(jù)知識(shí)”盛宴之前,大家可以觀看這支3分鐘的精簡(jiǎn)短視頻,快問(wèn)快答形式讓您可以對(duì)本次訪談的重要片段先睹為快。
1
大數(shù)據(jù)究竟是什么?
顧名思義,大數(shù)據(jù)的關(guān)鍵核心,就是大量的數(shù)據(jù)。但同樣重要的是產(chǎn)生大量數(shù)據(jù)以后,對(duì)數(shù)據(jù)的存儲(chǔ)、分析處理、計(jì)算建模、人工智能等等一系列應(yīng)用,都可以算在大數(shù)據(jù)的范疇里。
大數(shù)據(jù)的“大”,首先指數(shù)據(jù)量比較大,最簡(jiǎn)單也最有挑戰(zhàn)的問(wèn)題是:當(dāng)我有這么大的數(shù)據(jù),怎樣進(jìn)行存儲(chǔ)?除了數(shù)據(jù)量大,對(duì)數(shù)據(jù)處理和計(jì)算的要求其實(shí)也是非常大的。這些都代表了大數(shù)據(jù)的大。
2
人工智能與大數(shù)據(jù):
先有雞還是先有蛋?
人工智能本身不是一個(gè)新概念。最近一次人工智能從某種意義上的復(fù)興,可能就是在2010年前后開(kāi)始,以深度學(xué)習(xí)為代表的一系列的算法,能夠在很多原來(lái)做不到的應(yīng)用上帶來(lái)非常好的效果。其中一個(gè)很大的促進(jìn)作用,就是今天有了大量的數(shù)據(jù),在大量數(shù)據(jù)的基礎(chǔ)上去學(xué)習(xí)非常大的深度學(xué)習(xí)的模型,可以提高模型的準(zhǔn)確率,從而使得模型從原來(lái)的可能不能用,到今天可以被用了,它的準(zhǔn)確率達(dá)到一定的程度,這樣就推動(dòng)了人工智能的發(fā)展。
3
AI與大數(shù)據(jù):落地更重要?
主持人:之前人工智能更關(guān)注性能,但最近人們更關(guān)注它的落地。對(duì)于大數(shù)據(jù),是否也存在類似的思維方式的轉(zhuǎn)變?
如何把人工智能技術(shù)從實(shí)驗(yàn)室應(yīng)用到真實(shí)生產(chǎn)生活環(huán)境中,意味著兩點(diǎn):
第一,它需要能夠和整個(gè)端到端的數(shù)據(jù)流很好的結(jié)合在一起,這樣才能真正對(duì)現(xiàn)實(shí)的生產(chǎn)生活產(chǎn)生影響;
第二,性能并不是孤立的,而要考慮整個(gè)端到端的性能,因?yàn)楹芏鄷r(shí)候你的瓶頸在你的端到端數(shù)據(jù)流里面的不同的地方,怎樣把整個(gè)端到端的性能進(jìn)行優(yōu)化,這是很關(guān)鍵的。
舉個(gè)例子,我們和韓國(guó)SK電訊有個(gè)合作,他們要對(duì)通訊網(wǎng)絡(luò)進(jìn)行分析,了解網(wǎng)絡(luò)質(zhì)量如何,并用人工智能的模型來(lái)進(jìn)行判斷。他們可能在一個(gè)很大的城市里有幾十萬(wàn)個(gè)基站,基站設(shè)備每秒鐘會(huì)產(chǎn)生非常多的網(wǎng)絡(luò)數(shù)據(jù)。這些數(shù)據(jù)在產(chǎn)生之后,要從分散在城市中的各個(gè)基站進(jìn)入到數(shù)據(jù)中心的大數(shù)據(jù)平臺(tái)里,然后進(jìn)行數(shù)據(jù)整理、分析、特征處理,然后去建模、訓(xùn)練,再根據(jù)模型去進(jìn)行推理,推理之后根據(jù)出來(lái)的結(jié)果,可能會(huì)得出某個(gè)地方的網(wǎng)絡(luò)質(zhì)量有問(wèn)題等等。
在這里,“端到端”是從開(kāi)始到結(jié)束,而且它是動(dòng)態(tài)的、每秒都會(huì)產(chǎn)生,并不是產(chǎn)生一次就結(jié)束了。
4
英特爾大數(shù)據(jù)平臺(tái)BigDL的
作用及開(kāi)發(fā)難點(diǎn)?
主持人:您在行業(yè)的代表性工作,就是關(guān)于大數(shù)據(jù)的平臺(tái)BigDL。能否請(qǐng)您簡(jiǎn)單介紹一下BigDL到底是什么?
用一句話來(lái)說(shuō),BigDL是英特爾開(kāi)源的一個(gè)“端到端”的大數(shù)據(jù)到AI的平臺(tái)、或者流水線。如我剛才所說(shuō),人工智能真正成功的重點(diǎn),是怎樣把實(shí)驗(yàn)室的算法、模型真正應(yīng)用到生產(chǎn)環(huán)境中。這就需要一個(gè)“端到端”的軟硬件平臺(tái),能夠讓用戶很方便地做這件事情,這是做BigDL的目的。
開(kāi)發(fā)這樣一個(gè)“端到端”大數(shù)據(jù)AI平臺(tái),當(dāng)然也遇到了一些重要的挑戰(zhàn)。
第一,需要把AI和現(xiàn)有的大數(shù)據(jù)生態(tài)系統(tǒng)進(jìn)行無(wú)縫連接。傳統(tǒng)上,用戶很多時(shí)候要從大數(shù)據(jù)平臺(tái)里進(jìn)行數(shù)據(jù)拷貝,然后移到另外一個(gè)深度學(xué)習(xí)的集群上,但這樣其實(shí)非常不高效。因此需要AI和大數(shù)據(jù)平臺(tái)的無(wú)縫連接。
第二,如何從單機(jī)的環(huán)境轉(zhuǎn)到分布式的計(jì)算環(huán)境。大規(guī)模的分布式計(jì)算是支撐AI或大數(shù)據(jù)的關(guān)鍵,但這對(duì)于一般的數(shù)據(jù)科學(xué)家是一個(gè)非常大的挑戰(zhàn)。
通常來(lái)說(shuō),數(shù)據(jù)科學(xué)家寫(xiě)完代碼,要把代碼扔過(guò)一堵無(wú)形的“墻”,墻那邊可能有個(gè)產(chǎn)品團(tuán)隊(duì)或工程團(tuán)隊(duì),根據(jù)實(shí)際場(chǎng)景進(jìn)行代碼重寫(xiě)。
而我們希望做到代碼不用重寫(xiě),原來(lái)能在筆記本上運(yùn)行的代碼,只需改一兩行代碼就能無(wú)縫地在大規(guī)模分布式的環(huán)境中進(jìn)行運(yùn)行,而實(shí)現(xiàn)這種方式有著極大的挑戰(zhàn)。
5
什么是開(kāi)發(fā)與部署中間的“墻”?
大多數(shù)情況下,數(shù)據(jù)科學(xué)家或者AI研究人員所使用的編程的模式和硬件環(huán)境,與大規(guī)模部署的現(xiàn)實(shí)環(huán)境是并不一致的。作為數(shù)據(jù)科學(xué)家或AI研究者,我喜歡在自己的電腦上面把數(shù)據(jù)拷過(guò)來(lái),然后在上面跑,并且在單機(jī)上把它的性能跑到最好、模型調(diào)得最好,這些是我關(guān)心的問(wèn)題。
但在生產(chǎn)環(huán)境中,數(shù)據(jù)來(lái)源非常多,可能有不同的數(shù)據(jù)系統(tǒng)接入進(jìn)來(lái),形成大數(shù)據(jù)流水線。然而,模型怎樣應(yīng)用到大數(shù)據(jù)流水線上,并不是研究人員關(guān)心的問(wèn)題。比如我有一個(gè)大規(guī)模的至強(qiáng)集群,我的數(shù)據(jù)、數(shù)據(jù)處理都在其中,此時(shí)怎樣把AI接入到這上面,很多時(shí)候研究人員是不關(guān)心的。這就導(dǎo)致了原型開(kāi)發(fā)和最終生產(chǎn)部署環(huán)節(jié)的脫節(jié),因此對(duì)開(kāi)發(fā)人員非常不友好、非常不高效。
大多數(shù)情況下,我們?cè)诠纠飼?huì)有一些數(shù)據(jù)科學(xué)家或AI研究人員是專注于研究先進(jìn)的算法;還有團(tuán)隊(duì)負(fù)責(zé)生產(chǎn)系統(tǒng)。這個(gè)生產(chǎn)系統(tǒng)包括軟硬件,很大程度上還是軟件應(yīng)用、大數(shù)據(jù)系統(tǒng)或APP,整個(gè)應(yīng)用要非常高效、非常穩(wěn)定、非常可擴(kuò)展,大規(guī)模地部署。
研發(fā)和部署很多時(shí)候一開(kāi)始注的點(diǎn)并不一樣,有很多厲害的AI研究人員,他們做了非常多的AI模型。但在下一步把模型運(yùn)行在生產(chǎn)系統(tǒng)或生產(chǎn)數(shù)據(jù)上看效果的時(shí)候,突然發(fā)現(xiàn)并沒(méi)有辦法很好的去對(duì)接生產(chǎn)系統(tǒng),于是這時(shí)候他就開(kāi)始關(guān)心這件事情了。所以,這個(gè)問(wèn)題對(duì)兩邊都存在。目前,還沒(méi)有一個(gè)特別好的軟件平臺(tái),能夠把這兩邊整個(gè)的需求統(tǒng)一在端到端的流水線上。
6
芯片公司,為何要做開(kāi)源平臺(tái)?
英特爾在開(kāi)源的社區(qū)和開(kāi)源的研發(fā)方面都有長(zhǎng)久的投入,從操作系統(tǒng)Linux,再到虛擬化,再到大數(shù)據(jù)、AI,其實(shí)英特爾在開(kāi)源方面做了非常大的工作。
開(kāi)源的目的是,一個(gè)健康活躍的開(kāi)源生態(tài)系統(tǒng),對(duì)整個(gè)的技術(shù)發(fā)展有非常大的推動(dòng)。BigDL的目的也是這樣,我們希望能夠幫大數(shù)據(jù)和AI 的生態(tài)系統(tǒng)做一個(gè)橋梁,幫助用戶更好地將大數(shù)據(jù)和AI的技術(shù)運(yùn)用在軟硬件平臺(tái)上。
今天來(lái)說(shuō),構(gòu)建這樣一個(gè)基礎(chǔ)軟件生態(tài)系統(tǒng),最好的方式是通過(guò)開(kāi)源,大家在里面可以有非常多創(chuàng)新和溝通交流。從BigDL的角度來(lái)說(shuō),我們作為一個(gè)開(kāi)源的項(xiàng)目,也是希望能夠把大數(shù)據(jù)生態(tài)系統(tǒng)和深度學(xué)習(xí)的生態(tài)系統(tǒng)做一個(gè)連接。
7
大數(shù)據(jù)、AI與超異構(gòu)
主持人:異構(gòu)計(jì)算目前非?;馃幔X(jué)得底層計(jì)算平臺(tái)應(yīng)該具備哪些特點(diǎn)、并且如何支撐大數(shù)據(jù)的處理呢?
這個(gè)問(wèn)題我覺(jué)得可以從兩方面來(lái)回答。
第一,BigDL希望做的是把大數(shù)據(jù)生態(tài)系統(tǒng)和人工智能生態(tài)進(jìn)行結(jié)合。我們針對(duì)分布式的至強(qiáng)CPU服務(wù)器集群來(lái)進(jìn)行大數(shù)據(jù)AI平臺(tái)的構(gòu)建,并在硬件上其實(shí)有非常多的優(yōu)化。雖然英特爾的至強(qiáng)CPU是一個(gè)通用處理器,但是里面其實(shí)有非常多的硬件指令是針對(duì)AI優(yōu)化的,比如在低精度INT8上的VNNI或者DL Boost,在下一代至強(qiáng)可擴(kuò)展處理器中的AMX的矩陣加速硬件。當(dāng)它成為通用CPU計(jì)算的一部分之后,用戶可以利用軟件進(jìn)行加速,從某種意義上獲得免費(fèi)的加速能力。從一些實(shí)踐中可以看到,這種軟硬件的結(jié)合,可以幫助用戶免費(fèi)得到十倍甚至更高的性能提升。
另外一方面,我們看到一個(gè)很重要的趨勢(shì)——異構(gòu),事實(shí)上我們認(rèn)為這是一個(gè)“超異構(gòu)”的趨勢(shì),因?yàn)橛兄浅6嗟男酒愋停瑥腇PGA到GPU再到ASIC加速器到IPU等等。所以怎樣通過(guò)一個(gè)非常好的軟件的抽象(比如英特爾的oneAPI就開(kāi)放了標(biāo)準(zhǔn)的軟件抽象),能夠?qū)⒉煌琗PU硬件加速和計(jì)算集成在統(tǒng)一的界面下,也讓上層軟件開(kāi)發(fā)更高效。這兩方面的工作我們都在進(jìn)行中。
8
BigDL的演進(jìn)
BigDL 的開(kāi)源是在2016年12月30日,在過(guò)去五六年的時(shí)間里,我們和社區(qū)里的很多用戶、合作伙伴做了非常多的合作。比如大規(guī)模的推薦系統(tǒng),大規(guī)模的時(shí)序分析的應(yīng)用,當(dāng)然也有很多計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等等方面的應(yīng)用。
舉一個(gè)和萬(wàn)事達(dá)卡的合作案例,他們有差不多20億的用戶和交易數(shù)據(jù),在大數(shù)據(jù)平臺(tái)上可能有幾千億的交易的記錄。當(dāng)他們使用非常大規(guī)模的CPU至強(qiáng)集群構(gòu)建大數(shù)據(jù)平臺(tái)之后,他們希望能夠在這些數(shù)據(jù)上構(gòu)建AI應(yīng)用,并對(duì)他們的交易數(shù)據(jù)進(jìn)行挖掘,產(chǎn)生各種各樣的模型等等。
利用BigDL,萬(wàn)事達(dá)卡的工程師得以在其大規(guī)模的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)上構(gòu)建了非常多“端到端”的AI應(yīng)用,從數(shù)據(jù)倉(cāng)庫(kù)端對(duì)數(shù)據(jù)進(jìn)行分析、抓取、特征處理、建模、訓(xùn)練,最大的應(yīng)用在幾百臺(tái)至強(qiáng)服務(wù)器上進(jìn)行大規(guī)模分布式的訓(xùn)練,差不多在5小時(shí)內(nèi)訓(xùn)練出一個(gè)大規(guī)模的AI模型,并提高他們各種AI的能力。
那么英特爾BigDL是否只能運(yùn)行在英特爾平臺(tái)上呢?答案是否定的。嚴(yán)格來(lái)說(shuō),BigDL并不是只運(yùn)行在英特爾平臺(tái)上,而是運(yùn)行在大數(shù)據(jù)的生態(tài)系統(tǒng)上。但大數(shù)據(jù)生態(tài)系統(tǒng)基本上都是運(yùn)行在X86的平臺(tái)上。當(dāng)然BigDL會(huì)為英特爾的至強(qiáng)服務(wù)器等做更多的優(yōu)化,來(lái)提高它的執(zhí)行效率。
9
大數(shù)據(jù)的發(fā)展愿景
從計(jì)算加速角度來(lái)說(shuō),面對(duì)硬件加速器,我們或許低估了軟件優(yōu)化的能力。很多軟件優(yōu)化的技術(shù),包括像低精度、多核多線程計(jì)算、量化方式等等,能夠很好地對(duì)AI整個(gè)計(jì)算效率帶來(lái)非常大的提升。
其實(shí)我們今天也做了很多工作,我們甚至愿意把他們稱之為軟件的AI加速器,這個(gè)“免費(fèi)加速器”如何與BigDL這種大規(guī)模分布式的環(huán)境相結(jié)合,不只是很好地做scale out水平擴(kuò)展,還可以很好地提升每個(gè)節(jié)點(diǎn)的計(jì)算效率,這是我們正在進(jìn)行中的大部分的工作。這件事情是非常重要的,一個(gè)生態(tài)系統(tǒng),必須要將各種技術(shù)能夠有機(jī)統(tǒng)一在一起,然后最終的目標(biāo)是給用戶帶來(lái)最大的價(jià)值。
我們有一個(gè)愿景叫「AI Everywhere」 ,就是「AI無(wú)所不在」。在將來(lái)的很多生活應(yīng)用中,都會(huì)使用大數(shù)據(jù)和AI來(lái)進(jìn)行分析,從而提升體驗(yàn)和生產(chǎn)效率。
從數(shù)據(jù)的角度來(lái)說(shuō),深度學(xué)習(xí)較大的局限在于進(jìn)行大量的監(jiān)督學(xué)習(xí)。很多人說(shuō):人工智能,有多少人工就有多少智能 —— 因?yàn)橐獙?duì)大量數(shù)據(jù)進(jìn)行標(biāo)簽、清洗。逐漸的大家意識(shí)到這個(gè)問(wèn)題,于是大量向自監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、或者說(shuō)元學(xué)習(xí)這樣的方式進(jìn)行轉(zhuǎn)移,并研究這些新的學(xué)習(xí)范式,怎樣提高數(shù)據(jù)的效率、減少人工干預(yù)。
在算法本身,一方面大模型是明顯的趨勢(shì),超大參數(shù)的模型能夠得到更好的效果;但是另一方面,這也會(huì)給計(jì)算帶來(lái)非常大的挑戰(zhàn)。當(dāng)模型變大以后,計(jì)算的整個(gè)效率其實(shí)是降低了。我覺(jué)得非常重要的點(diǎn)是如何利用遷移學(xué)習(xí)、或者利用新的學(xué)習(xí)范式,來(lái)把這種非超大規(guī)模的模型更好地利用到下游的任務(wù)上去,從而減少計(jì)算量并提高效率。
除了剛才提到的計(jì)算、數(shù)據(jù)和算法之外,還有一個(gè)很多人會(huì)忽視的關(guān)鍵地方,那就是開(kāi)發(fā)效率。不只是計(jì)算效率或數(shù)據(jù)效率,而是作為一個(gè)數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師或大數(shù)據(jù)工程師,他們的效率也是非常重要的,因?yàn)楹芏鄷r(shí)候到最后人比機(jī)器更貴。
怎樣提高開(kāi)發(fā)人員的開(kāi)發(fā)效率,不管是今天所謂的低代碼、無(wú)代碼的開(kāi)發(fā)方式,都值得探索。我可能更感興趣的是,作為一個(gè)寫(xiě)代碼的人,怎樣能夠有非常好的開(kāi)發(fā)環(huán)境。我們?cè)贐igDL做的工作可以說(shuō)是初步的嘗試,怎樣更好地讓今天的數(shù)據(jù)科學(xué)家和工程師在大規(guī)模的、非常復(fù)雜的算法、非常復(fù)雜的數(shù)據(jù)的這樣一個(gè)環(huán)境中非常高效地進(jìn)行開(kāi)發(fā),這也是推動(dòng)人工智能和大數(shù)據(jù)的一個(gè)重要方向。
10
大數(shù)據(jù)技能是否會(huì)成為
未來(lái)程序員的標(biāo)配?
我覺(jué)得大數(shù)據(jù)處理今天已經(jīng)是程序員的標(biāo)配了,基本上大多數(shù)開(kāi)發(fā)者、特別是在云端進(jìn)行應(yīng)用開(kāi)發(fā)的人,都會(huì)接觸到怎樣對(duì)數(shù)據(jù)進(jìn)行處理。只是怎樣把整個(gè)技術(shù)平臺(tái)和軟件平臺(tái)做得更加易用,這是一個(gè)難點(diǎn)。
另外一個(gè)難點(diǎn)就是說(shuō)今天的數(shù)據(jù)計(jì)算、人工智能、機(jī)器學(xué)習(xí)的算法,很多會(huì)成為標(biāo)準(zhǔn)化或者大家都需要使用的工具,但是新的技術(shù)的發(fā)展還是剛需。雖然人工智能、大數(shù)據(jù)很有用,但是還有很多缺陷,怎樣在新的技術(shù)方向上進(jìn)行突破,仍然是非常重要的一點(diǎn)。
彩蛋:英特爾院士對(duì)大數(shù)據(jù)學(xué)習(xí)的建議
大數(shù)據(jù)、人工智能是一個(gè)非常復(fù)雜的系統(tǒng),其實(shí)有很多不同的技術(shù)方向。給大家的建議來(lái)說(shuō)有三條。
第一,Linux創(chuàng)始人林納斯的一句話,“Talk is cheap,show me the code?!焙芏鄷r(shí)候當(dāng)你看到一個(gè)感興趣的方向,第一步應(yīng)該考慮怎樣能夠真正扎實(shí)地做點(diǎn)東西出來(lái)。哪怕去復(fù)現(xiàn)一個(gè)算法,在上面進(jìn)行一些改動(dòng),做一些新的東西,都可以。
第二,當(dāng)你做了好幾個(gè)項(xiàng)目之后,需要思考如何把這些工作展現(xiàn)給別人。要思考工作的體系是什么,整個(gè)趨勢(shì)是什么,能不能把我做的事情說(shuō)清楚,我做了什么,為什么做這個(gè),我解決什么問(wèn)題——這些思考很重要。
第三,有一句話和大家共勉:我們通常會(huì)高估自己一年能做什么,但低估自己十年能夠完成什么。很多人就會(huì)覺(jué)得,我認(rèn)認(rèn)真真做了一年、做了好幾個(gè)月,但并沒(méi)有太大進(jìn)展。其實(shí)只要你能夠按照這個(gè)方向真正堅(jiān)持做下去,過(guò)了五年,過(guò)了十年,你會(huì)發(fā)現(xiàn)你有非常大的收獲。