面向AI Everywhere:英特爾在人工智能領(lǐng)域的突圍
原創(chuàng)【51CTO.com原創(chuàng)稿件】隨著云計(jì)算、大數(shù)據(jù)、5G和物聯(lián)網(wǎng)技術(shù)的普及,人工智能也在加速發(fā)展,大眾對(duì)于人臉識(shí)別、視頻監(jiān)控、工業(yè)質(zhì)檢、遠(yuǎn)程維護(hù)等AI應(yīng)用場(chǎng)景也算得上耳熟能詳。但事實(shí)上,AI發(fā)展遠(yuǎn)非一帆風(fēng)順,其落地之路一直是荊棘叢生。
首先,如何在海量數(shù)據(jù)中構(gòu)建更高效的數(shù)據(jù)集,從而在更短時(shí)間內(nèi)獲得更好的訓(xùn)練效果是一大挑戰(zhàn);其次,人工智能技術(shù)本身的賦能屬性會(huì)使其和業(yè)務(wù)場(chǎng)景深度深度結(jié)合,如何基于場(chǎng)景加速AI模型的構(gòu)建是關(guān)鍵;再者,較大的模型才有可能獲得較好的準(zhǔn)確度,但大模型往往也對(duì)硬件的算力提出了更高的技術(shù)要求;還有,如何通過軟硬件協(xié)同優(yōu)化加速AI部署,也是影響AI大規(guī)模落地的要義。
從中不難窺見,圍繞著“數(shù)據(jù)、算法、算力”三要素,人工智能應(yīng)用開發(fā)的整個(gè)過程可以說環(huán)環(huán)相扣。無論是數(shù)據(jù)處理,還是建模、訓(xùn)練,抑或部署,針對(duì)每個(gè)具體步驟進(jìn)行細(xì)節(jié)優(yōu)化,才有可能真正突破瓶頸,加速AI落地。當(dāng)然這一切都離不開底層技術(shù)供應(yīng)商的支持。
在日前舉行的英特爾 On技術(shù)創(chuàng)新峰會(huì)上,英特爾基于一系列創(chuàng)新發(fā)布向大眾描繪了一張“AI Everywhere”的愿景圖。英特爾在開發(fā)者生態(tài)系統(tǒng)、工具、技術(shù)和開放平臺(tái)上的深度投資,正在為人工智能的普及掃清道路。
???
數(shù)據(jù)基礎(chǔ)設(shè)施的優(yōu)化革新
數(shù)據(jù)是人工智能的基石。如果能在更短時(shí)間內(nèi)將數(shù)據(jù)變?yōu)槎床?,?duì)于人工智能的開發(fā)而言無疑事半功倍。
在數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)方面,英特爾早有布局。開源開發(fā)平臺(tái)BigDL臺(tái)簡(jiǎn)化了Spark生產(chǎn)環(huán)境中的端到端分布式大數(shù)據(jù)和人工智能管線,利用Apache Spark幫助用戶無縫擴(kuò)展、數(shù)據(jù)預(yù)處理和Tensorflow或PyTorch建模,縮短了構(gòu)建解決方案的時(shí)間,并為推薦系統(tǒng)、時(shí)序分析、隱私、保護(hù)機(jī)器學(xué)習(xí)等對(duì)象提供面向行業(yè)特定應(yīng)用的數(shù)據(jù)管線。BigDL目前已被Mastercard、Burger King、SK Telecom等廠商應(yīng)用于生產(chǎn)環(huán)境中,其應(yīng)用規(guī)模還在不斷增大。
在數(shù)據(jù)預(yù)處理方面,英特爾對(duì)相關(guān)工具進(jìn)行了優(yōu)化。開源庫(kù)Modin能夠使Pandas應(yīng)用程序加速多達(dá)20倍,通過Jupyter Notebook幾乎可以實(shí)現(xiàn)從PC到云的無限擴(kuò)展;對(duì)于熱門的Python數(shù)學(xué)庫(kù)NumPy和SciPy,英特爾也做了針對(duì)性優(yōu)化,使用oneMKL等oneAPI核心構(gòu)建基塊將線性代數(shù)、快速傅里葉變換隨機(jī)數(shù)生成器及elementwise函數(shù)的速度提升達(dá)100倍。
算力加速度:硬件平臺(tái)的“魚與熊掌”兼得
隨著應(yīng)用的復(fù)雜性不斷增加,單純堆積CPU內(nèi)核已經(jīng)無法滿足應(yīng)用程序?qū)τ谛阅?、功耗、成本的要求。人們開始使用越來越多的傾向于各種非CPU計(jì)算單元。作為老牌芯片廠商,英特爾近年來在AI硬件領(lǐng)域的投入取得了“魚與熊掌”兼得的成果。
在硬件平臺(tái)的構(gòu)建上,英特爾已經(jīng)打造了一個(gè)完整的XPU平臺(tái)——從CPU到GPU到FPGA再到深度學(xué)習(xí)專用加速器,適用于各種類型的AI需求。
在新近的數(shù)代產(chǎn)品中,英特爾的每個(gè)CPU核心均增添了內(nèi)置AI加速能力,無需任何獨(dú)立加速器即可貼合一般用戶需求。值得關(guān)注的是,在本次會(huì)議上,英特爾宣布,其目標(biāo)是到2022年將英特爾至強(qiáng)可擴(kuò)展處理器的人工智能性能提高30倍。據(jù)悉,下一代英特爾至強(qiáng)可擴(kuò)展處理器(代號(hào)“Sapphire Rapids”)將利用內(nèi)置高級(jí)矩陣擴(kuò)展(AMX)引擎,英特爾?神經(jīng)壓縮機(jī)(INC),以及基于oneAPI開放行業(yè)標(biāo)準(zhǔn)的oneDNN優(yōu)化,進(jìn)一步提升計(jì)算性能。
除了內(nèi)置AI加速的通用CPU,英特爾在GPU平臺(tái)建設(shè)上同樣有不俗表現(xiàn)。Ponte Vecchio可對(duì)AI、HPC和高級(jí)分析工作負(fù)載進(jìn)行加載。其新型微架構(gòu)專為可拓展性而構(gòu)建,能夠?qū)⒍喾N內(nèi)部和外部制程技術(shù)與先進(jìn)的封裝技術(shù)相結(jié)合,從而量身定制產(chǎn)品。
此外,基于業(yè)界對(duì)于深度學(xué)習(xí)訓(xùn)練的需求不斷增長(zhǎng),深度學(xué)習(xí)訓(xùn)練模型為提高準(zhǔn)確性也變得越來越大,訓(xùn)練這些模型導(dǎo)致計(jì)算消耗和相關(guān)成本呈指數(shù)級(jí)飆升,市場(chǎng)對(duì)于專用深度學(xué)習(xí)訓(xùn)練處理器也日益迫切。在這一背景下,英特爾又推出了Habana Gaudi處理器。這個(gè)取自畫家之名的處理器可以在云端和數(shù)據(jù)中心提高深度學(xué)習(xí)訓(xùn)練效率。據(jù)資料顯示,Gaudi加速器提高了Amazon EC2訓(xùn)練實(shí)例的效率,與目前基于GPU的實(shí)例相比,性能比最多可提高40%。
開發(fā)者福音:通向跨架構(gòu)編程的可能
當(dāng)硬件體系漸趨完善,GPU、FPGA以及各種針對(duì)不同應(yīng)用而開發(fā)的專用芯片與CPU一起組成復(fù)雜的異構(gòu)平臺(tái)時(shí),新的問題應(yīng)運(yùn)而生。
一般而言,要發(fā)揮這種異構(gòu)平臺(tái)的性能,開發(fā)者需要深入了解底層硬件的體系結(jié)構(gòu),以便針對(duì)性的利用各個(gè)異構(gòu)單元的優(yōu)勢(shì)。但事實(shí)上,在普通的軟件工程師或算法工程師群體中,能夠了解和掌握這些硬件相關(guān)的開發(fā)知識(shí)的人往往寥寥無幾。
針對(duì)這一點(diǎn),英特爾推出了oneAPI工具包。oneAPI早在2018年底舉行的英特爾架構(gòu)日上就已亮相,其在英特爾生態(tài)布局中的地位不言而喻。
oneAPI提供了一個(gè)統(tǒng)一的軟件編程接口,這使得應(yīng)用程序開發(fā)者可以專注于算法和應(yīng)用的開發(fā),而無需關(guān)心太多底層細(xì)節(jié)的實(shí)現(xiàn)。除了編程接口外,oneAPI還會(huì)包含完整的開發(fā)環(huán)境、軟件庫(kù)、驅(qū)動(dòng)程序、調(diào)試工具等要素,而且這些加速庫(kù)都已經(jīng)針對(duì)底層硬件進(jìn)行了優(yōu)化設(shè)計(jì)。以Neural Compressor為例,作為一種開源Python庫(kù),它可以跨多個(gè)面向CPU和GPU的英特爾優(yōu)化深度學(xué)習(xí)框架自動(dòng)進(jìn)行模型壓縮,將優(yōu)化時(shí)間縮短達(dá)一個(gè)數(shù)量級(jí)。
對(duì)開發(fā)者來說,oneAPI提供的是一種通用、開放的編程體驗(yàn),讓開發(fā)者可以自由選擇架構(gòu),而無需在性能上作出妥協(xié),同時(shí)也大大降低了使用不同的代碼庫(kù)、編程語言、編程工具和工作流程所帶來的復(fù)雜性。
部署神器OpenVINO的的進(jìn)化
在人工智能領(lǐng)域,只有同時(shí)提供硬件和軟件生態(tài),才能在激烈的競(jìng)爭(zhēng)中殺出一席之地。為了充分挖掘處理器的性能,各個(gè)廠家都發(fā)布了各種軟件框架和工具。OpenVINO是英特爾推出的一款全面的工具套件,用于快速部署應(yīng)用和解決方案。
通常人工智能應(yīng)用開發(fā)中,當(dāng)模型訓(xùn)練結(jié)束,上線部署時(shí)會(huì)遇到各種問題:模型性能是否滿足線上要求?模型如何嵌入到原有工程系統(tǒng)?這些問題在很大程度上決定著投資回報(bào)率。只有深入且準(zhǔn)確地理解深度學(xué)習(xí)框架,才能更好地滿足上線要求。但遺憾的是,新的算法模型和所用框架層出不窮,要求開發(fā)者隨時(shí)掌握未免強(qiáng)人所難。
OpenVINO針對(duì)的就是這一痛點(diǎn)。作為Pipeline工具集,OpenVINO可以兼容各種開源框架訓(xùn)練好的模型,擁有算法模型上線部署的各種能力。這就意味著,只要掌握了這一工具,你可以輕松地將預(yù)訓(xùn)練模型在英特爾的CPU上快速部署起來。
在歷時(shí)三年多的時(shí)間里,OpenVINO在不斷改進(jìn)中。據(jù)了解,OpenVINO2022.1的2.0版本將在第一季度發(fā)布。這一版本有三大突破:
其一,針對(duì)給開發(fā)人員造成的問題進(jìn)行重要升級(jí),包括將更多默認(rèn)值合并到模型轉(zhuǎn)換,API內(nèi)保留原有架構(gòu)內(nèi)的模型輸入布局和精度,從而減少代碼更改;
其二,從根源上改進(jìn)了OpenVINO在計(jì)算機(jī)視覺方面的表現(xiàn),使其現(xiàn)在可支持橫跨從邊緣到云端的廣泛模型,尤其是自然語言處理和文本分類;
其三,新增自動(dòng)硬件目標(biāo)優(yōu)化功能,全新自動(dòng)插件可以自動(dòng)發(fā)現(xiàn)系統(tǒng)加速器并與推理模型要求進(jìn)行匹配,這大大優(yōu)化了延遲與吞吐量。
結(jié)語
在本屆英特爾 On技術(shù)創(chuàng)新峰會(huì)上,英特爾面向人工智能領(lǐng)域展現(xiàn)出了一種鮮明的態(tài)度:不是要將某幾個(gè)硬件產(chǎn)品做強(qiáng),而是要面向AI市場(chǎng),提供從硬件到軟件的全棧解決方案。英特爾投資多個(gè)人工智能架構(gòu)以滿足不同的用戶需求,使用開放的基于標(biāo)準(zhǔn)的編程模型,使開發(fā)人員更容易在更多的用例中運(yùn)行更多的人工智能工作負(fù)載。
在人工智能這一賽道上,英特爾也為其他同業(yè)競(jìng)爭(zhēng)者樹立了標(biāo)桿:在原有的硬件開發(fā)能力基礎(chǔ)上,通過對(duì)英特爾至強(qiáng)可擴(kuò)展處理器上的流行庫(kù)和框架進(jìn)行廣泛優(yōu)化,使開發(fā)人員更容易獲得和擴(kuò)展AI。英特爾致力于攜手合作伙伴、擁抱開發(fā)者,共建AI創(chuàng)新生態(tài),共創(chuàng)“AI Everywhere”的圖景。無盡的遠(yuǎn)方,有觸手可及的未來。
??點(diǎn)擊了解更多英特爾On技術(shù)創(chuàng)新峰會(huì)??
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】