谷歌選擇自主構(gòu)建AI芯片的六大理由
譯文【51CTO.com快譯】長久以來,谷歌這類云廠商一直在利用由商用型英特爾PC硬件構(gòu)建的系統(tǒng)支持其數(shù)據(jù)中心。然而在處理AI類負(fù)載方面,互聯(lián)網(wǎng)巨頭卻選擇了另一條道路——開發(fā)其張量處理單元(簡稱TPU)。
但這又引發(fā)了新的問題:為何英特爾、高能與英偉達(dá)無法滿足谷歌數(shù)據(jù)中心的需求?
事實(shí)上,TPU并非如英特爾CPU或者英偉達(dá)GPU那樣屬于通用型設(shè)備,而是一類專門面向機(jī)器學(xué)習(xí)乃至其人工智能子集的特定應(yīng)用集成電路(簡稱ASIC)。過去幾年以來,負(fù)責(zé)語言翻譯、圖像識(shí)別、消費(fèi)者購買推薦等類型的機(jī)器學(xué)習(xí)方案正不斷涌現(xiàn),這意味著谷歌擁有大量數(shù)據(jù)以實(shí)現(xiàn)準(zhǔn)確的分析與預(yù)測(cè)。
機(jī)器學(xué)習(xí)分為兩大組成部分:訓(xùn)練與推理。訓(xùn)練是利用數(shù)據(jù)對(duì)預(yù)測(cè)模型進(jìn)行調(diào)整,包括通過數(shù)百萬自然語言示例幫助機(jī)器學(xué)習(xí)系統(tǒng)完成語言學(xué)習(xí)。在此之后,這套語言模型則可通過推斷完成具體推斷任務(wù)。訓(xùn)練與推斷皆運(yùn)行在神經(jīng)網(wǎng)絡(luò)之上——神經(jīng)網(wǎng)絡(luò)正是運(yùn)行在數(shù)據(jù)中心硬件之上負(fù)責(zé)實(shí)現(xiàn)機(jī)器學(xué)習(xí)的優(yōu)化軟件層。
TPU專門針對(duì)特定應(yīng)用的推理任務(wù)而設(shè)計(jì)。Google pain部門負(fù)責(zé)進(jìn)行機(jī)器學(xué)習(xí)研究,從而通過多項(xiàng)谷歌服務(wù)交付其學(xué)習(xí)與處理結(jié)果。然而隨著服務(wù)數(shù)量的不斷提升,相關(guān)負(fù)載亦在急劇增長。
正是這種日益增長的工作量催生出谷歌TPU——其能夠以更低成本與更低延遲向用戶提供語言翻譯及圖像搜索等能力。
以下為谷歌公司設(shè)計(jì)并構(gòu)建TPU的六大理由。
1. 性能優(yōu)勢(shì)
谷歌將TPU的性能與服務(wù)器級(jí)英特爾Haswell CPU與英偉達(dá)K80 GPU進(jìn)行了比較,并發(fā)現(xiàn)前者能夠在處理基準(zhǔn)代碼執(zhí)行方面(代表著95%的推理型工作負(fù)載)快15到30倍。
2. 物理空間優(yōu)勢(shì)
云數(shù)據(jù)中心相當(dāng)于IT工廠,其預(yù)算包括設(shè)備、占地、電力以及數(shù)據(jù)中心構(gòu)建成本。將盡可能多的處理能力容納在***功耗水平且發(fā)熱量***的最小空間內(nèi)無疑是實(shí)現(xiàn)成本優(yōu)化的核心。
六年前,當(dāng)用戶***開始使用自然語言識(shí)別代替手動(dòng)操作時(shí),谷歌工程師即估計(jì),每位用戶每天使用三分鐘的自然語言輸入即會(huì)令現(xiàn)有數(shù)據(jù)中心規(guī)模翻倍。正因?yàn)槿绱耍雀璨判枰蛟霻PU以繼續(xù)控制實(shí)現(xiàn)成本。
3. 功耗優(yōu)勢(shì)
降低功耗不僅能夠節(jié)約能源成本,同時(shí)亦可削減散熱成本。除了原始性能更強(qiáng)之外,TPU與CPU主機(jī)處理器的組合還能夠?qū)崿F(xiàn)能源效率提升。如下圖所示,TPU/CPU組合的每瓦性能水平在不同工作負(fù)載下可達(dá)到CPU/GPU組合的30到80倍。
4. TPU可解決特定應(yīng)用難題
英特爾的CPU與英偉達(dá)的GPU屬于通用系統(tǒng)芯片,專為廣泛應(yīng)用而設(shè)計(jì),長于進(jìn)行精確的浮點(diǎn)運(yùn)算。機(jī)器學(xué)習(xí)模型則能夠容忍精度較低的數(shù)學(xué)運(yùn)算,這意味著不再需要浮點(diǎn)運(yùn)算單元(簡稱FPU)。因此,TPU能夠在移除FPU的前提下與英特爾CPU及英偉達(dá)GPU提供同等精度的8 bit數(shù)學(xué)運(yùn)算結(jié)果。
矩陣代數(shù)數(shù)學(xué)正是大多數(shù)神經(jīng)網(wǎng)絡(luò)的運(yùn)作基礎(chǔ)。矩陣乘法單元(簡稱MMU)則為TPU的核心。薦包含執(zhí)行8 bit乘法與加法的256 x 256乘法累加器(簡稱MAC)。MMU每個(gè)運(yùn)算周期可執(zhí)行64000次加法。這意味著主頻為0.7 GHz的TPU可通過低精度矩陣數(shù)學(xué)優(yōu)化以及數(shù)據(jù)與結(jié)果面向MMU快速導(dǎo)入/移出的方式實(shí)現(xiàn)超越2.3 GHz英特爾CPU與1.5 GHz英偉達(dá)GPU的性能表現(xiàn)。
5.引導(dǎo)并激勵(lì)各芯片制造商構(gòu)建TPU
谷歌研究論文作者指出,商用計(jì)算產(chǎn)品在計(jì)算架構(gòu)層面的差異往往很小,因此TPU將成為特定架構(gòu)層面的重要原型設(shè)計(jì)方案。由杰出芯片工程師Norman Jouppi領(lǐng)導(dǎo)的工程團(tuán)隊(duì)在短短15個(gè)月中即完成了TPU交付,這一成果令人印象深刻。事實(shí)上,ASIC的制造需要巨額成本,而一旦在實(shí)際生產(chǎn)中發(fā)現(xiàn)錯(cuò)誤,則只能再次投入巨資以從頭開始。
盡管如此,英特爾與英偉達(dá)的開發(fā)、人才以及設(shè)計(jì)與制造資源已經(jīng)相當(dāng)雄厚,足以滿足ASIC的設(shè)計(jì)與制造要求。目前市場上的Amazon、谷歌、Facebook、IBM及微軟等企業(yè)客戶雖然規(guī)模龐大,但相較于通用CPU業(yè)務(wù),這部分需求仍然較為小眾。
正因?yàn)槿绱?,作為?duì)機(jī)器學(xué)習(xí)問題擁有深刻理解的谷歌公司開始大力強(qiáng)調(diào)TPU的重要意義。其同時(shí)發(fā)布了一系列研究論文,旨在推動(dòng)機(jī)器學(xué)習(xí)社區(qū)與芯片制造商間的對(duì)接層次,最終實(shí)現(xiàn)相關(guān)商業(yè)解決方案的大規(guī)模產(chǎn)出。
6.靈活的專利與知識(shí)產(chǎn)權(quán)
專利發(fā)明人Jouppi在美國專利局?jǐn)?shù)據(jù)庫中申請(qǐng)了一系列TPU相關(guān)專利。而作為相關(guān)專利的主要持有方,谷歌公司可以利用這一武器激勵(lì)芯片制造商投身這一業(yè)務(wù)領(lǐng)域。
目前Amazon、Facebook、谷歌、IBM以及微軟等領(lǐng)先機(jī)器學(xué)習(xí)企業(yè)客戶正積極引導(dǎo)芯片制造商開發(fā)特定產(chǎn)品以滿足其需求。為了實(shí)現(xiàn)這一目標(biāo),他們需要發(fā)布更新更快的計(jì)算架構(gòu)來推動(dòng)行業(yè)發(fā)展,最終讓更多企業(yè)積極使用AI方案。而AI企業(yè)客戶的增加亦會(huì)提升芯片制造商的參與積極性。谷歌的TPU很可能成為這一良性市場循環(huán)的重要基石。
原文標(biāo)題:6 reasons why Google built its own AI chip
原文作者:Steven Max Patterson
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】