自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

剛剛,F(xiàn)acebook把服務(wù)27億人的AI硬件系統(tǒng)開源了

新聞 人工智能
在開放計算項目全球峰會上,F(xiàn)acebook 技術(shù)策略主管Vijay Rao 開源了全新的AI 硬件。

一直以來,社區(qū)對Facebook 的硬件研究比較關(guān)注。在今日的開放計算項目全球峰會上,F(xiàn)acebook 技術(shù)策略主管Vijay Rao 開源了全新的AI 硬件:面向AI 訓(xùn)練與推理的硬件系統(tǒng)Zion 與Kings Canyon,以及針對視頻轉(zhuǎn)碼的Mount Shasta。這篇博客內(nèi)容對此進(jìn)行了詳細(xì)介紹。

Facebook 的基礎(chǔ)設(shè)施現(xiàn)在每月為其整個應(yīng)用和服務(wù)系統(tǒng)上超過27 億的人提供服務(wù)。他們的工程師設(shè)計并創(chuàng)建了高級、高效的系統(tǒng)來擴大這一基礎(chǔ)設(shè)施,但是隨著工作負(fù)載的增長,單靠通用處理器已經(jīng)無法滿足這些系統(tǒng)的需求。晶體管增長的速度已大大放緩,這就需要開發(fā)出專門的加速器和整體的系統(tǒng)級解決方案來提高性能、功率和效率。

為基礎(chǔ)設(shè)施創(chuàng)建高效的解決方案需要共同設(shè)計優(yōu)化了工作負(fù)載的硬件。為此,F(xiàn)acebook 一直與合作伙伴共同開發(fā)針對AI 推理、AI 訓(xùn)練和視頻轉(zhuǎn)碼的解決方案。這幾個都是其發(fā)展最快的服務(wù)。今天,F(xiàn)acebook 發(fā)布了其用于AI 訓(xùn)練的下一代硬件平臺Zion、針對AI 推理的新定制芯片設(shè)計Kings Canyon 以及用于視頻轉(zhuǎn)碼的Mount Shasta。

AI 硬件

AI 工作負(fù)載的使用貫穿Facebook 的架構(gòu),使其服務(wù)相關(guān)性更強,并改善用戶使用服務(wù)的體驗。通過大規(guī)模部署AI 模型,F(xiàn)acebook 每天可以提供200 萬億次推測以及超過60 億次語言翻譯。Facebook 使用35 億多公開圖像來構(gòu)建或訓(xùn)練其AI 模型,使它們更好地識別和標(biāo)記內(nèi)容。AI 被應(yīng)用于各種各樣的服務(wù)中,幫助人們進(jìn)行日常互動,并為其提供獨特的個性化服務(wù)。

Facebook 上的大多數(shù)AI 流程都是通過其AI 平臺FBLeaner 進(jìn)行管理的,該平臺包含集中處理各部分問題的工具,如特征庫、訓(xùn)練工作流程管理以及推理機。與設(shè)計并發(fā)布到Open Compute Project(OCP)的硬件相結(jié)合,這將能夠促使Facebook 大規(guī)模、高效地部署模型。從一個穩(wěn)定的基礎(chǔ)開始,F(xiàn)acebook 專注于創(chuàng)建與供應(yīng)商無關(guān)的整合硬件設(shè)計,并且為提高工作效率,繼續(xù)堅持分解設(shè)計原則。結(jié)果就是Facebook 推出了用于工作負(fù)載訓(xùn)練和推理的下一代硬件。

AI 訓(xùn)練系統(tǒng)Zion

Zion 是Facebook 下一代大存儲統(tǒng)一訓(xùn)練平臺,設(shè)計上能夠高效處理一系列神經(jīng)網(wǎng)絡(luò),包括CNN、LSTM 和SparseNN。Zion 平臺能夠為其嚴(yán)重的工作負(fù)載提供高存儲能力和帶寬、靈活高速的相連、強大的計算能力。

Zion 采用了Facebook 全新的、與供應(yīng)商無關(guān)的OCP 加速模塊(OAM)。OAM 形狀系數(shù)讓Facebook 的合作伙伴(包括AMD、Haban、GraphCore 和Nvidia)可以在OCP 通用規(guī)范上開發(fā)自己的解決方案。通過單個機架使用TOR 網(wǎng)絡(luò)轉(zhuǎn)換,Zion 架構(gòu)讓Facebook 能夠在每個平臺上自由擴展到多個服務(wù)器。隨著Facebook AI 訓(xùn)練工作負(fù)載的規(guī)模和復(fù)雜性不斷增長,Zion 平臺也會隨之?dāng)U展。

Zion 系統(tǒng)分為三個部分:

  • 8 插槽服務(wù)器

  • 8 加速器平臺

  • OCP 加速器模塊

AI 訓(xùn)練解決方案基礎(chǔ)模塊

Zion 連接模塊圖解

Zion 將系統(tǒng)的內(nèi)存、計算和網(wǎng)絡(luò)密集型組件分離,使每部分都可單獨擴展。該系統(tǒng)為8 個NUMA CPU 插槽提供了一個大型DDR 存儲池,以滿足工作負(fù)載存儲容量密集型組件的需求,例如SparseNN 的嵌入表。對class="weapp_text_link" data-miniprogram-appid="wxf424e2f3e2f94500" data-miniprogram-path="pages/technology/technology?id=85c4b79b-6428-4184-b9bc-5beb6e2b1f3f&from=weapp" data-miniprogram-nickname="機器之心Synced" href data-miniprogram-type="text" data-miniprogram-servicetype="">CNN 或者SparseNN 密集部分這樣的存儲-帶寬密集型和計算密集的工作負(fù)載,每個CPU 插槽都連接了OCP 加速模塊。

系統(tǒng)有兩個高速結(jié)構(gòu):連接所有CPU 的相干結(jié)構(gòu)和連接所有加速器的結(jié)構(gòu)。因為加速器存儲帶寬高但存儲容量低,因此通過以這樣的方式對模型進(jìn)行分區(qū)來有效利用可用的總存儲容量,從而使訪問頻率較高的數(shù)據(jù)駐留在加速器上,訪問頻率較低的數(shù)據(jù)駐留在具有CPU 的DDR 內(nèi)存上。所有CPU 和加速器之間的計算和通信都是平衡的,并且通過高速和低速相連有效地進(jìn)行。

通過Kings Canyon 執(zhí)行推理

一旦我們訓(xùn)練完模型,就需要將其部署到生產(chǎn)環(huán)境中,從而處理AI 流程的數(shù)據(jù),并響應(yīng)用戶的請求。這就是推理(inference)——模型對新數(shù)據(jù)執(zhí)行預(yù)測的過程。推理的工作負(fù)載正急劇增加,這反映了訓(xùn)練工作的大量增加,目前標(biāo)準(zhǔn)CPU 服務(wù)器已經(jīng)無法滿足需求了。Facebook 正與Esperanto、Intel、Marvell 和Qualcomm 等多個合作伙伴合作,開發(fā)可在基礎(chǔ)設(shè)施上部署和擴展的推理ASIC 芯片。這些芯片將為工作負(fù)載提供INT8 半精度的運算,從而獲得理想的性能,同時也支持FP16 單精度的運算,從而獲得更高的準(zhǔn)確率。

整個推理服務(wù)器的解決方案分為四個不同的部分,它們會利用已發(fā)布到OCP 的現(xiàn)有構(gòu)建塊。利用現(xiàn)有組件可以加快開發(fā)進(jìn)度,并通過通用性降低開發(fā)風(fēng)險。該設(shè)計的四個主要組成部分為:

  • Kings Canyon 推理M.2 模塊

  • Twin Lakes 單插槽(single-socket)服務(wù)器

  • Glacier Point v2 承載卡(carrier card)

  • Yosemite v2 機架

圖:AI 推理解決方案模塊

圖:AI 推理解決方案連接模塊圖解

在系統(tǒng)級別,每個服務(wù)器都結(jié)合了M.2 Kings Canyon 加速器和Glacier Point v2 承載卡,后者主要連接到Twin Lakes 服務(wù)器。一般可以將兩組前面的組件安裝到更新的Yosemite v2 機架中,然后通過多主機NIC 連接到TOR 交換機。更新版的Yosemite sled 是目前現(xiàn)存Yosemite v2 sled 的迭代升級,它將Twin Lakes 主機的其他PCIe 通道連接到NIC,以獲得更高的網(wǎng)絡(luò)帶寬。每個Kings Canyon 模塊都包含ASIC、相關(guān)內(nèi)存和其它支持組件,其中CPU 主機通過PCIe 通道與加速器模塊通信。Glacier Point v2 包括一個集成的PCIe 交換機,允許服務(wù)器同時訪問所有模塊。

深度學(xué)習(xí)模型有很高的儲存要求。例如,SparseNN 模型具有非常大的嵌入表征表,它會占用好幾GB 的存儲空間,并且還可能會持續(xù)增長。這樣的大模型可能不適合加載到單獨設(shè)備的內(nèi)存中,不論是CPU 還是加速器都不行,所以這就要求在多個設(shè)備內(nèi)存上進(jìn)行模型分割(model partitioning)。當(dāng)數(shù)據(jù)位于另一個設(shè)備的內(nèi)存中時,分割將產(chǎn)生很多通信成本。因此,好的圖分割(graph-partitioning)算法將嘗試捕獲局部的概念,從而降低通信成本。

通過合適的模型分割,我們可以運行非常大的深度學(xué)習(xí)模型。例如SparseNN 模型,如果單節(jié)點的內(nèi)存能力不足以支持給定的模型,我們可以考慮在兩個節(jié)點中共享模型,并提升模型能訪問的內(nèi)存量。這兩個節(jié)點可以通過多主機NIC 連接,并支持高速信息處理。這將增加整體的通信成本,但我們可以利用跨多個嵌入表存在訪問差異的事實,相應(yīng)地對表進(jìn)行排序而降低通信延遲。

神經(jīng)網(wǎng)絡(luò)硬件加速器編譯器

ASIC 不運行通用代碼,因為它們需要特定的編譯器才能將圖轉(zhuǎn)化為在這些加速器上執(zhí)行的指令。Glow 編譯器的目標(biāo)是將供應(yīng)商的特定硬件從更高級的軟件堆棧中抽象出來,使基礎(chǔ)設(shè)施不受供應(yīng)商限制。它接受來自框架(如PyTorch 1.0)的計算圖,并為這些機器學(xué)習(xí)加速器生成高度優(yōu)化的代碼。

Glow 編譯器

使用Mount Shasta 進(jìn)行視頻轉(zhuǎn)碼

自2016 年以來,F(xiàn)acebook Live 直播的平均數(shù)量每年翻一番。自2018 年8 月在全球推出以來,F(xiàn)acebook Watch 的月瀏覽量已經(jīng)超過4 億,每天有7500 萬人使用。為了優(yōu)化所有這些視頻,使其能適應(yīng)多種網(wǎng)絡(luò)環(huán)境,F(xiàn)acebook 生成了多個輸出質(zhì)量和分辨率(或比特率),這個過程稱為視頻轉(zhuǎn)碼。完成這個轉(zhuǎn)碼過程所需要的計算是高度密集型的,通用CPU 無法滿足Facebook 日益增長的視頻需要。為了走在需求的前面,F(xiàn)acebook 與博通和芯原合作,設(shè)計為轉(zhuǎn)碼負(fù)載進(jìn)行優(yōu)化的定制ASIC。

視頻轉(zhuǎn)碼流程被分解為許多不同的步驟,下面將給出更詳細(xì)的介紹。這些步驟都是在今天的軟件中運行的,所以為了提高效率,F(xiàn)acebook 與供應(yīng)商合作,為轉(zhuǎn)碼工作流程的每個階段創(chuàng)建了包含專用芯片的定制ASIC。使用定制化的硬件來完成這些工作負(fù)載使得這一過程的能源使用更加高效,并支持實時4K 60fps 流媒體等新功能。單個視頻編解碼器是標(biāo)準(zhǔn)化的,而且不經(jīng)常修改,因此在這種情況下,定制芯片內(nèi)在缺乏靈活性并不是一個顯著的缺點。

視頻轉(zhuǎn)碼的第一個階段稱為解碼,在解碼過程中,上傳的文件被解壓,以獲得由一系列圖像表示的原始視頻數(shù)據(jù)。然后,可以對這些未壓縮的圖像進(jìn)行操作,以更改它們的分辨率(稱為縮放),接下來再次使用優(yōu)化設(shè)置進(jìn)行編碼,將它們重新壓縮到視頻流中。將輸出視頻與原始視頻進(jìn)行比較,計算質(zhì)量指標(biāo),這些指標(biāo)代表了相對于原始上傳視頻的質(zhì)量變化。一般所有的視頻都采取這種做法,以確保所用的編碼設(shè)置可以產(chǎn)生高質(zhì)量的輸出。視頻編碼和解碼使用的標(biāo)準(zhǔn)稱為視頻編碼方式;H.264、VP9 和AV1 是目前使用的主流編碼協(xié)議。

在ASIC 上,除了每個軟件算法都被芯片內(nèi)的專用部件所取代外,其他步驟都是相同的。平均而言,F(xiàn)acebook 希望這一視頻加速器比其目前的服務(wù)器效率高很多倍。他們希望業(yè)界的目標(biāo)編碼在10W 功耗內(nèi)至少處理2x 4K 分辨率和60fps 的并行輸入流。ASIC 還需要支持多種分辨率(從480p 到60fps 的4K)和多種編碼格式(從H.264 到AV1)。

視頻轉(zhuǎn)碼ASIC 通常有以下主要邏輯塊:

  • 解碼器:接收上傳的視頻;輸出解壓縮的原始視頻流

  • 縮放器(Scaler):縮放解壓縮的視頻

  • 編碼器:輸出壓縮(編碼)視頻

  • 質(zhì)量度量:衡量編碼步驟之后的視頻質(zhì)量損失

  • PHY:芯片與外界的接口;連接到服務(wù)器的PCIe 和內(nèi)存的DDR

  • 控制器:運行固件并協(xié)調(diào)轉(zhuǎn)碼流程的通用塊

視頻轉(zhuǎn)碼解決方案基礎(chǔ)模塊

與推理一樣,F(xiàn)acebook 利用現(xiàn)有的OCP 構(gòu)件在數(shù)據(jù)中心部署這些轉(zhuǎn)碼ASIC。ASIC 將安裝在帶有集成散熱器的M.2 模塊上,因為這種常見的電氣外形可以在不同硬件平臺上重復(fù)利用。它們被安裝在Glacier Point v2 (GPv2) 載體卡中,該載體卡可以容納多個M.2 模塊。這個GPv2 載體卡具有和Twin Lakes 服務(wù)器一樣的物理外形,意味著它可以適配Yosemite v2 機架,并在其中與Twin Lakes 服務(wù)器配對。

因為轉(zhuǎn)碼ASIC 功耗低、體積小,F(xiàn)acebook 希望通過將盡可能多的芯片與單個服務(wù)器相連接來節(jié)約成本。高密度的GPv2 實現(xiàn)了這一點,同時還提供了足夠的冷卻能力來承受數(shù)據(jù)中心的運行溫度。

一旦完成軟件集成工作,F(xiàn)acebook 將平衡分布在不同數(shù)據(jù)中心位置上異質(zhì)硬件fleet 的視頻轉(zhuǎn)碼工作負(fù)載。為了在與各種機器學(xué)習(xí)和視頻空間供應(yīng)商的合作過程中擴大規(guī)模,他們還努力確保軟件以開放的形式開發(fā),并推廣和采用通用的界面和框架。

 

責(zé)任編輯:張燕妮 來源: 大風(fēng)號
相關(guān)推薦

2021-11-03 13:32:28

MetaFacebook人臉識別

2017-08-25 12:06:36

Facebook

2021-08-05 10:58:58

Facebook開源Droidlet

2021-04-12 17:47:25

Facebook開源AI

2009-04-17 15:19:25

職場過時晚年

2016-01-04 17:39:48

蟻視CES

2012-06-04 13:25:34

Facebook開源

2021-03-05 12:58:31

AISEER模型

2020-04-30 13:30:30

Facebook 機器人開源

2023-12-09 09:44:07

MetaFacebook開源

2024-10-21 14:30:00

AI游戲

2021-09-03 09:11:14

Facebook開源CacheLib

2022-01-20 16:14:00

AI數(shù)字人技術(shù)

2019-04-07 16:30:54

開源技術(shù) 軟件

2019-08-29 10:46:42

2018-10-22 09:23:00

FacebookAI框架人工智能

2021-03-08 15:39:58

人工智能科技數(shù)據(jù)

2021-08-06 06:31:53

Facebook開源機器人開發(fā)平臺

2023-04-10 19:13:56

2021-11-05 07:00:51

Facebook元宇宙人臉信息
點贊
收藏

51CTO技術(shù)棧公眾號