自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="gqtek"><p id="gqtek"></p></blockquote>

<cite id="gqtek"><rp id="gqtek"></rp></cite>

<blockquote id="gqtek"><p id="gqtek"></p></blockquote><sub id="gqtek"></sub>

<sup id="gqtek"></sup>

<style id="gqtek"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

全球首個(gè)軟硬件推理平臺(tái)：NVDLA 編譯器正式開源

作者：HyperAI超神經(jīng) 2019-09-17 09:40:06

最近，英偉達(dá)在 GitHub 上開源了 NVDLA 編譯器的源代碼，這是世界上首個(gè)軟硬件推理平臺(tái)的完整開源代碼。

2017 年，英偉達(dá)發(fā)布了深度學(xué)習(xí)加速器 NVDLA，全稱 NVIDIA DeepLearning Accelerator，以推動(dòng)在定制硬件設(shè)計(jì)中采用高效的 AI 推理。

在英偉達(dá)的開發(fā)套件 Jetson AGX Xavier 中，它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

而最近，英偉達(dá)在 GitHub 上開源了 NVDLA 編譯器的源代碼，這是世界上首個(gè)軟硬件推理平臺(tái)的完整開源代碼。系統(tǒng)架構(gòu)師和軟件開發(fā)者們，現(xiàn)在已可訪問這個(gè)軟硬件推理平臺(tái)。

全球首個(gè)軟硬件推理平臺(tái)：NVDLA 編譯器正式開源

使用 NVDLA 進(jìn)行物體檢測

在本文中，將詳細(xì)介紹網(wǎng)絡(luò)圖形編譯器，是如何提升了專用硬件加速器的性能，并介紹在云端，如何構(gòu)建和運(yùn)行自定義 NVDLA 軟硬件設(shè)計(jì)。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關(guān)鍵組件。它能生成優(yōu)化的執(zhí)行圖，將預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型層中定義的任務(wù)，映射到 NVDLA 中的各個(gè)執(zhí)行單元。

一方面能最大限度地利用計(jì)算硬件，另一方面盡可能地減少數(shù)據(jù)移動(dòng)。

NVDLA 核心硬件有六個(gè)專門的硬件單元，可以實(shí)現(xiàn)同時(shí)調(diào)度，或者在流水線配置中實(shí)現(xiàn)調(diào)度。

全球首個(gè)軟硬件推理平臺(tái)：NVDLA 編譯器正式開源

NVDLA 架構(gòu)圖

此外，它還具有小型和大型硬件配置文件。其中大型配置文件含有一些高級(jí)特性，如芯片上的 SRAM 接口、連接微控制器的能力。

全球首個(gè)軟硬件推理平臺(tái)：NVDLA 編譯器正式開源

NVDLA 小型配置文件模型

硬件架構(gòu)是模塊化的，它被設(shè)計(jì)成可自由伸縮的形態(tài)，小到嵌入式物聯(lián)網(wǎng)設(shè)計(jì)，大到使用NVDLA 單元陣列的大型數(shù)據(jù)中心，都能完美適用。

編譯器可以根據(jù)多項(xiàng)因素進(jìn)行調(diào)優(yōu)：NVDLA 硬件配置、系統(tǒng)的 CPU 和內(nèi)存控制配置，以及應(yīng)用程序的自定義神經(jīng)網(wǎng)絡(luò)用例等等。

NVDLA 是如何提升性能的

在大型的 NVDLA 設(shè)計(jì)上，層融合和管道調(diào)度之類的編譯器優(yōu)化，表現(xiàn)性能良好，可廣泛應(yīng)用于多種神經(jīng)網(wǎng)絡(luò)架構(gòu)，能提供高達(dá) 3 倍的性能效益。

這種優(yōu)化后的靈活性，是實(shí)現(xiàn)跨大型網(wǎng)絡(luò)模型（如ResNet-50）和小型網(wǎng)絡(luò)模型（如 MobileNet）的性能優(yōu)化的重要原因。

對(duì)于較小的 NVDLA 設(shè)計(jì)，編譯器優(yōu)化(如 Memory tiling )也是提高性能效率的關(guān)鍵。

Memory tiling 設(shè)計(jì)能在權(quán)重和激活數(shù)據(jù)之間，平衡芯片上緩沖區(qū)的使用，從而最小化芯片外存儲(chǔ)的流量和能耗。

用戶還可以自由地創(chuàng)建定制的圖層，并根據(jù)自己的特殊用例進(jìn)行調(diào)優(yōu)，或者使用最新的算法進(jìn)行實(shí)驗(yàn)。

為了方便對(duì)比，可以根據(jù)下面的性能數(shù)字，評(píng)估 NVDLA 大型模型的預(yù)期性能。測量數(shù)據(jù)來自 Jetson AGX Xavier 開發(fā)工具上的一個(gè) NVDLA 核心捕獲。

全球首個(gè)軟硬件推理平臺(tái)：NVDLA 編譯器正式開源

使用 RISC-V 和 FireSim 在云端設(shè)計(jì)

通過這個(gè)編譯器版本，NVDLA 用戶可以訪問集成、增添和探索 NVDLA 平臺(tái)所需的軟件和硬件源代碼。

如果想要嘗試入手，建議的方式是直接使用 NVDLA 上的 YOLOv3 ，以及云端的 RISC-V 和 FireSim 進(jìn)行物體檢測。

在使用 FireSim- NVADLA 時(shí)，可按照 FireSim 的說明操作，直到能夠運(yùn)行單節(jié)點(diǎn)模擬為止。

使用指南：http://docs.fires.im/en/1.5.0/index.html

按照教程中的步驟操作，在「設(shè)置FireSim Repo」一節(jié)中，驗(yàn)證是否正使用 FireSim -NVADLA 存儲(chǔ)庫，具體的操作代碼如下:

git clone https://github.com/CSL-KU/firesim-nvdla 
cd firesim-nvdla 
./build-setup.sh fast

使用 NVDLA 運(yùn)行單節(jié)點(diǎn)模擬之后，按照 NVDLA 教程中的步驟可以立即啟動(dòng) YOLOv3。（地址：https://github.com/CSL-KU/firesim-nvdla#running-yolov3-on-nvdla）

這套編譯器已經(jīng)被 SiFive 這類初創(chuàng)公司所使用，并從中得到了受益。

全球首個(gè)軟硬件推理平臺(tái)：NVDLA 編譯器正式開源

SiFive 使用 NVDLA 進(jìn)行深度學(xué)習(xí)推理

據(jù)悉，SiFive 在一年前首次在自己的平臺(tái)上開始使用 NVDLA，而經(jīng)過了性能優(yōu)化的開源 NVDLA 編譯器，能夠創(chuàng)建特定領(lǐng)域的優(yōu)化 SoC 設(shè)計(jì)，為 IoT Edge 中的 AI 現(xiàn)代計(jì)算需求做足準(zhǔn)備。

項(xiàng)目開源地址：

https://github.com/nvdla/sw/releases/tag/v1.2.0-OC

責(zé)任編輯：張燕妮來源：今日頭條

編譯器開源開發(fā)者

同話題下的熱門內(nèi)容

看不懂GitHub代碼？剛剛這個(gè)AI工具讓全球每個(gè)GitHub項(xiàng)目開口說話全民沸騰！神舟二十圓滿升空！中國火箭攝影進(jìn)入高清時(shí)代！多項(xiàng)科技揭秘！發(fā)射時(shí)間的隱藏彩蛋：東方紅一號(hào)55周年！7B超越GPT！1/20數(shù)據(jù)，無需知識(shí)蒸餾，馬里蘭等推出全新視覺推理方法首個(gè)大模型全鏈路安全綜述！南洋理工新國立等發(fā)布LLM Safety全景圖：從數(shù)據(jù)、訓(xùn)練到部署的全面梳理兩萬人大裁員！AI掉隊(duì)、工廠暫停擴(kuò)張，英特爾復(fù)興之路注定艱難猛擊OpenAI o1、DeepSeek-R1！剛剛，阿里Qwen3登頂全球開源模型王座，深夜爆火太爭氣了！百度的底氣，李彥宏的決心：3萬卡國產(chǎn)自研集群；一口氣九個(gè)重磅發(fā)布，全方位支持MCP，百度在大模型應(yīng)用時(shí)代的出招與押注突發(fā)！OpenAI免費(fèi)開放Deep research，超強(qiáng)AI Agent

相關(guān)專題更多

解讀惠普Z系列工作站ZBook Ultra G1a高性能移動(dòng)

HPE ProLiant DL145 Gen11 服務(wù)器解讀

2025-04-21 09:59:50

開發(fā)者成長學(xué)院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="gxvww"></blockquote>}