自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

新記錄誕生,騰訊云2分31秒打破ImageNet訓練記錄

云計算
8月21日,騰訊云正式對外宣布成功創(chuàng)造了128卡訓練ImageNet業(yè)界新記錄,以2分31秒的成績一舉刷新了這個領域的世界記錄。若改變跨機網(wǎng)絡帶寬,該成績還可以進一步提升至2分2秒,將這一記錄提升到一個全新的高度。

 8月21日,騰訊云正式對外宣布成功創(chuàng)造了128卡訓練ImageNet業(yè)界新記錄,以2分31秒的成績一舉刷新了這個領域的世界記錄。若改變跨機網(wǎng)絡帶寬,該成績還可以進一步提升至2分2秒,將這一記錄提升到一個全新的高度。

這次記錄是基于公有云25Gbps的VPC網(wǎng)絡環(huán)境,使用128塊V100 GPU,借助最新研制的Light大規(guī)模分布式多機多卡訓練框架創(chuàng)造的,最終成績定格在2分31秒訓練 ImageNet 28個epoch,TOP5精度達到93%,之前的業(yè)界最好成績是2分38秒。據(jù)了解,這項記錄的背后團隊來自騰訊云智能鈦團隊、騰訊機智團隊、騰訊優(yōu)圖實驗室以及香港浸會大學計算機科學系褚曉文教授團隊。

作為人工智能最重要的基礎技術之一,深度學習的應用已經(jīng)快速延伸到智慧城市、智能制造等眾多場景。然而與需求同步衍生的是在深度學習訓練中產(chǎn)生的諸多問題,比如數(shù)據(jù)量龐大且訓練耗時長、計算模型/結構愈漸復雜、參數(shù)量大、超參數(shù)范圍廣泛等。這些問題已經(jīng)阻礙了深度學習開發(fā)應用的進度。如何做高性能AI訓練和計算,不僅關乎到AI生產(chǎn)研發(fā)效率,還對AI產(chǎn)品的迭代效率和成功上線產(chǎn)生重要影響,而高效訓練的一個非常重要的基準是如何在更短時間內(nèi)對大型可視化數(shù)據(jù)庫ImageNet做一次訓練。

正是在這樣的背景下,騰訊云聯(lián)合多個團隊研發(fā)出了Light大規(guī)模分布式多機多卡訓練框架,從深度學習訓練的速度、多機多卡的擴展性、batch收斂等方面,為業(yè)界提供了一套全新的訓練解決方案。

在單機訓練速度方面,騰訊云首先利用GPU云服務器的內(nèi)存和SSD云盤,在訓練過程中為訓練程序提供數(shù)據(jù)預取和緩存,加速了訪問遠程存儲數(shù)據(jù)。而針對大量線程相互搶占導致CPU運行效率低下問題,騰訊云通過自動調(diào)整最優(yōu)數(shù)據(jù)預處理線程數(shù)來降低CPU的切換負擔,讓數(shù)據(jù)預處理和GPU計算并行,提升了整體訓練的速度。

在多機擴展訓練方面,以往的TCP環(huán)境下,跨機通信的數(shù)據(jù)需要從顯存拷到主存,再通過CPU去收發(fā)數(shù)據(jù),計算時間短加上通信時間長,使多機多卡的擴展性受到了很大挑戰(zhàn)。騰訊云則憑借Light高效擴展了多機訓練,通過自適應梯度融合技術、層級通信+多流手段、層級topk壓縮通信算法等,充分利用通信時的網(wǎng)絡帶寬,優(yōu)化了跨機通信的時間。

此外,為充分利用大規(guī)模集群算力,目前業(yè)界主要通過不斷提升訓練的batch size來提升訓練速度,但是batch size的增大會對精度帶來影響和損失。為解決這一問題,騰訊云通過大batch調(diào)參策略、梯度壓縮精度補償、AutoML調(diào)參等方法,有效實現(xiàn)了在增大batch size的同時,最小化其對精度的影響。

 

通過 Light大規(guī)模分布式多機多卡訓練框架及平臺等一系列完整的解決方案,ImageNet的訓練結果取得了新突破。并且在取得高效訓練的同時,也將其能力集成到騰訊云智能鈦機器學習平臺,并廣泛應用在騰訊內(nèi)外部的業(yè)務。

接下來,聯(lián)合項目團隊還將進一步提升機器學習平臺易用性,訓練和推理性能,構建穩(wěn)定、易用、好用、高效的平臺和服務,為算法工程師提供有力的機器學習工具,助力各行各業(yè)用戶業(yè)務的發(fā)展。

責任編輯:武曉燕 來源: 51CTO
相關推薦

2017-04-11 17:11:43

騰訊云騰訊優(yōu)圖

2013-12-18 14:18:16

2010-10-13 10:01:48

2009-05-19 15:49:43

開源數(shù)據(jù)記錄

2022-06-24 11:41:05

芯片AI訓練

2012-10-19 09:38:56

Ubuntu 12.1

2011-07-28 14:58:49

HP ProLiant服務器

2023-12-20 14:54:29

谷歌Gen-2視頻

2021-04-22 15:10:28

阿里云人工智能

2011-09-14 11:34:11

Windows 8

2018-12-10 23:01:44

2024-07-08 12:27:36

2012-10-12 09:37:08

惠普刀片服務器AMD

2014-01-17 14:53:32

NUTANIX數(shù)據(jù)中心架構

2013-10-12 15:24:21

華為AR G3華為路由器

2021-12-08 15:34:59

云時代IBM云廠商

2014-10-30 10:59:45

光纖

2012-10-11 09:51:43

AMD

2020-12-10 06:23:19

數(shù)據(jù)庫阿里云RDS
點贊
收藏

51CTO技術棧公眾號