自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

百度大腦EasyDL專業(yè)版最新上線自研超大規(guī)模視覺預(yù)訓(xùn)練模型

企業(yè)動(dòng)態(tài)
百度超大規(guī)模預(yù)訓(xùn)練模型便在此背景下產(chǎn)生,覆蓋自然語言處理和視覺兩大方向。在自然語言處理方向,百度自研了業(yè)界效果最好的預(yù)訓(xùn)練模型ERNIE,開創(chuàng)性地將大數(shù)據(jù)預(yù)訓(xùn)練與多源豐富知識(shí)相結(jié)合,持續(xù)學(xué)習(xí)海量數(shù)據(jù)中的知識(shí)

  在學(xué)習(xí)與定制AI模型的過程中,開發(fā)者會(huì)面對(duì)各種各樣的概念,在深度學(xué)習(xí)領(lǐng)域,有一個(gè)名詞正在被越來越頻繁地得到關(guān)注:遷移學(xué)習(xí)。它相比效果表現(xiàn)好的監(jiān)督學(xué)習(xí)來說,可以減去大量的枯燥標(biāo)注過程,簡單來說就是在大數(shù)據(jù)集訓(xùn)練的預(yù)訓(xùn)練模型上進(jìn)行小數(shù)據(jù)集的遷移,以獲得對(duì)新數(shù)據(jù)較好的識(shí)別效果,因其能夠大量節(jié)約新模型開發(fā)的成本,在實(shí)際應(yīng)用中被更廣泛地關(guān)注。EasyDL專業(yè)版在最新上線的版本中,就引入了百度超大規(guī)模視覺預(yù)訓(xùn)練模型,結(jié)合遷移學(xué)習(xí)工具,幫助開發(fā)者使用少量數(shù)據(jù),快速定制高精度AI模型。

  在訓(xùn)練一個(gè)深度學(xué)習(xí)模型時(shí),通常需要大量的數(shù)據(jù),但數(shù)據(jù)的采集、標(biāo)注等數(shù)據(jù)準(zhǔn)備過程會(huì)耗費(fèi)大量的人力、金錢和時(shí)間成本。為解決此問題,我們可以使用預(yù)訓(xùn)練模型。以預(yù)訓(xùn)練模型A作為起點(diǎn),在此基礎(chǔ)上進(jìn)行重新調(diào)優(yōu),利用預(yù)訓(xùn)練模型及它學(xué)習(xí)的知識(shí)來提高其執(zhí)行另一項(xiàng)任務(wù)B的能力,簡單來說就是在大數(shù)據(jù)集訓(xùn)練的預(yù)訓(xùn)練模型上進(jìn)行小數(shù)據(jù)集的遷移,以獲得對(duì)新數(shù)據(jù)較好的識(shí)別效果,這就是遷移學(xué)習(xí)(Transfer Learning)。遷移學(xué)習(xí)作為一種機(jī)器學(xué)習(xí)方法,廣泛應(yīng)用于各類深度學(xué)習(xí)任務(wù)中。在具體實(shí)現(xiàn)遷移學(xué)習(xí)時(shí),有多種深度網(wǎng)絡(luò)遷移方法,其中的Fine-tune(微調(diào))是最簡單的一種深度網(wǎng)絡(luò)遷移方法,它主要是將已訓(xùn)練好的模型參數(shù)遷移到新的模型來幫助新模型訓(xùn)練。

  在實(shí)際應(yīng)用中,針對(duì)一個(gè)任務(wù),我們通常不會(huì)從頭開始訓(xùn)練一個(gè)模型,因?yàn)檫@非常耗時(shí)耗力,不僅需要大量的計(jì)算資源、豐富的經(jīng)驗(yàn)去保證模型的效果,還需要ImageNet量級(jí)(千萬級(jí))的數(shù)據(jù)集保證模型的泛化性,需要支付高昂的成本。因此,一般我們會(huì)選擇在公開的大數(shù)據(jù)集上訓(xùn)練收斂、且效果較好的模型,作為預(yù)訓(xùn)練權(quán)重,在此基礎(chǔ)上使用業(yè)務(wù)數(shù)據(jù)對(duì)模型進(jìn)行Fin-tune。在Fine-tune時(shí),默認(rèn)源域(預(yù)訓(xùn)練模型)、目標(biāo)域數(shù)據(jù)集(用戶業(yè)務(wù)數(shù)據(jù)集)需要具有較強(qiáng)相關(guān)性,即數(shù)據(jù)同分布,這樣我們能利用預(yù)訓(xùn)練模型的大量知識(shí)儲(chǔ)備,快速高效地訓(xùn)練出針對(duì)特定業(yè)務(wù)場景并具有優(yōu)秀效果的模型。

  但在應(yīng)用預(yù)訓(xùn)練模型到實(shí)際場景時(shí),很多用戶會(huì)面臨數(shù)據(jù)集與源數(shù)據(jù)集分布不同的問題。比如,預(yù)訓(xùn)練模型的數(shù)據(jù)都是自然風(fēng)景,但用戶的數(shù)據(jù)集都是動(dòng)漫人物。類似這種源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)差別較大的問題,在具體應(yīng)用中較易導(dǎo)致負(fù)向遷移,具體表現(xiàn)為訓(xùn)練收斂慢,模型效果差等。

  因此,一個(gè)包含各類場景、覆蓋用戶各類需求的超大規(guī)模數(shù)據(jù)集就十分重要,通過這個(gè)包羅萬象的超大規(guī)模數(shù)據(jù)集訓(xùn)練所得的模型,才能夠更好地適應(yīng)來自各行各業(yè)用戶的需求,更好地Fine-tune用戶的業(yè)務(wù)數(shù)據(jù)集,幫助用戶在自己的數(shù)據(jù)集上得到效果更好的模型。

  百度超大規(guī)模預(yù)訓(xùn)練模型便在此背景下產(chǎn)生,覆蓋自然語言處理和視覺兩大方向。在自然語言處理方向,百度自研了業(yè)界效果最好的預(yù)訓(xùn)練模型ERNIE,開創(chuàng)性地將大數(shù)據(jù)預(yù)訓(xùn)練與多源豐富知識(shí)相結(jié)合,持續(xù)學(xué)習(xí)海量數(shù)據(jù)中的知識(shí),將機(jī)器語義理解水平提升到一個(gè)新的高度。ERNIE在中英文的16個(gè)任務(wù)上已經(jīng)超越了業(yè)界最好模型,全面適用于各類NLP應(yīng)用場景。目前,EasyDL專業(yè)版已預(yù)置了領(lǐng)先的預(yù)訓(xùn)練模型ERNIE2.0,并配套了多種NLP經(jīng)典算法網(wǎng)絡(luò),支持了文本分類、短文本匹配和序列標(biāo)注等典型文本處理任務(wù)。

  視覺方向,百度自研超大規(guī)模視覺預(yù)訓(xùn)練模型覆蓋圖像分類與物體檢測兩個(gè)方向。圖像分類的預(yù)訓(xùn)練模型,用海量互聯(lián)網(wǎng)數(shù)據(jù),包括10萬+的物體類別,6500萬的超大規(guī)模圖像數(shù)量,進(jìn)行大規(guī)模訓(xùn)練所得,適應(yīng)于各類圖像分類場景;物體檢測的預(yù)訓(xùn)練模型,用800+的類別,170萬張圖片以及1000萬+物體框的數(shù)據(jù)集,進(jìn)行大規(guī)模訓(xùn)練所得,適應(yīng)于各類物體檢測應(yīng)用場景。相對(duì)于普通使用公開數(shù)據(jù)集訓(xùn)練的預(yù)訓(xùn)練模型,在各類數(shù)據(jù)集上都有不同程度效果提升,模型效果和泛化性都有顯著提升。

  (以下實(shí)驗(yàn)數(shù)據(jù)集均來自不同行業(yè))

  - 圖像分類

  在圖像分類模型中,使用百度超大規(guī)模預(yù)訓(xùn)練模型的Resnet50_vd相比普通模型在各類數(shù)據(jù)集上平均提升12.76%,使用百度超大規(guī)模預(yù)訓(xùn)練模型的Resnet101_vd,相比于普通預(yù)訓(xùn)練模型,平均提升13.03%,使用百度超大規(guī)模預(yù)訓(xùn)練模型的MobilenetV3_large_1x,相比于普通預(yù)訓(xùn)練模型,平均提升8.04%。

  并且,在圖像分類方向,還新增了11個(gè)模型,包括:EffcientNetB0_small,EfficientNetB4,MobileNetV3_large_x1_0,ResNet18_vd, ResNeXt101_32x16d_wsl, Res2Net101_vd_26w_4s, sE_ResNet18_vd, Xception71,還有基于百度超大規(guī)模預(yù)訓(xùn)練模型訓(xùn)練出來的ResNet50_vd,ResNet101_vd和MobileNetV3_large_x1_0,其中比較特殊的幾個(gè)模型,EffcientNetB0_small是去掉SE模塊的EffcientNetB0,在保證精度變化不大的同時(shí),大幅提升訓(xùn)練和推理速度,ResNeXt101_32x16d_wsl 是基于超大量圖片的弱監(jiān)督預(yù)訓(xùn)練模型,準(zhǔn)確率高,但預(yù)測時(shí)間相對(duì)增加,Res2Net101_vd_26w_4s則是在單個(gè)殘差塊內(nèi)進(jìn)一步構(gòu)造了分層的殘差類連接,比ResNet101準(zhǔn)確度更高;

  新增的分類模型的推理時(shí)間、效果,以及支持的部署方式如下表所示:

  注:以上模型均基于ImageNet1k分類數(shù)據(jù)集訓(xùn)練和測試

  更多預(yù)置模型,參見EasyDL官網(wǎng):https://ai.baidu.com/ai-doc/EASYDL/0k38n3p16

  更多模型效果,參見PaddleClas:https://paddleclas.readthedocs.io/zh_CN/latest/models/models_intro.html

  并且,為了進(jìn)一步提升圖像分類模型的模型效果,在訓(xùn)練層面,圖像分類新增了mix_up和label_smoothing功能,可以在單標(biāo)簽分類任務(wù)中,根據(jù)模型的訓(xùn)練情況選擇開啟或者關(guān)閉。mix_up是一種數(shù)據(jù)增強(qiáng)方式,它從訓(xùn)練樣本中隨機(jī)抽取了兩個(gè)樣本進(jìn)行簡單的隨機(jī)加權(quán)求和,并保存這個(gè)權(quán)重,同時(shí)樣本的標(biāo)簽也對(duì)應(yīng)地用相同的權(quán)重加權(quán)求和,然后預(yù)測結(jié)果與加權(quán)求和之后的標(biāo)簽求損失,通過混合不同樣本的特征,能夠減少模型對(duì)錯(cuò)誤標(biāo)簽的記憶力,增強(qiáng)模型的泛化能力。Label_smoothing是一種正則化的方法,增加了類間的距離,減少了類內(nèi)的距離,避免模型對(duì)預(yù)測結(jié)果過于confident而導(dǎo)致對(duì)真實(shí)情況的預(yù)測偏移,一定程度上緩解由于label不夠soft導(dǎo)致過擬合的問題。

  - 物體檢測

  在物體檢測模型中,使用百度超大規(guī)模預(yù)訓(xùn)練模型的YOLOv3_DarkNet相比普通模型在各類數(shù)據(jù)集上平均提升4.53%,使用百度超大規(guī)模預(yù)訓(xùn)練模型的Faster_RCNN,相比于普通預(yù)訓(xùn)練模型,平均提升1.39%。

  并且,在物體檢測方向,新增了Cascade_Rcnn_ResNet50_FPN、YOLOv3_ResNet50vd_DCN、YOLOv3_MobileNetv1網(wǎng)絡(luò),以及基于百度超大規(guī)模預(yù)訓(xùn)練模型訓(xùn)練出來的YOLOv3_Darknet、Faster_R-CNN_ResNet50_FPN,其中,Cascade_Rcnn_ResNet50_FPN通過級(jí)聯(lián)多個(gè)檢測器以及設(shè)置不同IOU的重采樣機(jī)制,使得檢測器的精度、和定位的準(zhǔn)確度進(jìn)一步提升。此外,針對(duì)用戶的需求,新增兩種YOLOv3的變種模型,其中,YOLOv3_MobileNetv1,是將原來的YOLOv3骨架網(wǎng)絡(luò)替換為MobileNetv1,相比YOLOv3_DarkNet, 新模型在GPU上的推理速度提升約73%。而YOLOv3_ResNet50vd_DCN是將骨架網(wǎng)絡(luò)更換為ResNet50-VD,相比原生的DarkNet53網(wǎng)絡(luò)在速度和精度上都有一定的優(yōu)勢,在保證GPU推理速度基本不變的情況下,提升了1%的模型效果,同時(shí),因增加了可形變卷積,對(duì)不規(guī)則物體的檢測效果也有一定的正向提升。

  各檢測模型的效果,以及支持的部署方式如下表所示:

  注:以上模型均基于COCO17數(shù)據(jù)集訓(xùn)練和測試。

  更多預(yù)置模型,參見EasyDL官網(wǎng)https://ai.baidu.com/ai-doc/EASYDL/0k38n3p16

  更多模型效果,參見PaddleDetection: https://github.com/PaddlePaddle/PaddleDetection/blob/release/0.3/docs/MODEL_ZOO_cn.md

  各模型的推理時(shí)間如下表所示:

  注:以上模型均基于coco17訓(xùn)練所得。

  更多模型速度詳情,參見PaddleDetection:

  https://github.com/PaddlePaddle/PaddleDetection/blob/release/0.3/docs/advanced_tutorials/deploy/BENCHMARK_INFER_cn.md

  百度超大規(guī)模視覺預(yù)訓(xùn)練模型對(duì)比公開數(shù)據(jù)集訓(xùn)練的預(yù)訓(xùn)練模型,效果提升明顯,目前這些模型已經(jīng)預(yù)置在EasyDL專業(yè)版中正式發(fā)布。EasyDL專業(yè)版是飛槳企業(yè)版零門檻AI開發(fā)平臺(tái)EasyDL,面向?qū)I(yè)算法工程師群體,專門推出的AI模型開發(fā)與服務(wù)平臺(tái)。支持視覺及自然語言處理兩大技術(shù)方向,可靈活支持腳本調(diào)參及Notebook兩類開發(fā)方式,預(yù)置了幾十種經(jīng)典網(wǎng)絡(luò)和百度海量數(shù)據(jù)訓(xùn)練的預(yù)訓(xùn)練模型,模型效果在業(yè)界保持領(lǐng)先,同時(shí)支持公有云/私有化/設(shè)備端等靈活的部署方案,開發(fā)效率高、訓(xùn)練速度快,同時(shí)設(shè)備端輕量級(jí)部署和加速方案使得顯存占用更少,預(yù)測速度更快。

  開發(fā)者可以搜索進(jìn)入EasyDL平臺(tái),選擇專業(yè)版,選擇【新建任務(wù)】-【配置任務(wù)】-【選擇預(yù)訓(xùn)練模型】處選擇【百度超大規(guī)模數(shù)據(jù)集 通用分類與訓(xùn)練模型】

  EasyDL零門檻AI開發(fā)平臺(tái),面向AI開發(fā)全流程提供靈活易用的一站式平臺(tái)方案。包含了AI開發(fā)過程中的三大流程:數(shù)據(jù)服務(wù)、訓(xùn)練與開發(fā)、模型部署。

  在數(shù)據(jù)服務(wù)上,剛剛上線的EasyData智能數(shù)據(jù)服務(wù)平臺(tái)覆蓋了數(shù)據(jù)采集、管理、清洗、標(biāo)注、安全,并支持接入EasyDL進(jìn)行訓(xùn)練,在模型訓(xùn)練部署之后,在云服務(wù)授權(quán)的前提下完成數(shù)據(jù)回流,針對(duì)性地進(jìn)行難例挖掘,獲得更有助于模型效果提升的高質(zhì)量數(shù)據(jù)。EasyData是業(yè)內(nèi)首家推出了軟硬一體、端云協(xié)同自動(dòng)數(shù)據(jù)采集方案的平臺(tái),有離線視頻數(shù)據(jù)采集的用戶,可以下載EasyData的數(shù)據(jù)采集SDK,通過定時(shí)拍照、視頻抽幀等方式,實(shí)時(shí)統(tǒng)計(jì)到云端進(jìn)行處理。

  在訓(xùn)練與開發(fā)上,除了剛剛提到的大規(guī)模預(yù)訓(xùn)練模型來提升模型性能,EasyDL還采用了AutoDL自動(dòng)搜索最優(yōu)網(wǎng)絡(luò)及超參數(shù),以及自動(dòng)數(shù)據(jù)增強(qiáng)、自動(dòng)超參搜索來增加數(shù)據(jù)量和多樣性,分布式訓(xùn)練加速等豐富的訓(xùn)練機(jī)制提升模型的訓(xùn)練速度。

  在模型部署上,EasyDL提供端云協(xié)同的多種靈活部署方式,包括公有云API、設(shè)備端SDK、本地服務(wù)器部署、軟硬一體產(chǎn)品。值得關(guān)注的是,在EasyDL軟硬一體產(chǎn)品矩陣方案中,提供了六款軟硬一體方案,覆蓋超高性能,高性能和低成本小功耗三種不同形態(tài),滿足開發(fā)者的各類業(yè)務(wù)需求,已經(jīng)在幾十個(gè)行業(yè)上百個(gè)場景中落地應(yīng)用。更多軟硬一體方案信息,可以查看:https://ai.baidu.com/easydl/solution

  現(xiàn)在就進(jìn)入EasyDL專業(yè)版,感受預(yù)訓(xùn)練模型的強(qiáng)大效果吧!https://ai.baidu.com/easydl/pro

 

責(zé)任編輯:張誠 來源: 51CTO
相關(guān)推薦

2020-07-08 15:36:18

百度大腦

2020-11-12 09:55:10

百度

2020-09-25 09:52:48

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2016-12-14 11:44:25

阿里Docker大數(shù)據(jù)

2021-06-28 12:01:01

預(yù)訓(xùn)練模型

2020-07-14 09:36:25

數(shù)據(jù)

2020-07-23 14:03:09

數(shù)據(jù)中心數(shù)據(jù)網(wǎng)絡(luò)

2020-08-06 11:27:39

百度AI開發(fā)者

2025-02-26 08:30:00

2022-12-30 14:14:51

數(shù)據(jù)中心服務(wù)器

2024-08-29 12:56:03

2021-03-22 11:16:50

人工智能應(yīng)用基礎(chǔ)設(shè)施

2020-12-11 19:52:06

數(shù)據(jù)中心超大規(guī)模數(shù)據(jù)中心

2023-02-14 11:24:36

2011-12-16 09:54:17

網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)架構(gòu)系統(tǒng)架構(gòu)系統(tǒng)

2020-08-22 19:26:31

百度百度大腦EasyDL

2024-04-30 07:00:00

公共云云策略云計(jì)算

2023-01-11 21:11:37

RabbitMQRocketMQ消息中間件

2020-07-17 10:10:29

人工智能AI百度

2024-07-15 00:00:00

OpenAI“草莓”模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)