自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

刷新ImageNet最高分!谷歌大腦華人研究員發(fā)布超強Transformer

新聞 人工智能
有20億參數(shù)和30億張圖像加持,谷歌大腦近日又推出了視覺Transformer進階版ViT-G/14, 準確率提升至90.45%!

[[408123]]

近日,谷歌大腦團隊公布了Vision Transformer(ViT)進階版ViT-G/14,參數(shù)高達20億的CV模型,經(jīng)過30億張圖片的訓練,刷新了ImageNet上最高準確率記錄——90.45%,此前的ViT取得的最高準確率記錄是 88.36%,不僅如此,ViT-G/14還超過之前谷歌提出的Meta Pseduo Labels模型。

刷新ImageNet最高分!谷歌大腦華人研究員發(fā)布最強Transformer

Vision Transformer模型的縮放規(guī)律

在多項基準測試中,ImageNet, ImageNet-v2和VTAB-1k,ViT-G/14的表現(xiàn)都刷新了記錄。

例如,在幾張照片的識別挑戰(zhàn)中,準確率提高了五個百分點以上。研究人員隨后訓練了多個更微型的模型版本,以尋找架構的縮放規(guī)律(scaling law),結果觀察到性能遵循冪律函數(shù)(power-law function),類似于用于NLP的Transformer模型。

2017年由谷歌首次引入的 Transformer 架構迅速成為最受歡迎的NLP深度學習模型設計,其中 OpenAI的GPT-3是最著名的。OpenAI 去年發(fā)布的一項研究描述了這些模型的縮放規(guī)則(Scaling rules)。

OpenAI 通過訓練幾個不同規(guī)模的可比模型,改變訓練數(shù)據(jù)的數(shù)量和處理能力,開發(fā)了一個用于評估模型準確性的冪律函數(shù)。此外,OpenAI 發(fā)現(xiàn)更大的模型不僅性能更好,而且計算效率也更高。

與 NLP 模型不同,大多數(shù)SOTA的 CV 深度學習模型,采用的是卷積神經(jīng)網(wǎng)絡架構(CNN)。2012年, 一個CNN模型贏得了ImageNet競賽,CNN因此聲名鵲起。

隨著Transformer最近在 NLP 領域的成功,研究人員已經(jīng)開始關注它在視覺問題上的表現(xiàn); 例如,OpenAI 已經(jīng)構建了一個基于 GPT-3的圖像生成系統(tǒng)。

谷歌在這個領域一直非?;钴S,在2020年年底使用他們專有的 JFT-300M 數(shù)據(jù)集訓練了一個600m 參數(shù)的 ViT 模型。

刷新ImageNet最高分!谷歌大腦華人研究員發(fā)布最強Transformer

△ 去年10月,谷歌大腦團隊發(fā)布了Vision Transformer(ViT)

而新的ViT-G/14模型使用 JFT-3B 預先訓練,JFT-3B是升級版數(shù)據(jù)集,包含大約30億張圖片。

刷新ImageNet最高分!谷歌大腦華人研究員發(fā)布最強Transformer

研究團隊改進了 ViT 架構,增加了內存使用,使模型能夠適應單個 TPUv3核心。研究人員在預先訓練的模型上使用少量和微調的遷移學習來評估 ViT-G/14和其他較小模型的性能。這些發(fā)現(xiàn)被用來創(chuàng)建縮放規(guī)則,類似于 NLP 規(guī)則:

根據(jù)冪律函數(shù),縮放更多的計算、模型和數(shù)據(jù)可以提高準確性;

在較小的模型中,準確性可能是一個障礙;

大型數(shù)據(jù)集有助于大型模型。

目前,ViT-G/14得分在 ImageNet 排行榜上排名第一。下面的八個得分最高的模型同樣是由谷歌的研究人員創(chuàng)建的,而第十個模型來自Facebook。

作者團隊

刷新ImageNet最高分!谷歌大腦華人研究員發(fā)布最強Transformer

本次論文團隊成員是此前發(fā)布ViT模型的4名成員,其中,第一作者是Xiaohua Zhai (翟曉華)。

[[408124]]

https://sites.google.com/site/xzhai89/home

翟曉華目前是谷歌大腦研究員。研究領域為深度學習和計算機視覺。興趣范圍包括表征學習、遷移學習、自監(jiān)督學習、生成模型、跨模態(tài)感知。

根據(jù)他的個人網(wǎng)站提供的信息,2009年,翟曉華本科畢業(yè)于南京大學,2014年取得北京大學計算機科學博士學位。

另外,論文作者Alexander Kolesnikov,同為谷歌大腦研究員,研究領域包括人工智能、機器學習、深度學習和計算機視覺。

畢業(yè)于奧地利Institute of Science and Technology Austria (IST Austria),博士論文為Weakly-Supervised Segmentation and Unsupervised Modeling of Natural Images(自然圖像的弱監(jiān)督分割和無監(jiān)督建模)。

[[408125]]

另一名作者Neil Houlsby,研究領域為機器學習、人工智能、計算機視覺和自然語言處理。

[[408126]]

第四名作者Lucas Beyer,是一名自學成才的黑客、研究科學家,致力于幫助機器人了解世界、幫助人類了解深度學習。

 

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-03-01 15:43:49

2020-09-21 14:25:26

Google 開源技術

2020-01-23 15:19:26

谷歌Android開發(fā)者

2022-06-15 18:57:43

人工智能

2021-01-26 15:32:40

機器學習人工智能計算機

2020-12-23 17:50:46

AI語言模型AI倫理

2012-04-06 15:28:25

2024-06-11 08:12:32

2021-09-30 11:14:17

谷歌框架技術

2022-06-06 10:58:52

訓練DeepMind研究

2023-04-05 14:25:58

LLM谷歌OpenAI

2019-08-01 08:15:06

機器學習谷歌算法

2021-02-21 00:18:47

惡意軟件研究職業(yè)技術

2015-02-11 16:11:23

微軟

2022-02-07 15:05:07

模型AI訓練

2025-01-03 16:00:00

AI模型數(shù)據(jù)

2016-11-13 23:11:15

2019-06-13 14:52:59

谷歌Android開發(fā)者
點贊
收藏

51CTO技術棧公眾號