Facebook新AI模型SEER實現(xiàn)自監(jiān)督學(xué)習(xí),LeCun大贊最有前途
本文轉(zhuǎn)載自微信公眾號「新智元」,作者新智元。轉(zhuǎn)載本文請聯(lián)系新智元公眾號。
無需標(biāo)簽,自我分析數(shù)據(jù)!
Facebook的新AI模型在革計算機(jī)視覺的命?
剛剛,F(xiàn)acebook宣布了一個在10億張圖片上訓(xùn)練的AI模型——SEER,是自監(jiān)督(Self-supervised)的縮寫。
該模型包含10億個參數(shù),可以在幾乎沒有標(biāo)簽幫助的情況下識別圖像中的物體,并在一系列計算機(jī)視覺基準(zhǔn)上取得了先進(jìn)的結(jié)果。
要知道,大多數(shù)計算機(jī)視覺模型都是從標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。
而Facebook的最新模型則是通過暴露數(shù)據(jù)各部分之間的關(guān)系從數(shù)據(jù)中來生成標(biāo)簽。
這一步被認(rèn)為對有朝一日實現(xiàn)人類終極智能至關(guān)重要。
新AI模型SEER在革計算機(jī)視覺的命?
參數(shù)一直是機(jī)器學(xué)習(xí)系統(tǒng)的基本組成部分,是從歷史訓(xùn)練數(shù)據(jù)中得到的模型的一部分。
人工智能的未來在于是否能夠不依賴于帶注釋的數(shù)據(jù)集,從給定的任何信息中進(jìn)行推理。
只要提供文本、圖像或其他類型的數(shù)據(jù),AI就能夠完美地識別照片中的物體、解釋文本,或者執(zhí)行任何要求它執(zhí)行的其他任務(wù)。
Facebook首席科學(xué)家Yann LeCun表示,這是構(gòu)建具有背景知識或「常識」的機(jī)器以解決遠(yuǎn)遠(yuǎn)超出當(dāng)今AI任務(wù)的最有前途的方法之一。
我們已經(jīng)看到了自然語言處理(NLP)的重大進(jìn)步。其中,在大量文本上對超大型模型進(jìn)行自我監(jiān)督的預(yù)訓(xùn)練在自然語言處理方面取得重大突破。
現(xiàn)在,F(xiàn)acebook聲稱自家的SEER計算機(jī)視覺模型向這個目標(biāo)邁進(jìn)了一步。
它可以從互聯(lián)網(wǎng)上的任何一組隨機(jī)圖像中學(xué)習(xí),而不需要進(jìn)行注釋。
對視覺的自我監(jiān)督是一項具有挑戰(zhàn)性的任務(wù)。
對于文本,語義概念可以被分解成離散的單詞,但是對于圖像,模型必須自己推斷哪個像素屬于哪個概念。
同樣的概念在不同的圖像之間往往會發(fā)生變化,這使得問題變得更具挑戰(zhàn)性。因此,要想掌握單個概念的變化,就需要查看大量不同的圖像。
研究人員通過instagram的公開的10億張圖片進(jìn)行模型訓(xùn)練
他們發(fā)現(xiàn),讓人工智能系統(tǒng)處理復(fù)雜的圖像數(shù)據(jù)至少需要兩個核心算法:
一是可以從大量隨機(jī)圖像中學(xué)習(xí),無需任何元數(shù)據(jù)或注釋的算法;二是卷積神經(jīng)網(wǎng)絡(luò)(ConvNet)足夠大,可以從這些數(shù)據(jù)中捕捉和學(xué)習(xí)所有視覺概念。
卷積神經(jīng)網(wǎng)絡(luò)在20世紀(jì)80年代首次提出,受到生物學(xué)過程的啟發(fā),因為模型中各組成部分之間的連接模式類似于視覺皮層。
SEER:10億張圖,無需標(biāo)記,自主訓(xùn)練數(shù)據(jù)集
SEER模型結(jié)合了最近的架構(gòu)家族「RegNet」和在線自我監(jiān)督訓(xùn)練「SwAV」來規(guī)模訓(xùn)練數(shù)具有10億參數(shù)的數(shù)十億張隨機(jī)圖像。
科研團(tuán)隊改編利用了一種新算法,稱為SwAV。它起源于FAIR的研究,后被應(yīng)用于自我監(jiān)督學(xué)習(xí)。
SwAV 使用在線聚類方法來快速分組具有相似視覺概念的圖像,并且能利用圖像的相似性改進(jìn)自我監(jiān)督學(xué)習(xí)的先進(jìn)水平,而且訓(xùn)練時間減少了6倍。
這種規(guī)模的訓(xùn)練模型還需要一個在運(yùn)行時間和內(nèi)存方面都效率很高的,又不會損失精確性的模型架構(gòu)。
幸運(yùn)的是,F(xiàn)AIR 最近在架構(gòu)設(shè)計領(lǐng)域的一項創(chuàng)新催生了一個稱為 RegNets 的新模型家族,它完全符合這些需求。
RegNet 模型能夠擴(kuò)展到數(shù)十億甚至數(shù)萬億個參數(shù),可以優(yōu)化這些參數(shù)以適應(yīng)不同的運(yùn)行時間和內(nèi)存限制。
科研團(tuán)隊對比了SEER在隨機(jī)IG圖像上的預(yù)訓(xùn)練和在ImageNET上的預(yù)訓(xùn)練,結(jié)果表明非監(jiān)督特性比監(jiān)督特性平均提高了2%。
為SEER技術(shù)添上最后一塊磚的是VISSL自我監(jiān)督學(xué)習(xí)通用庫。
服務(wù)于SEER的VISSL是開源的,這個通用圖書館能讓更廣泛的群體可以從圖像中進(jìn)行自我監(jiān)督學(xué)習(xí)實驗。
VISSL是一個基于PyTorch的庫,她允許使用各種現(xiàn)代方法在小規(guī)模和大規(guī)模上進(jìn)行自我監(jiān)督訓(xùn)練。
VISSL還包含了一個一個廣泛的基準(zhǔn)套件和一個包括了60多個預(yù)先訓(xùn)練模型的模型動物園(model zoo),使研究人員可以比較幾個現(xiàn)代自我監(jiān)督方法。
VISSL通過整合現(xiàn)有的幾種算法,減少了對每個GPU的內(nèi)存需要,提高了任意一個給定模型的訓(xùn)練速度,從而實現(xiàn)了大規(guī)模的自我監(jiān)督學(xué)習(xí)。
SEER的自我監(jiān)督模型建立在與VISSL相同的核心工具之上,并結(jié)合了PyTorch的自定義數(shù)據(jù)加載器,該加載器的數(shù)據(jù)吞吐量高于默認(rèn)值。
自監(jiān)督學(xué)習(xí)的未來
Facebook 表示,SEER在預(yù)先訓(xùn)練了10億張公開的instagram圖片后,性能優(yōu)于最先進(jìn)的自監(jiān)督模型。
SEER在目標(biāo)檢測分析、分割和圖像分類等任務(wù)上也取得了最佳結(jié)果。
用受歡迎的ImageNet10%的數(shù)據(jù)集中進(jìn)行訓(xùn)練時,SEER仍然達(dá)到了77.9%的準(zhǔn)確率。
當(dāng)只有1%的數(shù)據(jù)集訓(xùn)練時,SEER的準(zhǔn)確率是60.5% 。
接下來,F(xiàn)acebook將發(fā)布SEER背后的一些技術(shù),但不會發(fā)布算法本身,因為它使用了instagram用戶的數(shù)據(jù)進(jìn)行訓(xùn)練。
麻省理工學(xué)院計算知覺和認(rèn)知實驗室的負(fù)責(zé)人Aude Oliva表示,這種方法將使我們能夠?qū)嵺`更多雄心勃勃的視覺識別任務(wù),但是像SEER這樣的尖端人工智能算法的龐大規(guī)模和復(fù)雜性也帶來了問題。
SEER可能有數(shù)十億或數(shù)萬億個神經(jīng)連接或參數(shù),這樣的算法需要大量的計算能力,使可用的芯片供應(yīng)變得更加緊張。
Facebook的團(tuán)隊使用了具有32GB RAM的 V100 Nvidia GPU,并且隨著模型尺寸的增加,必須將模型放入可用的RAM中。
長期以來,自我監(jiān)督學(xué)習(xí)一直是 Facebook 人工智能的一個重點,因為它使機(jī)器能夠直接從世界上大量可用的信息中學(xué)習(xí),而不僅僅是從專門為人工智能研究創(chuàng)建的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。
自我監(jiān)督學(xué)習(xí)對計算機(jī)視覺的未來有著難以置信的影響,就像它在其他研究領(lǐng)域所做的那樣。
消除對人工注釋和元數(shù)據(jù)的需求,使計算機(jī)視覺社區(qū)能夠處理更大、更多樣化的數(shù)據(jù)集。
Facebook的研究人員表示,「這一突破可以實現(xiàn)計算機(jī)視覺的自監(jiān)督學(xué)習(xí)革命?!?/p>
參考資料:
https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/
https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/