Facebook利用10億張社交軟件圖片,訓(xùn)練AI新算法
Facebook研究人員日前發(fā)布了一個新的人工智能模型SEER,SEER模型可以利用互聯(lián)網(wǎng)上任何一組隨機的、未被標(biāo)記的圖像進行學(xué)習(xí)。Facebook這一“突破”雖然還處于早期階段,但團隊預(yù)計該“突破”將導(dǎo)致計算機視覺領(lǐng)域的一場"革命"。
SEER是SElf-SupERvised(自我監(jiān)督[學(xué)習(xí)])的英文縮寫,SEER的訓(xùn)練用了10億張公開的instagram圖片,這些圖片是未經(jīng)人工策劃過的。即圖片沒有做過通常用于算法訓(xùn)練的標(biāo)簽和注釋處理,但SEER仍然能夠自主地利用數(shù)據(jù)集一邊學(xué)習(xí)一邊處理數(shù)據(jù),最終可以在物體檢測等任務(wù)上達到最高的準(zhǔn)確度。
SEER用的這種方法被稱為「自我監(jiān)督學(xué)習(xí)」,自我監(jiān)督學(xué)習(xí)在人工智能領(lǐng)域已經(jīng)非常成熟,可以直接從用于訓(xùn)練的信息創(chuàng)建學(xué)習(xí)系統(tǒng),不必依靠經(jīng)過仔細標(biāo)記的數(shù)據(jù)集訓(xùn)練如何執(zhí)行任務(wù),例如識別照片里的對象,或翻譯一段文字等任務(wù)。
自我監(jiān)督學(xué)習(xí)最近在科學(xué)界受到大量關(guān)注,因為這個方法,意味著對人類標(biāo)注數(shù)據(jù)的需要少很多,標(biāo)注數(shù)據(jù)是一項費力費時的任務(wù),是大多數(shù)研究人員都不愿做的事情。同時,由于自監(jiān)督模型不需要經(jīng)人工策劃的數(shù)據(jù)集,因此可以利用更大、更多樣化的數(shù)據(jù)集。
在某些領(lǐng)域(尤其是自然語言處理領(lǐng)域),自我監(jiān)督學(xué)習(xí)方法已經(jīng)取得了突破性的進展。許多利用無標(biāo)記文本訓(xùn)練的算法使得諸如答疑、機器翻譯、自然語言推理等應(yīng)用取得了各種進展。
相比之下,計算機視覺還沒有完全投入自我監(jiān)督學(xué)習(xí)的革命之中。Facebook AI Research的軟件工程師Priya Gopal稱,SEER標(biāo)志著計算機視覺領(lǐng)域的第一次。她告訴記者,"SEER是第一個完全自我監(jiān)督的計算機視覺模型,是利用互聯(lián)網(wǎng)的隨機圖像進行訓(xùn)練的,而相比之下,計算機視覺領(lǐng)域現(xiàn)有的自我監(jiān)督方面的工作,都是利用經(jīng)大量編輯過的ImageNet數(shù)據(jù)集進行訓(xùn)練。"
ImageNet實際上是個由數(shù)百萬張圖片組成的大規(guī)模數(shù)據(jù)庫,這些圖片都被研究人員標(biāo)注了標(biāo)簽,ImageNet面向廣大計算機視覺界開放,目的是推動人工智能的發(fā)展。
Facebook的研究人員以該項目的數(shù)據(jù)庫,作為基準(zhǔn)評估SEER的性能,他們發(fā)現(xiàn),自監(jiān)督模型在低照、物體檢測、分割和圖像分類等任務(wù)上的表現(xiàn)優(yōu)于最先進的監(jiān)督型AI系統(tǒng)。
Goyal表示,"SEER僅利用隨機圖像進行訓(xùn)練,性能卻優(yōu)于現(xiàn)有的自我監(jiān)督模型。這個結(jié)果基本上表明,我們在計算機視覺中不需要像ImageNet這種經(jīng)高度策劃過的數(shù)據(jù)集,利用隨機圖像進行自我監(jiān)督學(xué)習(xí)已經(jīng)可以產(chǎn)生非常高質(zhì)量的模型。"
由于自我監(jiān)督學(xué)習(xí)需要的精密程度較高,研究人員在這方面的工作也并非沒有挑戰(zhàn)。在涉及到文本時,人工智能模型要做的是賦予單詞特定的意思;但對于圖像而言,算法必須給每個像素賦予一個對應(yīng)的概念,同時要考慮同一個概念在不同圖片中的各種角度、視圖和形狀。
換句話說,研究人員處理圖像時,需要大量的數(shù)據(jù)以及可以復(fù)雜的信息庫中推導(dǎo)出所有可能的視覺概念的模型。
Goyal和她的團隊為了達到這個目的,在Facebook AI自我監(jiān)督學(xué)習(xí)方面的現(xiàn)有基礎(chǔ)上,開發(fā)了名為「SwAV」的新算法,SwAV算法將那些顯示相似概念的圖像分類為不同的組。Facebook科學(xué)家們還設(shè)計了一個深度學(xué)習(xí)算法的卷積網(wǎng)絡(luò),該卷積網(wǎng)絡(luò)可以模擬人腦中神經(jīng)元的連接模式,以及為圖像中的不同對象賦予不同的重要性。
該系統(tǒng)用了10億instagram圖的強大數(shù)據(jù)集,至少規(guī)模是夠大了。Facebook的團隊用了V100 Nvidia GPU和32GB內(nèi)存,模型規(guī)模增大后,團隊也只得用模型去套可用的內(nèi)存。但Goyal解釋說,下一步的研究將有助于確保計算能力可以適應(yīng)新系統(tǒng)。
她表示,"我們要在越來越多的GPU上訓(xùn)練模型時,GPU之間的通信需要足夠快速,以達到實現(xiàn)更快訓(xùn)練的目的。這樣的挑戰(zhàn)可以通過開發(fā)明確的軟件和研究技術(shù)得到解決,開發(fā)的軟件和技術(shù)能夠針對特定的內(nèi)存和運行時間預(yù)算行之有效。"
因此,在SEER付諸實際使用案例之前還有一些工作要做。但Goyal認為,SEER技術(shù)的影響不應(yīng)該被低估。她表示,"SEER技術(shù)使得我們現(xiàn)在可以利用大量豐富的互聯(lián)網(wǎng)隨機圖像訓(xùn)練大型模型,可以在計算機視覺領(lǐng)域取得各種進展。"
Goyal稱,"這一突破,可以實現(xiàn)計算機視覺領(lǐng)域的自我監(jiān)督學(xué)習(xí)革命,其和我們在自然語言處理里看到的涉及文本的自我監(jiān)督學(xué)習(xí)革命有些類似。"
SEER在Facebook內(nèi)部可以用在廣泛的計算機視覺任務(wù)上,包括自動生成圖像描述、幫助識別違反政策的內(nèi)容等等。SEER技術(shù)在Facebook以外的地方也可以在圖像和元數(shù)據(jù)有限的領(lǐng)域發(fā)揮作用,比如醫(yī)療成像。
Facebook的團隊呼吁各方面做更多的工作,以推動SEER進入下一個發(fā)展階段。Facebook團隊還開發(fā)了基于PyTorch的多用途庫,可用于自我監(jiān)督學(xué)習(xí),庫名為「VISSL」,已開源,目的是鼓勵廣泛的AI社區(qū)使用該技術(shù)進行測試。