自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LeCun領導下的Meta AI,押注自監(jiān)督

人工智能
Meta 的 MAE 建立在一種名為 Transformer 的神經(jīng)網(wǎng)絡架構基礎之上。這種架構最初在自然語言處理領域走紅,之后擴展到計算機視覺等多個領域。?

自監(jiān)督學習真的是通往 AGI 的關鍵一步?

Meta 的 AI 首席科學家 Yann LeCun 在談到「此時此刻要采取的具體措施」時,也沒有忘記遠期的目標。他在一次采訪時說:「我們想要構建像動物和人類一樣學習的智能機器?!?/p>

近幾年,Meta 發(fā)表了一系列關于 AI 系統(tǒng)自監(jiān)督學習(SSL)的論文。LeCun 堅定地認為,SSL 是 AI 系統(tǒng)的必要前提,它可以幫助 AI 系統(tǒng)構建世界模型,以獲得類似人類的能力,如理性、常識,以及將技能和知識從一個環(huán)境遷移到另一個環(huán)境的能力。

他們的新論文展示了一種被稱為掩蔽自編碼器(MAE)的自監(jiān)督系統(tǒng)如何學會從非常零散、不完整的數(shù)據(jù)中重建圖像、視頻甚至音頻。雖然 MAE 并不是一個新的想法,但 Meta 已經(jīng)將這項工作擴展到了新的領域。?

LeCun 說,通過研究如何預測丟失的數(shù)據(jù),無論是靜態(tài)圖像還是視頻或音頻序列,MAE 系統(tǒng)都是在構建一個世界模型。他說:「如果它能預測視頻中即將發(fā)生的事情,它必須明白世界是三維的,有些物體是無生命的,它們自己不會移動,其他物體是有生命的,很難預測,一直到預測有生命的人的復雜行為。」一旦 AI 系統(tǒng)有了一個精確的世界模型,它就可以使用這個模型來計劃行動。

LeCun 說,「智能的本質是學會預測。」雖然他并沒有聲稱 Meta 的 MAE 系統(tǒng)接近于通用人工智能,但他認為這是通往通用人工智能的重要一步。?

但并非所有人都同意 Meta 的研究人員走在通往通用人工智能的正確道路上。Yoshua Bengio 有時會與 LeCun 就 AI 領域的重大想法進行友好的辯論。在給 IEEE Spectrum 的一封電子郵件中,Bengio 闡述了他們在目標上的一些不同和相似之處。

Bengio 寫道:「我真的不認為我們目前的方法(無論是不是自監(jiān)督)足以彌合人工與人類智能水平的差距。」他說,該領域需要取得「質的進步」,才能真正推動技術向人類規(guī)模的人工智能靠攏。

對于 LeCun 的「對世界的推理能力是智能的核心要素」這一觀點,Bengio 表示贊同,但他的團隊并沒有把重點放在能夠預測的模型上,而是放在了能夠以自然語言的形式呈現(xiàn)知識的模型上。他指出,這樣的模型將允許我們將這些知識片段結合起來,以解決新問題,進行反事實模擬,或研究可能的未來。Bengio 的團隊開發(fā)了一種新的神經(jīng)網(wǎng)絡框架,它比致力于端到端學習的 LeCun 所青睞的框架更具模塊化的性質。?

大火的 Transformer

Meta 的 MAE 建立在一種名為 Transformer 的神經(jīng)網(wǎng)絡架構基礎之上。這種架構最初在自然語言處理領域走紅,之后擴展到計算機視覺等多個領域。?

當然,Meta 并不是第一個成功將 Transformer 用到視覺任務中的團隊。Meta AI 的研究者 Ross Girshick 介紹說,谷歌在視覺 Transformer(ViT)上的研究啟發(fā)了 Meta 的團隊,「ViT 架構的采用幫助(我們)消除了試驗過程中遇到的一些障礙」。

Girshick 是 Meta 第一篇 MAE 系統(tǒng)論文?的作者之一,這篇論文的一作是何愷明,他們論述了一種非常簡單的方法:掩蔽輸入圖像的隨機區(qū)塊并重建丟失的像素。

圖片

這種模型的訓練類似于 BERT 以及其他一些基于 Transformer 的語言模型,研究人員會向它們展示巨大的文本數(shù)據(jù)庫,但有些詞是缺失的,或者說被「掩蔽」了。模型需要自己預測出缺失的詞,然后被掩蔽的詞會被揭開,這樣模型就能檢查自己的工作并更新自己的參數(shù)。這一過程會一直重復下去。Girshick 解釋說,為了在視覺上做類似的事情,研究小組將圖像分解成 patch,然后掩蔽一些 patch 并要求 MAE 系統(tǒng)預測圖像缺失的部分。

該團隊的突破之一是意識到,掩蔽大部分圖像會獲得最好的結果,這與語言 transformer 有著關鍵區(qū)別,后者可能只會掩蔽 15% 的單詞?!刚Z言是一種極其密集和高效的交流系統(tǒng),每個符號都包含很多含義,」Girshick 說,「但是圖像——這些來自自然世界的信號——并不是為了消除冗余而構建的。所以我們才能在創(chuàng)建 JPG 圖像時很好地壓縮內容?!?/p>

圖片

?Meta AI 的研究人員試驗需要掩蔽多少圖像獲得最佳效果。

Girshick 解釋說,通過掩蔽圖像中超過 75% 的 patch,他們消除了圖像中的冗余,否則會使任務變得過于瑣碎,不適合訓練。他們那個由兩部分組成的 MAE 系統(tǒng)首先使用一個編碼器,通過訓練數(shù)據(jù)集學習像素之間的關系,然后一個解碼器盡最大努力從掩蔽圖像中重建原始圖像。在此訓練方案完成后,編碼器還可以進行微調,用于分類和目標檢測等視覺任務。

Girshick 說,「最終讓我們興奮的點在于,我們看到了這個模型在下游任務中的結果。」當使用編碼器完成目標識別等任務時,「我們看到的收益非??捎^?!顾赋?,繼續(xù)增大模型可以獲得更好的性能,這對未來的模型來說是一個有潛力的方向,因為 SSL「具有使用大量數(shù)據(jù)而不需要手動注釋的潛力」。

全力以赴地學習海量的未經(jīng)篩選的數(shù)據(jù)集可能是 Meta 提高 SSL 結果的策略,但也是一個越來越有爭議的方法。Timnit Gebru 等人工智能倫理研究人員已經(jīng)呼吁大家注意大型語言模型學習的未經(jīng)整理的數(shù)據(jù)集固有的偏見,這些偏見有時會導致災難性的結果。

視頻和音頻的自監(jiān)督學習

在視頻 MAE 系統(tǒng)中,掩蔽物遮蔽了每個視頻幀的 95%,因為幀之間的相似性意味著視頻信號比靜態(tài)圖像有更多的冗余。Meta 研究人員 Christoph Feichtenhofer 說,就視頻而言,MAE 方法的一大優(yōu)勢是視頻通常需要大量計算,而 MAE 通過屏蔽每幀高達 95% 的內容,減少了高達 95% 的計算成本。?

這些實驗中使用的視頻片段只有幾秒鐘,但 Feichtenhofer 表示,用較長的視頻訓練人工智能系統(tǒng)是一個非?;钴S的研究課題。想象一下,你有一個虛擬助理,他有你家的視頻,可以告訴你一個小時之前你把鑰匙放在哪里了。

更直接地說,我們可以想象圖像和視頻系統(tǒng)對 Facebook 和 Instagram 上的內容審核所需的分類任務都很有用,F(xiàn)eichtenhofer 說,「integrity」是一種可能的應用,「我們正在與產品團隊溝通,但這是非常新的,我們還沒有任何具體的項目?!?/p>

對于音頻 MAE 工作,Meta AI 的團隊表示他們將很快將研究成果發(fā)布在 arXiv 上。他們發(fā)現(xiàn)了一個巧妙的方法來應用掩蔽技術。他們將聲音文件轉化為聲譜圖,即信號中頻率頻譜的視覺表征,然后將部分圖像掩蔽起來進行訓練。重建的音頻令人印象深刻,盡管該模型目前只能處理幾秒鐘的片段。?

該音頻系統(tǒng)的研究人員 Bernie Huang 說,這項研究的潛在應用包括分類任務,通過填充數(shù)據(jù)包被 drop 時丟失的音頻來輔助基于 IP 的語音傳輸(VoIP),或者找到更有效的壓縮音頻文件的方法。

Meta 一直在進行開源 AI 方面的研究,如這些 MAE 模型,還為人工智能社區(qū)提供了一個預訓練的大型語言模型?。但批評人士指出,盡管在研究方面如此開放,但 Meta 還沒有把它的核心商業(yè)算法開放出來供大家研究,即那些控制新聞推送、推薦和廣告植入的算法。?

責任編輯:未麗燕 來源: 機器之心
相關推薦

2022-01-21 15:33:56

架構模型AI

2021-03-05 12:58:31

AISEER模型

2020-02-02 17:05:46

蘋果庫克喬布斯

2022-01-06 09:57:02

數(shù)據(jù)計算機神經(jīng)網(wǎng)絡

2025-03-17 12:00:17

2024-05-29 13:05:29

2021-11-04 23:11:53

比特幣加密貨幣貨幣

2022-03-26 18:00:22

OS XMac蘋果

2023-04-26 13:51:57

監(jiān)督學習論文

2024-10-16 16:00:00

訓練AI

2023-02-14 15:11:19

工具模型

2024-02-19 08:58:00

模型AI

2022-06-06 11:07:29

ARAI

2023-06-13 18:45:00

研究監(jiān)督

2025-04-15 00:10:00

蘋果AR眼鏡Meta

2022-02-23 19:38:46

AI自監(jiān)督無監(jiān)督學習

2025-03-03 09:22:00

2024-07-19 11:50:28

2025-04-21 08:40:00

算力AI模型

2025-04-28 07:05:00

AI戰(zhàn)略AI計劃GenAI
點贊
收藏

51CTO技術棧公眾號