自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

蘋果研發(fā)多模態(tài)AI,這是研究人員迄今發(fā)現(xiàn)的結(jié)果

譯文
人工智能
蘋果的研究人員揭示了確保多模態(tài)AI成功的擴(kuò)展定律和訓(xùn)練方法。

譯者 | 布加迪

審校 | 重樓

如果我告訴,在最近熱議的多模態(tài)AI背后,蘋果正悄然醞釀一場(chǎng)革命,會(huì)作何感想?蘋果的一研究人員一直在系統(tǒng)地研究如何構(gòu)建功能強(qiáng)大的多模態(tài)模型,揭露質(zhì)疑傳統(tǒng)智慧的重要見解?,F(xiàn)在他們讓我們有機(jī)會(huì)一窺底層的細(xì)節(jié)。

他們的研究工作可能會(huì)改變我們對(duì)待多模態(tài)項(xiàng)目的視角。但要理解其中的原因,需要搞清楚其研究方法和發(fā)現(xiàn)結(jié)果細(xì)節(jié)。以下是本人對(duì)蘋果研究論文的解讀。

本人在這篇文章中將介紹以下內(nèi)容:

  • 他們測(cè)試的架構(gòu)方面的具體取舍以及真正重要的方面。
  • 他們如何以一種非常有意識(shí)的方式混合數(shù)據(jù)來(lái)實(shí)現(xiàn)最先進(jìn)的小樣本(few-shot)學(xué)習(xí)。
  • 為什么他們的擴(kuò)展定律和訓(xùn)練方法對(duì)于任何建立多模態(tài)模型的人都至關(guān)重要。
  • 證明蘋果模型的出色功能的具體例子,從多圖像推理到OCR。
  • 本人對(duì)這項(xiàng)研究工作的潛在影響所持的看法,以及它提出的一些開放性問(wèn)題。

本文將給出嚴(yán)謹(jǐn)的技術(shù)解讀和通俗易懂的主旨概述。最后,對(duì)這項(xiàng)開創(chuàng)性的研究以及它如何改變AI未來(lái)會(huì)有一番清晰認(rèn)識(shí)。

引言

多模態(tài)AI已經(jīng)取得了快速發(fā)展,Flamingo、EMu2MoLLa模型展示了結(jié)合視覺(jué)和語(yǔ)言理解的潛力。然而,許多這些模型并沒(méi)有深入地揭示其架構(gòu)選擇和訓(xùn)練過(guò)程背后的基本原理。

蘋果的MM1論文介紹了一系列多模態(tài)AI模型,深入解釋了如何構(gòu)建結(jié)合視覺(jué)和語(yǔ)言理解的高性能系統(tǒng)。通過(guò)廣泛的消融研究和系統(tǒng)實(shí)驗(yàn),該團(tuán)隊(duì)發(fā)現(xiàn)了構(gòu)建高性能多模態(tài)模型方面的關(guān)鍵見解。他們的發(fā)現(xiàn)結(jié)果揭示了不同架構(gòu)選擇、數(shù)據(jù)混合策略和擴(kuò)展方法的相對(duì)重要性。

通過(guò)分享最先進(jìn)的小樣本學(xué)習(xí)的配方,論文作者們使更廣泛的研究社區(qū)能夠他們的研究工作基礎(chǔ)上更有作為。從長(zhǎng)遠(yuǎn)來(lái)看,這里開創(chuàng)技術(shù)可以推動(dòng)將視覺(jué)和語(yǔ)言理解深度整合新一代基礎(chǔ)模型。

本人本文中逐步介紹論文的關(guān)鍵部分,涵蓋他們的方法、結(jié)果、討論和結(jié)論將解釋技術(shù)細(xì)節(jié),同時(shí)提供淺顯的,主要圍繞主旨及其意義。在此過(guò)程中,本人將分享自己的分析,并著重介紹這項(xiàng)研究工作提出的一些開放式問(wèn)題。

技術(shù)解釋

論文作者著手研究如何構(gòu)建高性能的多模態(tài)語(yǔ)言模型(MLLM)。他們系統(tǒng)地分析了兩個(gè)關(guān)鍵因素1架構(gòu)組件,比如圖像編碼器和視覺(jué)語(yǔ)言連接器;2預(yù)訓(xùn)練中的數(shù)據(jù)選擇。

為了有效地評(píng)估設(shè)計(jì)方面選擇,他們使用擁有12億參數(shù)LLM的基本配置。他們通過(guò)次修改一個(gè)組件,面對(duì)VQA和字幕任務(wù)評(píng)估樣本小樣本性能的影響來(lái)進(jìn)行消融。

就架構(gòu)而言,他們測(cè)試不同的預(yù)訓(xùn)練圖像編碼器不同的目標(biāo)、數(shù)據(jù)和分辨率和視覺(jué)語(yǔ)言連接器。視覺(jué)語(yǔ)言連接器而言,他們測(cè)試了平均池化、注意力池化和一個(gè)叫做C-Abstractor的卷積ResNet塊。令人驚訝的是,特定的連接器架構(gòu)對(duì)性能幾乎沒(méi)有影響。預(yù)訓(xùn)練數(shù)據(jù)而言,他們結(jié)合使用帶字幕的圖像、交錯(cuò)的圖像-文本文檔和純文本數(shù)據(jù)。

結(jié)果

1. MM1可以跨圖像執(zhí)行指令和推理。來(lái)自VILA的示例和圖像在思維鏈的提示下,VILA正確回答

FlamingoIDEFICS、EMu2相比,最終的MM1系列可擴(kuò)展至300億個(gè)參數(shù),在關(guān)鍵基準(zhǔn)測(cè)試中獲得了SOTA小樣本測(cè)試結(jié)果。

至于架構(gòu)方面,研究人員發(fā)現(xiàn)按重要性排序):

  1. 圖像分辨率具有最大的影響,從224px到336px有3%的提升。
  2. 圖像編碼器大小和預(yù)訓(xùn)練數(shù)據(jù)也很重要,從ViT-L到ViT-H提升幅度小于1%
  3. 視覺(jué)語(yǔ)言連接器設(shè)計(jì)選擇的影響可以忽略不計(jì)。

至于預(yù)訓(xùn)練數(shù)據(jù)方面:

  • 錯(cuò)數(shù)據(jù)對(duì)于小樣本和純文本性能至關(guān)重要,可以提升10%以上。
  • 字幕數(shù)據(jù)改善零樣本明顯。
  • 合成字幕幫助小樣本(+2-4%)。
  • 仔細(xì)混合模態(tài)(5:5:1比例的字幕,交錯(cuò)文本)效果最好

與Flamingo、IDEFICS、EMu2相比,最終的MM1模型可擴(kuò)展到300億參數(shù),在關(guān)鍵基準(zhǔn)測(cè)試中獲得SOTA小樣本結(jié)果。

論文作者證明了他們?cè)诒O(jiān)督微調(diào)(SFT獲得的訓(xùn)練前見解。MM1表現(xiàn)出令人信服的特性,比如多圖像推理、OCR上下文小樣本學(xué)習(xí)。

有意架構(gòu)和數(shù)據(jù)選擇的MM1配方在擴(kuò)展帶來(lái)高性能。論文作者希望這些見解能夠適用于具體實(shí)現(xiàn)之外的更廣泛環(huán)境

淺顯的解釋

要點(diǎn)是,蘋果的研究人員做了一系列實(shí)驗(yàn),以查明構(gòu)建理解圖像文本的AI模型的最佳方法。

他們測(cè)試了不同的模型組件,比如編碼圖像的部分和連接圖像和文本的部分。他們發(fā)現(xiàn)有些方面很重要圖像分辨率編碼器大小/數(shù)據(jù),而其他方面其實(shí)不重要連接器設(shè)計(jì)

訓(xùn)練模型時(shí),他們還嘗試混合不同類型的數(shù)據(jù)。比如加字幕的圖形、文本和圖片混合在一起的文檔以及純文本。關(guān)鍵似乎要有多樣性——這有助于模型處理不同的情況,比如描述圖像或回答問(wèn)題。

當(dāng)他們把這一切結(jié)合在一起,使模型變得非常大300億參數(shù)時(shí),最擅長(zhǎng)從僅僅幾個(gè)例子中學(xué)習(xí)。它擁有一些出色的功能,比如針對(duì)多個(gè)圖像進(jìn)行推理、讀取圖像中的文本,甚至解釋自己的輸出。

簡(jiǎn)而言之,秘密武器是有意地處理模型組件和訓(xùn)練數(shù)據(jù)。通過(guò)分享這一秘訣,這些研究人員正在為新一代功能強(qiáng)大的多模態(tài)AI系統(tǒng)鋪平道路。

批判性分析

不妨考慮一下MM1研究工作的幾處注意事項(xiàng)和限制

  • 評(píng)估基準(zhǔn):論文作者特別指出,當(dāng)前的評(píng)估集以字幕為中心。為此優(yōu)化的模型可能無(wú)法推廣到其他多模態(tài)任務(wù)。我們需要更多樣化的基準(zhǔn)。
  • 擴(kuò)展定律將超參數(shù)外推到更大的規(guī)模有風(fēng)險(xiǎn)。可能會(huì)出現(xiàn)小規(guī)模測(cè)試中并未出現(xiàn)的穩(wěn)定性問(wèn)題。在訓(xùn)練大模型時(shí),需要仔細(xì)監(jiān)控。
  • 合成數(shù)據(jù)雖然合成字幕有幫助,但生成的數(shù)據(jù)有限制。過(guò)度優(yōu)化可能會(huì)導(dǎo)致奇怪的失效模式。使用須謹(jǐn)慎。
  • 偏見/公平性:沒(méi)有分析輸出或訓(xùn)練數(shù)據(jù)中社會(huì)偏見。為了負(fù)責(zé)任的部署,這需要仔細(xì)審查,尤其是針對(duì)從網(wǎng)上抓取的數(shù)據(jù)。
  • 硬件訪問(wèn):消融使用了一個(gè)有12億參數(shù)的型號(hào),但最終系統(tǒng)300億參數(shù)。在算力有限的情況下,獲得的見解可能不太適用。我們需要研究小模型設(shè)計(jì)。

論文作者確實(shí)承認(rèn)有改進(jìn)的余地比如擴(kuò)展視覺(jué)編碼器、改進(jìn)視覺(jué)語(yǔ)言橋接迭代評(píng)估套件。

除了研究人員承認(rèn)的局限性外,本人認(rèn)為關(guān)于MM1方法還有一些更深層次的問(wèn)題值得討論。比如說(shuō),嚴(yán)重依賴從網(wǎng)抓取數(shù)據(jù)讓人們對(duì)訓(xùn)練集的代表性和潛在偏見引發(fā)擔(dān)憂。同樣值得考慮的是,這里確定的特定架構(gòu)選擇和擴(kuò)展定律是否可以推廣到視覺(jué)和語(yǔ)言之外的其他模態(tài),或者擴(kuò)大到更開放的生成任務(wù)。在這個(gè)領(lǐng)域參與這些更廣泛的辯論將加強(qiáng)這項(xiàng)研究工作的影響。

結(jié)論

我們能從蘋果的MM1論文中學(xué)到什么呢

首先,這篇論文為訓(xùn)練高性能的多模態(tài)模型提供了更清晰的路線圖。如果深思熟慮架構(gòu)和數(shù)據(jù)選擇,并認(rèn)真擴(kuò)展,我就能發(fā)掘出色小樣本學(xué)習(xí)和推理能力。

其次,論文提出了該領(lǐng)域的關(guān)鍵開放問(wèn)題。我們?nèi)绾谓⑷鏈y(cè)試多模態(tài)技能的基準(zhǔn)對(duì)于通用模型來(lái)說(shuō),數(shù)據(jù)模式和任務(wù)的正確組合是什么在保持性能的情況下,我們可以將模型尺寸做得???

三是,論文為基礎(chǔ)多模態(tài)模型方面的開放研究確立了新標(biāo)準(zhǔn)。通過(guò)詳細(xì)介紹訓(xùn)練過(guò)程和釋放消融,作者使業(yè)界能夠復(fù)制和擴(kuò)展他們的研究工作。這對(duì)加快整個(gè)行業(yè)的進(jìn)展至關(guān)重要。

展望未來(lái),MM1論文有望成為多模態(tài)AI研究領(lǐng)域的一重要里程碑。通過(guò)為模型設(shè)計(jì)和訓(xùn)練提供嚴(yán)謹(jǐn)的經(jīng)驗(yàn)基礎(chǔ),論文為該領(lǐng)域的未來(lái)發(fā)展奠定了基礎(chǔ)。雖然它是否會(huì)帶來(lái)類似于GPT-4的變革性影響還有待觀察,但本文給人的見解可以指導(dǎo)研究人員繼續(xù)推動(dòng)多模態(tài)系統(tǒng)的最高性能。當(dāng)然,實(shí)現(xiàn)這個(gè)潛力將需要持續(xù)的努力來(lái)利用和擴(kuò)展這些發(fā)現(xiàn)結(jié)果,同時(shí)也竭力解決上面強(qiáng)調(diào)的局限性和開放性問(wèn)題。

本人而言,我很期待看到這方面會(huì)帶來(lái)怎樣的發(fā)展。

原文標(biāo)題:Apple is working on multimodal AI. Here's what they've uncovered so far,作者:Mike Young

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2013-03-28 10:34:29

2025-02-06 07:26:35

2021-02-16 10:02:36

惡意擴(kuò)展安全插件網(wǎng)絡(luò)攻擊

2013-06-08 09:23:20

2014-12-25 09:51:32

2025-02-25 10:21:12

2012-03-23 09:28:14

2021-10-14 07:42:25

蘋果藍(lán)牙Bug

2019-05-22 08:11:51

Winnti惡意軟件Linux

2021-06-08 13:55:41

AI 數(shù)據(jù)人工智能

2021-03-31 09:17:46

Android惡意軟件攻擊

2013-08-09 11:33:58

2023-07-07 15:44:12

漏洞網(wǎng)絡(luò)安全

2021-05-11 06:27:28

蘋果AirTag漏洞

2020-07-08 16:46:46

人工智能病毒技術(shù)

2020-10-09 08:34:57

AI

2015-03-10 11:12:42

2021-05-12 11:06:26

攻擊AirTag破解

2011-08-23 13:37:47

2023-12-25 09:07:50

AI人工智能Ferret
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)