自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LeCun謝賽寧首發(fā)全新視覺多模態(tài)模型,等效1000張A100干翻GPT-4V

人工智能 新聞
近日,LeCun和謝賽寧等大佬,共同提出了這一種全新的SOTA MLLM——Cambrian-1。開創(chuàng)了以視覺為中心的方法來設(shè)計(jì)多模態(tài)模型,同時(shí)全面開源了模型權(quán)重、代碼、數(shù)據(jù)集,以及詳細(xì)的指令微調(diào)和評(píng)估方法。

在寒武紀(jì)大爆發(fā)中,視覺的出現(xiàn)對(duì)于早期動(dòng)物至關(guān)重要。

捕食、避險(xiǎn)、引導(dǎo)進(jìn)化, 穿越時(shí)間,組成了多彩的世界。

圖片

大多數(shù)人類知識(shí),也都是通過視覺、聽覺、觸覺、味覺和嗅覺等感官體驗(yàn),以及與物理世界的交互所獲得。

對(duì)應(yīng)到大模型的學(xué)習(xí),雖然更大的規(guī)模可以增強(qiáng)多模態(tài)的能力,但視覺方面的研究和設(shè)計(jì)似乎沒有跟上。

另一方面,過度依賴語言,則可能會(huì)成為多模態(tài)學(xué)習(xí)研究的瓶頸。

近日,LeCun和謝賽寧團(tuán)隊(duì)推出了Cambrian-1,一項(xiàng)采用以視覺為中心的方法設(shè)計(jì)多模態(tài)大語言模型(MLLM)的研究,同時(shí)全面開源了模型權(quán)重、代碼、數(shù)據(jù)集,以及詳細(xì)的指令微調(diào)和評(píng)估方法。

圖片

論文地址:https://arxiv.org/abs/2406.16860

開源代碼:https://github.com/cambrian-mllm/cambrian

Cambrian-1使用MLLM指令微調(diào)作為各種視覺表示的評(píng)估協(xié)議。

整個(gè)框架圍繞五個(gè)關(guān)鍵方面進(jìn)行構(gòu)建,同時(shí)也代表了作者對(duì)MLLM設(shè)計(jì)空間的重要見解:

圖片

傳統(tǒng)協(xié)議與使用MLLM來評(píng)估視覺表征的比較:MLM采用視覺問答來解決各種現(xiàn)實(shí)世界感知任務(wù)。底部突出了Cambrian-1研究的五個(gè)關(guān)鍵支柱

Visual Representations:探索了各種視覺編碼器及其組合。

Connector Design:本文設(shè)計(jì)了一種全新的動(dòng)態(tài)的空間感知連接器,將多個(gè)模型的視覺特征與LLM集成在一起,同時(shí)減少了token的數(shù)量。

Instruction Tuning Data:研究人員從公共來源收集高質(zhì)量的視覺指令微調(diào)數(shù)據(jù),同時(shí)強(qiáng)調(diào)數(shù)據(jù)的平衡性。

Instruction Tuning Recipes:指令微調(diào)策略和實(shí)踐。

Benchmarking:分析現(xiàn)有的MLLM基準(zhǔn)測試,并引入了一個(gè)全新的以視覺為中心的基準(zhǔn)測試CV-Bench。

作為這項(xiàng)研究的「副產(chǎn)物」,團(tuán)隊(duì)順便訓(xùn)練出了一個(gè)目前性能最強(qiáng)的多模態(tài)模型。(紅線是GPT-4V的成績)

圖片

論文的一作Shengbang Tong是馬毅教授以前在伯克利帶的學(xué)生,目前在NYU讀博士一年級(jí)。

馬毅教授表示,這個(gè)模型是在過去幾個(gè)月借谷歌的TPU訓(xùn)練的(等價(jià)于1000張A100的算力)。

「所以按照現(xiàn)在技術(shù)路線,從頭到尾做一個(gè)SOTA多模態(tài)模型,基本上沒有什么學(xué)術(shù)門檻。適合學(xué)AI的研究生熱身?!?/span>

圖片

世界不需要另一個(gè)MLLM對(duì)打GPT-4V

謝賽寧剛剛發(fā)文表示,「世界不需要另一個(gè)MLLM與GPT-4V競爭。Cambrian在以視覺為核心的探索是獨(dú)一無二的,這也是為什么,我認(rèn)為是時(shí)候?qū)⒅匦膹臄U(kuò)展大模型轉(zhuǎn)移到增強(qiáng)視覺表征了」。

圖片

他繼續(xù)稱,從以往的研究項(xiàng)目(MMVP、V*、VIRL)中,團(tuán)隊(duì)已經(jīng)看到當(dāng)前MLLM系統(tǒng)在視覺方面存在一些意料之外的缺陷。

雖然可以通過增加數(shù)據(jù)等方法暫時(shí)解決一些問題,但一個(gè)根本問題是——我們的視覺表征能力不足以支持模型的語言理解。

短期內(nèi),像Astra和GPT-4o這樣的項(xiàng)目,確實(shí)令人印象深刻。

然而,要開發(fā)出一個(gè)能像人類一樣感知真實(shí)世界、可靠地管理復(fù)雜任務(wù),并做出相應(yīng)行動(dòng)的多模態(tài)助手,薄弱的視覺感知基礎(chǔ),可能會(huì)成為瓶頸。

語言先驗(yàn)很強(qiáng)大,但我們不應(yīng)該用它們作為「拐杖」(引用Yann LeCun的原話)來彌補(bǔ)視覺表征的不足。

圖片

目前,研究視覺表征學(xué)習(xí)確實(shí)極具挑戰(zhàn)性。

雖然基于CLIP模型(由語言強(qiáng)監(jiān)督)已被證明很有效,但同時(shí)也存在一些問題,比如屬性綁定。

然而,這些模型已經(jīng)存在一段時(shí)間了,令人驚訝的是我們還沒有看到任何重大突破。

另一方面,視覺自監(jiān)督學(xué)習(xí)(SSL)模型雖令人印象深刻,但傳統(tǒng)的評(píng)估方法(如線性探測或遷移到目標(biāo)檢測)不再有效。

盡管如此,我堅(jiān)信我們應(yīng)該繼續(xù)向前推進(jìn)。

CLIP/SigLIP模型很棒,但我們需要讓方法多樣化,繼續(xù)探索新的可能性,而不是安于現(xiàn)狀并宣稱勝利。

這一情況讓人想起2015-2016年,當(dāng)時(shí)大家都認(rèn)為ImageNet監(jiān)督預(yù)訓(xùn)練天下無敵,其他視覺表征至少落后10-15%。

但是,研究人員們可沒被嚇倒,還是繼續(xù)琢磨各種新方法和任務(wù)。

直到幾年后,MoCo就展示了超越監(jiān)督預(yù)訓(xùn)練模型的潛力。

圖片

這也是開發(fā)Cambrian項(xiàng)目的重要原因——為更多以視覺為中心的探索鋪平道路。

之所以將模型稱為Cambrian(寒武紀(jì)),因?yàn)榫拖窈浼o(jì)大爆發(fā)時(shí)生物發(fā)展出更好的視覺能力一樣,研究團(tuán)隊(duì)相信改進(jìn)的視覺能力不僅僅是看得更遠(yuǎn),而是更深入地理解。

最后的最后,謝賽寧還分享了本人的一些感悟:

當(dāng)我從業(yè)界轉(zhuǎn)到學(xué)術(shù)界時(shí),我并不確定,我們是否能完成這種需要全棧技能的大型項(xiàng)目。如果沒有谷歌TPU研究云計(jì)劃的支持,這個(gè)項(xiàng)目是不可能完成的(非常感謝Jeff Dean和Demis Hassabis對(duì)學(xué)術(shù)界的持續(xù)支持)。我認(rèn)為Cambrian項(xiàng)目證明了學(xué)界和業(yè)界是可以互補(bǔ)的。

愛丁堡大學(xué)機(jī)器學(xué)習(xí)博士Yao Fu表示,作為一個(gè)想要了解視覺語言的LLM學(xué)者,我發(fā)現(xiàn)這篇論文有極高信息量,直接回答了我的困惑。

圖片

斯坦福大學(xué)博士后研究員Karl Pertsch暢想了這項(xiàng)研究的前景,他認(rèn)為,視覺語言模型(VLMs)在視覺方面還有很大的改進(jìn)空間,機(jī)器人學(xué)也可能是一個(gè)很好的測試平臺(tái)!

「對(duì)于視覺語言動(dòng)作(VLA)訓(xùn)練(即視覺語言模型+動(dòng)作),我們發(fā)現(xiàn)現(xiàn)有的視覺編碼器需要大量的微調(diào),才能在機(jī)器人控制中表現(xiàn)良好,不過在這一領(lǐng)域的評(píng)估并不容易」。

圖片

一起看看這項(xiàng)研究的技術(shù)細(xì)節(jié)。

開始熱身

在當(dāng)前的MLLM研究中,視覺組件的設(shè)計(jì)選擇通常沒有得到充分探索,并且與視覺表征學(xué)習(xí)研究脫節(jié)。

這種差距,阻礙了現(xiàn)實(shí)場景中準(zhǔn)確的感官基礎(chǔ)。

這項(xiàng)研究的動(dòng)機(jī),正是源于當(dāng)前多模態(tài)學(xué)習(xí)研究存在的兩個(gè)潛在問題。

1. 過早地依賴語言可能會(huì)成為一種捷徑,彌補(bǔ)學(xué)習(xí)有效視覺表征的缺陷

2. 現(xiàn)有的基準(zhǔn)可能無法為現(xiàn)實(shí)場景提供足夠的指導(dǎo),畢竟,視覺基礎(chǔ)對(duì)于穩(wěn)健的多模態(tài)理解至關(guān)重要

如上文所言,這些擔(dān)憂并非空穴來風(fēng),因?yàn)檠芯咳藛T已經(jīng)開始注意到,視覺基礎(chǔ)早已成為在具有挑戰(zhàn)性的現(xiàn)實(shí)世界中應(yīng)用MLLM的瓶頸。

與此同時(shí),用于視覺表征學(xué)習(xí)的傳統(tǒng)評(píng)估基準(zhǔn)(例如,在ImageNet-1K、COCO和ADE20K等數(shù)據(jù)集上進(jìn)行線性探測和端到端微調(diào))正在變得飽和,并不能反映現(xiàn)實(shí)世界分布中的多樣化感知挑戰(zhàn)。

相比之下,使用視覺問答(VQA)形式的語言提供了靈活且強(qiáng)大的評(píng)估基準(zhǔn)。

而這項(xiàng)研究,就探索了全新的協(xié)議基準(zhǔn),從而更好地指導(dǎo)未來的視覺表征開發(fā)。

圖片

各種視覺模型、目標(biāo)和架構(gòu)的示例

多模態(tài)領(lǐng)域的基準(zhǔn)測試

為了有效評(píng)估視覺表征和MLLM,首先就需要選擇能夠準(zhǔn)確評(píng)估它們多模態(tài)功能的基準(zhǔn)。

誰來回答這個(gè)問題:LLM還是MLLM?確定基準(zhǔn)是否真正需要視覺輸入來解決,一直是視覺語言研究中的挑戰(zhàn)。

為此而,研究人員比較了使用23個(gè)不同視覺主干訓(xùn)練的MLLM,分別禁用和啟用它們的視覺能力并且通過隨機(jī)猜測,計(jì)算了預(yù)期分?jǐn)?shù)。

圖片

MLLM在啟用和禁用視覺輸入情況下,在不同基準(zhǔn)測試中的表現(xiàn)

實(shí)驗(yàn)結(jié)果如上圖所示,一些基準(zhǔn)(比如MMMU和AI2D)不太依賴視覺輸入,而在其他基準(zhǔn)(如MMVP和MME)上則出現(xiàn)了顯著的性能下降,表明后者能夠?qū)LLM進(jìn)行有效評(píng)估。

圖片

基于性能指標(biāo)的主成分分析,顯示基準(zhǔn)測試的聚類情況

通過對(duì)各種基準(zhǔn)上的MLLM性能的相關(guān)性分析和主成分分析,可以得到不同的聚類:藍(lán)色的「通用」、黃色的「知識(shí)」、紅色的「圖表與OCR」和藍(lán)色的「以視覺為中心」。

上圖中的圓圈大小表示基準(zhǔn)的不同規(guī)模,可以看到,以視覺為中心的基準(zhǔn)非常稀缺。

于是,為了更好地評(píng)估真實(shí)環(huán)境中的視覺表征,研究人員通過將傳統(tǒng)視覺基準(zhǔn)轉(zhuǎn)換為VQA格式,開發(fā)了一個(gè)以視覺為中心的MLLM基準(zhǔn)——CV-Bench。

如下圖和下表所示,CV-Bench通過空間關(guān)系和物體計(jì)數(shù)評(píng)估2D理解,通過深度順序和相對(duì)距離評(píng)估3D理解。

圖片

圖片

CV-Bench重新利用標(biāo)準(zhǔn)視覺任務(wù)進(jìn)行多模態(tài)評(píng)估,包含約2600個(gè)VQA問題。

指令微調(diào)

一階段與兩階段訓(xùn)練

MLLM一般使用MLP作為連接器連接預(yù)先訓(xùn)練的LLM和視覺骨干網(wǎng)。

不過最近的研究建議跳過連接器預(yù)訓(xùn)練以降低計(jì)算成本(同時(shí)不影響性能)。

于是作者用不同大小的適配器數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),遵循LLaVA的方法,最初僅微調(diào)連接器,然后解凍LLM和連接器。

下圖表明,預(yù)訓(xùn)練連接器可以提高性能,而使用更多適配器數(shù)據(jù)可以進(jìn)一步增強(qiáng)性能,所以這里采用1.2M適配器數(shù)據(jù)標(biāo)準(zhǔn)化2階段訓(xùn)練方法。

圖片

凍結(jié)與解凍視覺編碼器

在微調(diào)期間可以選擇凍結(jié)或解凍視覺主干網(wǎng)絡(luò)。一些人認(rèn)為,解凍視覺主干會(huì)顯著降低性能。

本文的實(shí)驗(yàn)表明,在合理的視覺模型學(xué)習(xí)率下,除了知識(shí)基準(zhǔn)的邊際變化之外,解凍有利于提高所有基準(zhǔn)測試的性能。

MLLM作為視覺模型評(píng)估器

使用2階段指令微調(diào)、1.2M適配器數(shù)據(jù)、737K微調(diào)數(shù)據(jù)來比較各種視覺模型對(duì)下游MLLM性能的影響。

評(píng)估結(jié)果表明,語言監(jiān)督模型在所有基準(zhǔn)類別中都表現(xiàn)出強(qiáng)大的優(yōu)勢,尤其是在OCR和圖表任務(wù)中。

另外,盡管DINOv2等SSL模型的數(shù)據(jù)集較小,但它們在以視覺為中心的基準(zhǔn)測試中表現(xiàn)很不錯(cuò)。

圖片

基于語言監(jiān)督和自監(jiān)督視覺編碼器的MLLM在各類基準(zhǔn)測試中的性能排名,包括所有基準(zhǔn)測試(All)、一般類(G)、知識(shí)類(K)、OCR和圖表類(O)、以及以視覺為中心的基準(zhǔn)測試(V)。

圖片

組合多個(gè)視覺編碼器

如上圖所示,不同的視覺模型在MLLM性能的不同方面表現(xiàn)各有千秋。研究人員于是探索了組合多個(gè)視覺編碼器以利用其獨(dú)特的潛力。

鑒于不同的視覺編碼器使用不同的架構(gòu)和圖像分辨率,這里將輸出視覺標(biāo)記插值到固定數(shù)字576。結(jié)果如下表所示,隨著更多模型的添加,性能得到了一致的改進(jìn)。

圖片

然而,這種策略有兩個(gè)局限性:1)采用插值可能會(huì)導(dǎo)致信息丟失,特別是在具有高分辨率特征圖的視覺編碼器上,2)不應(yīng)簡單的串聯(lián)每個(gè)模型,而是需要尋求一種更有效的策略,充分利用模型組合,使信息損失更少,靈活性更大。

縮小CLIP和SSL模型之間的差距

在上面的結(jié)果中,DINOv2在一般VQA和知識(shí)VQA任務(wù)上,表現(xiàn)處于SSL模型和CLIP模型之間,而在以視覺為中心的基準(zhǔn)測試中優(yōu)于某些CLIP模型。

研究人員嘗試解凍視覺主干并增加視覺微調(diào)數(shù)據(jù)量,以縮小這一差距。

如下圖所示,通過解凍視覺主干,并使用5M數(shù)據(jù)進(jìn)行微調(diào),基于DINOv2的MLLM超過了使用CLIP模型的MLLM(0.7M訓(xùn)練數(shù)據(jù))。

圖片

此外,在5M數(shù)據(jù)的實(shí)驗(yàn)設(shè)置下,DINOv2與CLIP模型之間的差距縮小了。

新的連接器設(shè)計(jì)

為了有效地聚合來自多個(gè)視覺編碼器的特征并減少插值期間的信息丟失,這里使用一組可學(xué)習(xí)的潛在查詢,它們通過交叉注意力層與多個(gè)視覺特征交互。

方法結(jié)合了兩個(gè)新的以視覺為中心的設(shè)計(jì)原則:

1.通過顯式本地化查詢中每個(gè)標(biāo)記的聚合空間來編碼空間歸納偏差。

2.在LLM層中多次執(zhí)行視覺特征聚合,允許模型重復(fù)引用必要的視覺信息。

圖片

指令微調(diào)數(shù)據(jù)

研究人員收集了所有可用的指令微調(diào)數(shù)據(jù),并通過增強(qiáng)多樣性、平衡來源和改進(jìn)混合來檢查數(shù)據(jù)管理。

數(shù)據(jù)采集

作者首先使用涉及視覺交互數(shù)據(jù)的現(xiàn)有多模態(tài)基準(zhǔn)和數(shù)據(jù)集,例如視覺問答(VQA)和OCR數(shù)據(jù)。此外還收集了少量高質(zhì)量的語言指令跟蹤數(shù)據(jù),以維持其語言能力。

圖片

作者還推出了一個(gè)數(shù)據(jù)引擎,幫助創(chuàng)建大規(guī)模、可靠、高質(zhì)量的基于知識(shí)的多模態(tài)指令微調(diào)數(shù)據(jù)。

圖片

最終,這些數(shù)據(jù)構(gòu)成了一個(gè)大型指令微調(diào)數(shù)據(jù)池——Cambrian-10M,包含大約9784k個(gè)數(shù)據(jù)點(diǎn)。

另外,研究人員還通過改進(jìn)數(shù)據(jù)平衡和微調(diào)數(shù)據(jù)比率來進(jìn)行數(shù)據(jù)管理。

為來自單個(gè)數(shù)據(jù)源的數(shù)據(jù)點(diǎn)數(shù)量設(shè)置閾值t,選擇t=150k、250k、350k和450k,發(fā)現(xiàn)250k和350k之間的閾值對(duì)于Cambrian-10M效果最佳。

圖片

考慮到不同類型的視覺指令微調(diào)數(shù)據(jù)的不同能力,平衡這些數(shù)據(jù)類型的比例至關(guān)重要。

使用1350k的固定數(shù)據(jù)集大小進(jìn)行試點(diǎn)實(shí)驗(yàn),檢查不同數(shù)據(jù)比例對(duì)下游性能的影響。從下圖的結(jié)果可以發(fā)現(xiàn):

(1)平衡一般數(shù)據(jù)、OCR和語言數(shù)據(jù)至關(guān)重要。(2)知識(shí)密集型任務(wù)的表現(xiàn)受到多種因素的影響,通常需要結(jié)合OCR、圖表、推理和一般感知。

圖片

答錄機(jī)現(xiàn)象

在這里,研究人員觀察到了一種「答錄機(jī)現(xiàn)象」。

他們發(fā)現(xiàn),訓(xùn)練有素的MLLM在VQA基準(zhǔn)測試中表現(xiàn)出色,卻往往缺乏基本的對(duì)話能力,傾向于輸出簡短的響應(yīng)。

這種差異的原因在于,基準(zhǔn)測試問題通常只需要一個(gè)選項(xiàng)、選擇或單詞的回答,這與MLLM在更廣泛和現(xiàn)實(shí)的應(yīng)用場景中有所不同。

研究人員認(rèn)為,這個(gè)問題是由于指令微調(diào)數(shù)據(jù)中包含了過多的簡答VQA任務(wù),導(dǎo)致大語言模型出現(xiàn)了災(zāi)難性遺忘。

作者發(fā)現(xiàn),在訓(xùn)練期間加入額外的系統(tǒng)提示可以減輕這種現(xiàn)象。

通過附加諸如「用一個(gè)單詞或短語回答問題」之類的提示,模型的基準(zhǔn)性能保持不變,而其會(huì)話能力顯著提高。

比如下圖中,帶有系統(tǒng)提示的模型會(huì)在正確回答問題的同時(shí),產(chǎn)生更長、更有吸引力的回答。

圖片

而且,系統(tǒng)提示還會(huì)通過鼓勵(lì)一連串的思考,來增強(qiáng)模型在推理任務(wù)(如數(shù)學(xué)問題)上的表現(xiàn)。

圖片

SOTA MLLM

最后,研究人員基于之前的設(shè)計(jì)框架,訓(xùn)練一個(gè)高性能的Cambrian模型。

他們使用了三種參數(shù)大小的LLM進(jìn)行了訓(xùn)練:LLaMA-3-Instruct-8B、Vicuna-1.5-13B、Hermes-2-Yi-34B。

視覺部分結(jié)合了四種模型——SigLIP、CLIP、DINOv2和OpenCLIP ConvNeXt,并使用了空間視覺聚合器。

與此同時(shí),訓(xùn)練過程中采用了250萬條適配器數(shù)據(jù),以及700萬條指令微調(diào)數(shù)據(jù)。

經(jīng)過實(shí)驗(yàn)評(píng)估,性能結(jié)果如下表5所示,Cambrian-1超越了其他開源模型,如LLaVA-NeXT和Mini-Gemini,并在多個(gè)基準(zhǔn)測試上達(dá)到了與最佳專有模型(如GPT-4V、Gemini-Pro和MM-1)相當(dāng)?shù)男阅堋?/span>

圖片

Cambrian-1僅僅使用了576個(gè)token,卻仍能有效關(guān)注圖像中的細(xì)節(jié)。

如下面兩張圖所示,Cambrian-1-34B在視覺交集方面,展示了令人印象深刻的能力。

從最下面的示例可以看出,它展示出了指令跟隨能力,例如json格式的輸出。

圖片

另外,從下圖中模型處理不同的逗號(hào)的示例可以看出,Cambrian-1還表現(xiàn)出了卓越的OCR能力。

圖片

作者介紹

Shengbang Tong

Peter Tong(Shengbang Tong,童晟邦)是NYU Courant CS的一名博士生,導(dǎo)師是Yann LeCun教授和謝賽寧教授。

此前,他在加州大學(xué)伯克利分校主修計(jì)算機(jī)科學(xué)、應(yīng)用數(shù)學(xué)(榮譽(yù))和統(tǒng)計(jì)學(xué)(榮譽(yù))。

并曾是伯克利人工智能實(shí)驗(yàn)室(BAIR)的研究員,導(dǎo)師是馬毅教授和Jacob Steinhardt教授。他的研究興趣是世界模型、無監(jiān)督/自監(jiān)督學(xué)習(xí)、生成模型和多模態(tài)模型。

Penghao Wu

Penghao Wu是加州大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)專業(yè)的碩士研究生,此前于2018年在上海交通大學(xué)獲得電子與計(jì)算機(jī)工程學(xué)士學(xué)位。

目前,他在紐約大學(xué)做研究實(shí)習(xí)生,導(dǎo)師是謝賽寧教授。

Ellis Brown

圖片

Ellis Brown是紐約大學(xué)Courant計(jì)算機(jī)科學(xué)博士生,導(dǎo)師是謝賽寧和Rob Fergus,并獲得了NDSEG獎(jiǎng)學(xué)金。

最近,他于卡內(nèi)基梅隆大學(xué)獲得碩士學(xué)位,導(dǎo)師是Deepak Pathak和Alyosha Efros。在此之前,于范德比爾特大學(xué)獲得了計(jì)算機(jī)科學(xué)和數(shù)學(xué)的學(xué)士學(xué)位,并與Maithilee Kunda一起研究CoCoSci和視覺。

此外,他曾在艾倫人工智能研究所的PRIOR團(tuán)隊(duì)進(jìn)行過實(shí)習(xí),導(dǎo)師是Ross Girshick。并且還是BlackRock AI Labs的創(chuàng)始研究工程師,與Mykel Kochenderfer、Stephen Boyd和Trevor Hastie合作進(jìn)行應(yīng)用研究與金融研究。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-01-22 06:40:00

模型視覺

2025-04-08 09:10:00

模型訓(xùn)練AI

2023-10-17 12:34:04

2024-06-04 14:11:00

2024-12-23 07:15:00

多模態(tài)大模型MLLM人工智能

2024-01-18 13:39:00

AI訓(xùn)練

2023-10-08 13:43:00

模型數(shù)據(jù)

2025-04-14 09:38:00

2024-12-23 12:37:34

2024-04-14 19:53:44

2023-10-23 12:28:18

AI訓(xùn)練

2023-10-12 09:28:17

2025-04-03 11:11:50

2023-12-29 09:55:03

視覺模型

2024-01-03 12:56:39

2024-05-15 17:34:15

2023-10-10 13:42:56

訓(xùn)練數(shù)據(jù)

2023-10-12 13:05:00

谷歌AI

2024-02-07 12:39:00

AI數(shù)據(jù)

2024-02-02 21:53:58

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)