自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ol id="qbo9y"></ol>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Gemini vs GPT-4V到底哪家強(qiáng)？視覺-語言模型的全面比較和結(jié)合使用

作者：戚張揚(yáng) 2023-12-29 09:55:03

人工智能智能汽車

這篇論文提供了對谷歌的Gemini和OpenAI的GPT-4V(ision)兩個(gè)SOTA模型的深入定性比較研究。我們的研究涉及到對這兩個(gè)模型在視覺語言能力、與人類的互動(dòng)、時(shí)間理解以及智力和情感智商等關(guān)鍵維度上的多方面評估。

本文經(jīng)自動(dòng)駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

概括

大家好，我是戚張揚(yáng)，目前就讀于香港大學(xué)，今天和大家分享一篇我們關(guān)于視覺語言模型最新的研究，這篇論文提供了對谷歌的Gemini和OpenAI的GPT-4V(ision)兩個(gè)SOTA模型的深入定性比較研究。我們的研究涉及到對這兩個(gè)模型在視覺語言能力、與人類的互動(dòng)、時(shí)間理解以及智力和情感智商等關(guān)鍵維度上的多方面評估。完整的例子和論文請見Arxiv Paper (115 pages)。

論文鏈接：https://arxiv.org/abs/2312.15011

Gemini的獨(dú)特輸入模式

我們的目標(biāo)是澄清Gemini的輸入模式。GPT-4V的輸入模式支持連續(xù)攝入多個(gè)圖像作為上下文，因此具有增強(qiáng)的記憶能力。然而，對于Gemini，它的獨(dú)特屬性體現(xiàn)在以下幾個(gè)方面：

單圖像輸入。 Gemini一次只能輸入一張圖像。此外，它無法處理獨(dú)立的圖像；相反，它需要附帶的文本說明。
有限的記憶容量。與GPT-4V不同，Gemini的多模塊缺乏保留過去圖像輸入和輸出記憶的能力。因此，在處理多個(gè)圖像時(shí)，我們的方法需要將所有圖像合并為單一圖像輸入。除非另有明示說明，否則將使用這種綜合輸入模式。
敏感信息屏蔽。當(dāng)處理包含明確的面部或醫(yī)療信息的圖像時(shí)，Gemini在一定程度上表現(xiàn)出模糊處理，無法識別這些圖像。這可能對其泛化能力造成一定限制。
圖像和鏈接輸出。與僅能生成文本輸出的GPT-4V不同，Gemini具有創(chuàng)建與內(nèi)容相關(guān)的圖像并提供相應(yīng)鏈接的能力。這建立了一種類似于搜索引擎功能的更高級的關(guān)聯(lián)。
視頻輸入和理解。 Gemini展示了理解視頻的能力，需要YouTube鏈接作為視頻輸入。需要注意的是，它可以有效處理附帶準(zhǔn)確字幕文件的視頻。然而，在處理單一、簡單和信息稀缺的視頻時(shí)，其理解能力可能受到限制。

Contents

五個(gè)方面的比較：

第節(jié)到第節(jié) 將多模態(tài)評估分為五個(gè)方面。第一級涉及對圖像及其中文本的基本識別。第二級超越了識別，需要進(jìn)一步的推理和推斷。第三級包括多模態(tài)理解和涉及多個(gè)圖像的推理。

第節(jié)：圖像識別與理解。它涉及對圖像內(nèi)容的基本識別和理解，不涉及進(jìn)一步的推理，包括識別地標(biāo)、食物、標(biāo)志、抽象圖像、自動(dòng)駕駛場景、虛假信息檢測、發(fā)現(xiàn)差異和物體計(jì)數(shù)等任務(wù)。
第節(jié)：圖像中的文本識別與理解。它集中在圖像中的文本識別（包括OCR），如場景文本、數(shù)學(xué)公式和圖表及表格文本識別等。同樣，在這里不進(jìn)行文本內(nèi)容的進(jìn)一步推斷。
第節(jié)：圖像推理能力。超越基本圖像識別，這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念，以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。
第節(jié)：圖像中的文本推理。在文本識別的基礎(chǔ)上，它涉及超越文本識別的進(jìn)一步推理，包括數(shù)學(xué)問題解決、圖表信息推理以及紙張、報(bào)告和圖形設(shè)計(jì)等文檔理解。
第節(jié)：圖像和文本的綜合理解。它評估涉及圖像和文本的集體理解和推理能力。例如，任務(wù)包括從超市購物車中挑選物品，以及指導(dǎo)和修改圖像生成等。

三項(xiàng)專業(yè)任務(wù)：

第節(jié)到第節(jié) 評估了三項(xiàng)專業(yè)任務(wù)的性能，即對象定位、時(shí)間理解和多語言理解。

第節(jié)：物體定位。強(qiáng)調(diào)對象定位能力，要求模型提供指定對象的相對坐標(biāo)。這包括關(guān)注室外物體，如停車場中的汽車和抽象圖像定位。
第節(jié)：時(shí)間視頻理解。通過關(guān)鍵幀評估模型對時(shí)間性的理解。這一部分包括兩項(xiàng)任務(wù)：一項(xiàng)涉及對視頻序列的理解，另一項(xiàng)關(guān)注關(guān)鍵幀的排序。
第節(jié)：多語言能力。它全面評估在識別、理解和生成多種語言內(nèi)容方面的能力。這包括在圖像中識別非英語內(nèi)容和以其他語言表達(dá)信息的能力。

行業(yè)應(yīng)用：

第節(jié) 展示了多模態(tài)大型模型的各種應(yīng)用場景。我們旨在向行業(yè)展示更多可能性，提供創(chuàng)新的思路?？梢愿鶕?jù)特定領(lǐng)域的需求定制多模態(tài)大型模型。在這里，我們展示了七個(gè)子領(lǐng)域：

第節(jié)：應(yīng)用：缺陷檢測。這項(xiàng)任務(wù)涉及檢測工業(yè)裝配線上產(chǎn)品的缺陷，包括紡織品、金屬零件、藥品等。
第節(jié)：應(yīng)用：雜貨結(jié)賬。這指的是超市的自動(dòng)結(jié)賬系統(tǒng)，旨在識別購物車中的所有物品以進(jìn)行結(jié)賬。目標(biāo)是全面識別購物車內(nèi)的所有物品。
第節(jié)：應(yīng)用：汽車保險(xiǎn)。這項(xiàng)任務(wù)涉及評估車禍中的損壞程度，并提供大致的維修成本，以及提供維修建議。
第節(jié)：應(yīng)用：定制字幕生成器。目標(biāo)是在場景中識別各種對象的相對位置，提前提供對象名稱作為條件和提示。
第節(jié)：應(yīng)用：評估圖像生成。這涉及評估生成圖像與給定文本提示之間的一致性，評估生成模型的質(zhì)量。
第節(jié)：應(yīng)用：具身智能代理。這個(gè)應(yīng)用涉及將模型部署在具體智能和智能家居系統(tǒng)中，為室內(nèi)情景提供思考和決策。
第節(jié)：應(yīng)用：導(dǎo)航。這項(xiàng)任務(wù)側(cè)重于指導(dǎo)用戶瀏覽PC/Mobile GUI界面，協(xié)助信息接收、在線搜索和購物任務(wù)。

Demos

第2節(jié)：圖像識別與理解

對圖像內(nèi)容的基本識別和理解，不涉及進(jìn)一步的推理，包括識別地標(biāo)、食物、標(biāo)志、抽象圖像、自動(dòng)駕駛場景、虛假信息檢測、發(fā)現(xiàn)差異和物體計(jì)數(shù)等任務(wù)。屬于第一層最為基本的任務(wù)。一共有9個(gè)小節(jié)。

2.1 基本物體的識別

這里是測試模型基礎(chǔ)的物體識別和描述能力。GPT-4V和Gemini都能夠準(zhǔn)確識別基本物體并根據(jù)需要提供文本描述，并無顯著差異。

2.2 風(fēng)景名勝識別

雖然這兩個(gè)模型都擅長準(zhǔn)確識別地標(biāo)，但GPT-4V生成簡潔的描述，而Gemini在旅游景點(diǎn)甚至室內(nèi)傾向于提供更詳細(xì)的敘述。甚至給出相應(yīng)的景點(diǎn)其他圖片和相關(guān)資料鏈接。

2.3 食品識別

這兩個(gè)模型都展現(xiàn)出識別廣泛種類的菜肴的能力，擴(kuò)展了它們對菜肴圖像中細(xì)節(jié)如配料、裝飾和烹飪技巧的識別能力。結(jié)論基本和風(fēng)景名勝一樣。

2.4 Logo識別

這兩個(gè)模型都成功識別了標(biāo)志并提供了全面的描述，捕捉了設(shè)計(jì)、顏色、形狀和符號表示等各個(gè)方面的信息。

2.5 抽象圖片識別

盡管GPT-4V提供了合理的回答，但Gemini提供的回答似乎不太符合邏輯。在識別七巧板這種抽象圖片中，Gemini的能力相對欠缺?？赡苁怯捎谑撬袌D拼接輸入的結(jié)果。

2.6 室外場景理解（自動(dòng)駕駛）

這兩個(gè)模型都擅長提供場景自動(dòng)駕駛和物體的詳細(xì)描述。在第一個(gè)例子中，Gemini的描述展示了一個(gè)小錯(cuò)誤。

2.7 反事實(shí)示例（捏造物體）

這個(gè)意思是給定一張圖片。文字prompt中讓模型在圖片中尋找不存在的物體。我們發(fā)現(xiàn)這兩個(gè)模型都能夠提供與圖像中所呈現(xiàn)的場景和物體相關(guān)的事實(shí)性描述。

2.8 物體計(jì)數(shù)能力

任務(wù)是統(tǒng)計(jì)圖片中水果的數(shù)量。兩個(gè)模型在計(jì)數(shù)方面都有待提高。與GPT-4V相比，Gemini的計(jì)數(shù)能力相對較弱。由于Gemini的多模態(tài)記憶性能相對較弱，它無法被引導(dǎo)到正確的答案。

2.9 找不同的能力

這里是兩張圖片找不同的能力。GPT-4V和Gemini在找不同方面都有一定的局限。GPT-4V找不同的能力更強(qiáng)一些，更加準(zhǔn)確。

第3節(jié)：圖像中的文本識別與理解

它集中在圖像中的文本識別（包括OCR），如場景文本、數(shù)學(xué)公式和圖表及表格文本識別等。同樣，在這里不進(jìn)行文本內(nèi)容的進(jìn)一步推斷。屬于第一層最為基本的任務(wù)。一共有9個(gè)小節(jié)。

3.1 場景文字識別

這里是從股市交易板，室外店鋪招牌等場景中去提取文字以及數(shù)字信息。這兩個(gè)模型都展現(xiàn)出在許多復(fù)雜情境下識別場景文本的熟練能力。

3.2 數(shù)學(xué)公式識別

這里是將圖片中的公式轉(zhuǎn)化為Latex格式，我們發(fā)現(xiàn)無論是GPT-4V還是Gemini在數(shù)學(xué)公式識別方面均較為欠缺。當(dāng)公式變復(fù)雜時(shí)，都無法準(zhǔn)確讀出公式。

3.3 圖表信息識別

這里展示的是針對表格圖片的文字識別和提取。整體來說，這里GPT-4V的能力不如Gemini Pro。

第4節(jié)：圖像推理能力

超越基本圖像識別，這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念，以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。這里屬于第二個(gè)層次即除了基本識別需要進(jìn)行進(jìn)一步的推理。一共有6個(gè)小節(jié)。

4.1 幽默信息理解（梗圖）

在幽默圖片理解方面。GPT-4V和Gemini都展現(xiàn)出了令人滿意的能力，可以理解嵌入在Memes中的幽默。

4.2 科學(xué)常識理解

GPT-4V和Gemini都能夠以理解科學(xué)的常識，并收集必要的信息來回答問題。在第一個(gè)例子中，Gemini的描述中存在遺漏。

4.3 偵探識別

這里的任務(wù)是給定一個(gè)房屋的圖片，去推理屋子主人的性格。GPT-4V和Gemini都能夠根據(jù)常識很好地推斷圖像。

4.4 圖片組合能力

這里是一個(gè)人用袋子裝扮自己的頭和身子。GPT-4V和Gemini都知道如何以合理的方式組合這三個(gè)部分。當(dāng)然，在這里GPT-4V提供了一個(gè)更令人滿意的答案，給出了三張子圖片組合成一張圖片的順序。

4.5 IQ測試（公務(wù)員考試：找規(guī)律）

對于Wechsler成人智力量表（WAIS）中的找規(guī)律問題，Gemini表現(xiàn)不佳。這表明它在識別和比較多個(gè)圖像方面的能力可能有限。

4.6 EQ測試（情緒理解和輸出）

在對于圖片所表達(dá)的情感上。GPT-4V和Gemini都理解不同的視覺內(nèi)容如何引發(fā)人類情感。

第5節(jié)：圖像中的文本推理

超越基本圖像識別，這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念，以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。這里屬于第二個(gè)層次即除了基本識別需要進(jìn)行進(jìn)一步的推理。一共有3個(gè)小節(jié)。

5.1 解決數(shù)學(xué)題目

針對簡單的數(shù)學(xué)問題，GPT-4V和Gemini都能夠給出準(zhǔn)確的回答。

5.2 圖標(biāo)理解

這里我們展示的是針對流程圖的理解。這個(gè)例子中兩個(gè)模型都能夠?qū)⒘鞒虉D轉(zhuǎn)化為Python代碼。

5.3 文檔理解

這里展示的是一個(gè)公寓房屋的平面設(shè)計(jì)圖。這里兩個(gè)模型都給出了準(zhǔn)確的回答。但是Gemini的回答更加的完整，有條理。

第6節(jié)：圖像和文本的綜合理解

超越基本圖像識別，這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念，以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。這里屬于第三個(gè)層次針對圖文的綜合性理解。一共有2個(gè)小節(jié)。

6.1 交錯(cuò)的圖像文本輸入

這個(gè)圖像涉及輸入多張賬單并計(jì)算其中的稅款。GPT-4V可以準(zhǔn)確提供輸出，而Gemini對于連接在一起的圖像的回答不令人滿意。然而，它在為每張圖像提供個(gè)別答案方面表現(xiàn)良好。

6.2 針對圖像生成的識別的評分

通過自我反思來改進(jìn)文本到圖像模型SDXL的生成文本提示，GPT-4V反映出了初始提示中沒有提及狗的品種的錯(cuò)誤，并做出了正確的修訂。而Gemini生成的文本提示更好，提到了狗的品種。

第7節(jié)：物體定位

強(qiáng)調(diào)對象定位能力，要求模型提供指定對象的相對坐標(biāo)（左上角和右下角的坐標(biāo)）。這包括關(guān)注室外物體，如停車場中的汽車和抽象圖像定位。一共有2個(gè)小節(jié)。

7.1 現(xiàn)實(shí)世界中的物體定位

這里是針對識別出停車場中的一個(gè)汽車。在這之前我們給出了一個(gè)啤酒瓶定位的例子。GPT-4V和Gemini都能夠理解坐標(biāo)以生成視覺指示輸出。

7.2 抽象圖像定位

這里是針對指出抽象物體七巧板中的一個(gè)部分的位置。通過提示它們輸出定位框的角點(diǎn)，GPT-4V可以定位到抽象鵝的頭部，而Gemini在這種情況下未能成功。

第8節(jié)：時(shí)間視頻理解

通過關(guān)鍵幀評估模型對時(shí)間性的理解。這一部分包括兩項(xiàng)任務(wù)：一項(xiàng)涉及對視頻序列的理解，另一項(xiàng)關(guān)注關(guān)鍵幀的排序。一共有2個(gè)小節(jié)。

8.1 時(shí)序動(dòng)作識別

在給定一系列連續(xù)動(dòng)作的情況下，GPT-4V和Gemini都能夠生成正確的理解。

8.2 關(guān)鍵幀排序

壽司制作過程是無序的，只有GPT4-V能夠找到正確的順序，而Gemini在這種情況下失敗了。

第9節(jié)：多語言能力

它全面評估在識別、理解和生成多種語言內(nèi)容方面的能力。這包括在圖像中識別非英語內(nèi)容和以其他語言表達(dá)信息的能力。一共有2個(gè)小節(jié)。

9.1 圖片多語言理解輸出

GPT-4V和Gemini都能夠用不同的語言描述圖像。

9.2 多語言場景文字理解

GPT-4V和Gemini都可以識別這三張圖片中的場景文本。

第10節(jié)：應(yīng)用

展示了多模態(tài)大型模型的各種應(yīng)用場景。我們旨在向行業(yè)展示更多可能性，提供創(chuàng)新的思路?？梢愿鶕?jù)特定領(lǐng)域的需求定制多模態(tài)大型模型。在這里，我們展示了七個(gè)子領(lǐng)域。

10.1 應(yīng)用：缺陷檢測

這里是進(jìn)行工業(yè)流水線上進(jìn)行缺陷檢測。這兩個(gè)模型都能夠相當(dāng)準(zhǔn)確地檢測圖像中物體的缺陷。然而，值得注意的是，在這類任務(wù)中，Gemini提供了更多的細(xì)節(jié)。

10.2 應(yīng)用：雜貨結(jié)賬

這里是超市自助收銀的應(yīng)用。雖然GPT-4V提供了更全面和詳細(xì)的結(jié)果，但也存在一些錯(cuò)誤。另一方面，Gemini只識別了四個(gè)對象，但是識別是正確的，甚至為每個(gè)項(xiàng)目都包括了相應(yīng)的圖像。這表明，雖然GPT-4V在發(fā)現(xiàn)方面提供了廣度，但Gemini提供了準(zhǔn)確性，在執(zhí)行這類任務(wù)時(shí)展示了不同的優(yōu)勢。

10.3 應(yīng)用：汽車保險(xiǎn)

這里是進(jìn)行車禍現(xiàn)場的損傷程度判斷。兩者都展示了他們執(zhí)行全面、詳細(xì)和準(zhǔn)確的損傷評估的能力。

10.4 應(yīng)用：定制字幕生成器

這里是首先將單個(gè)物體的圖片和名稱輸入給模型作為prompt，之后再輸入一個(gè)完整的場景讓模型去描述其中各個(gè)物體的相對位置。GPT-4V提供了更全面、準(zhǔn)確和有條理的描述，而Gemini則表現(xiàn)不佳，未能識別左圖中蝸牛殼的存在，并錯(cuò)誤地描述了蝸牛的位置。這表明，雖然GPT-4V在提供詳細(xì)和精確的描述方面表現(xiàn)出色。

10.5 應(yīng)用：評估圖像生成

針對圖像生成文字prompt和生成圖片的匹配度測試。這兩個(gè)模型都準(zhǔn)確描述了圖像內(nèi)容并提供了相應(yīng)的解釋和一致的分?jǐn)?shù)。值得注意的是，Gemini為其評估提供了更詳細(xì)的理由。

10.6 應(yīng)用：具身智能代理

再Embodied AI的應(yīng)用上。GPT-4V提供了正確的回答，并附帶清晰而簡潔的解釋。相比之下，Gemini提供的回答完全不正確。

10.7 應(yīng)用：GUI導(dǎo)航

在這個(gè)例子中，我們給的是使用PC網(wǎng)絡(luò)搜索引擎去搜索麻婆豆腐的菜譜。這里是從剛開機(jī)的電腦界面一步步利用多模態(tài)模型進(jìn)行引導(dǎo)。這里我們僅僅給出了第一步。

第11節(jié)：將GPT-4V和Gemini進(jìn)行結(jié)合

在本節(jié)中，我們探索如何將GPT-4V和Gemini進(jìn)行結(jié)合，利用他們各自的優(yōu)勢，一共有2個(gè)小節(jié)。

11.1 產(chǎn)品識別和推薦

我們首先使用GPT-4V來描述圖片中的所有物體，然后將GPT-4V的答案作為輸入的一部分，使用Gemini來推薦類似產(chǎn)品的鏈接。

11.2 多圖像識別和故事生成

我們首先使用GPT-4V來描述圖片中包含的所有場景，然后使用Gemini生成一個(gè)特定風(fēng)格的長篇故事。

Conclusions

我們已經(jīng)對GPT-4V和Gemini的多模態(tài)理解和推理能力進(jìn)行了全面的比較，涵蓋了多個(gè)方面，并得出了以下結(jié)論：

圖像識別與理解。在基本圖像識別任務(wù)中，兩個(gè)模型表現(xiàn)出了可比較的性能，并能夠有效地完成任務(wù)。
圖像中的文本識別與理解。兩個(gè)模型都擅長從圖像中提取和識別文本。然而，在復(fù)雜的公式和儀表盤識別方面還需要改進(jìn)。Gemini在讀取表格信息方面表現(xiàn)更好。
圖像推理能力。在圖像推理方面，兩個(gè)模型都在常識理解方面表現(xiàn)出色。與GPT-4V相比，Gemini在尋找模式方面稍顯不足（智力測試）。在情感理解測試中，兩者都能理解情感并具有審美判斷能力。
圖像中的文本推理。在文本推理領(lǐng)域，當(dāng)處理復(fù)雜的基于表格的推理和數(shù)學(xué)問題解決任務(wù)時(shí)，Gemini表現(xiàn)出相對較低的性能水平。此外，Gemini傾向于提供更詳細(xì)的輸出。
綜合圖像和文本理解。在涉及復(fù)雜文本和圖像的任務(wù)中，由于Gemini無法一次輸入多個(gè)圖像，它在某些方面落后于GPT-4V，盡管在處理單一圖像的文本推理方面與GPT-4V表現(xiàn)相似。
對象定位。兩個(gè)模型在現(xiàn)實(shí)世界的對象定位方面表現(xiàn)相似，Gemini在抽象圖像（七巧板）的定位方面略遜一籌。
時(shí)間視頻理解。在理解時(shí)間性方面，Gemini的單一圖像輸入模式在某些方面不及GPT-4V，特別是在理解序列方面。
多語言能力。兩個(gè)模型都展現(xiàn)出良好的多語言識別、理解和輸出能力，能夠有效完成多語言任務(wù)。

在工業(yè)應(yīng)用方面，Gemini在具體智能代理和GUI導(dǎo)航方面不如GPT-4V，這也歸因于Gemini的單一圖像、非記憶輸入模式。結(jié)合這兩個(gè)大型模型可以發(fā)揮它們各自的優(yōu)勢?？偟膩碚f，Gemini和GPT-4V都是強(qiáng)大而令人印象深刻的多模態(tài)大型模型。就整體性能而言，GPT-4V略優(yōu)于Gemini Pro。這與Gemini報(bào)告的結(jié)果一致。我們期待Gemini Ultra和GPT-4.5的發(fā)布，它們有望為視覺多模態(tài)應(yīng)用領(lǐng)域帶來更多可能性。

Citation

如果您覺得有用，請引用:

@misc{qi2023gemini,
      title={Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases}, 
      author={Zhangyang Qi and Ye Fang and Mengchen Zhang and Zeyi Sun and Tong Wu and Ziwei Liu and Dahua Lin and Jiaqi Wang and Hengshuang Zhao},
      year={2023},
      eprint={2312.15011},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

原文鏈接：https://mp.weixin.qq.com/s/ueSAHlSYdPP_emTYxMa2DQ

責(zé)任編輯：張燕妮來源：自動(dòng)駕駛之心

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<menuitem id="x1f0m"><sup id="x1f0m"></sup></menuitem>

<menuitem id="x1f0m"><mark id="x1f0m"></mark></menuitem>