自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Gemini vs GPT-4V到底哪家強(qiáng)?視覺-語言模型的全面比較和結(jié)合使用

人工智能 智能汽車
這篇論文提供了對谷歌的Gemini和OpenAI的GPT-4V(ision)兩個(gè)SOTA模型的深入定性比較研究。我們的研究涉及到對這兩個(gè)模型在視覺語言能力、與人類的互動(dòng)、時(shí)間理解以及智力和情感智商等關(guān)鍵維度上的多方面評估。

本文經(jīng)自動(dòng)駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

概括

大家好,我是戚張揚(yáng),目前就讀于香港大學(xué),今天和大家分享一篇我們關(guān)于視覺語言模型最新的研究,這篇論文提供了對谷歌的Gemini和OpenAI的GPT-4V(ision)兩個(gè)SOTA模型的深入定性比較研究。我們的研究涉及到對這兩個(gè)模型在視覺語言能力、與人類的互動(dòng)、時(shí)間理解以及智力和情感智商等關(guān)鍵維度上的多方面評估。完整的例子和論文請見Arxiv Paper (115 pages)。

論文鏈接:https://arxiv.org/abs/2312.15011

Gemini的獨(dú)特輸入模式

我們的目標(biāo)是澄清Gemini的輸入模式。GPT-4V的輸入模式支持連續(xù)攝入多個(gè)圖像作為上下文,因此具有增強(qiáng)的記憶能力。然而,對于Gemini,它的獨(dú)特屬性體現(xiàn)在以下幾個(gè)方面:

  • 單圖像輸入。 Gemini一次只能輸入一張圖像。此外,它無法處理獨(dú)立的圖像;相反,它需要附帶的文本說明。
  • 有限的記憶容量。 與GPT-4V不同,Gemini的多模塊缺乏保留過去圖像輸入和輸出記憶的能力。因此,在處理多個(gè)圖像時(shí),我們的方法需要將所有圖像合并為單一圖像輸入。除非另有明示說明,否則將使用這種綜合輸入模式。
  • 敏感信息屏蔽。 當(dāng)處理包含明確的面部或醫(yī)療信息的圖像時(shí),Gemini在一定程度上表現(xiàn)出模糊處理,無法識別這些圖像。這可能對其泛化能力造成一定限制。
  • 圖像和鏈接輸出。 與僅能生成文本輸出的GPT-4V不同,Gemini具有創(chuàng)建與內(nèi)容相關(guān)的圖像并提供相應(yīng)鏈接的能力。這建立了一種類似于搜索引擎功能的更高級的關(guān)聯(lián)。
  • 視頻輸入和理解。 Gemini展示了理解視頻的能力,需要YouTube鏈接作為視頻輸入。需要注意的是,它可以有效處理附帶準(zhǔn)確字幕文件的視頻。然而,在處理單一、簡單和信息稀缺的視頻時(shí),其理解能力可能受到限制。

Contents

五個(gè)方面的比較:

第節(jié)到第節(jié) 將多模態(tài)評估分為五個(gè)方面。第一級涉及對圖像及其中文本的基本識別。第二級超越了識別,需要進(jìn)一步的推理和推斷。第三級包括多模態(tài)理解和涉及多個(gè)圖像的推理。

  • 第節(jié):圖像識別與理解。 它涉及對圖像內(nèi)容的基本識別和理解,不涉及進(jìn)一步的推理,包括識別地標(biāo)、食物、標(biāo)志、抽象圖像、自動(dòng)駕駛場景、虛假信息檢測、發(fā)現(xiàn)差異和物體計(jì)數(shù)等任務(wù)。
  • 第節(jié):圖像中的文本識別與理解。 它集中在圖像中的文本識別(包括OCR),如場景文本、數(shù)學(xué)公式和圖表及表格文本識別等。同樣,在這里不進(jìn)行文本內(nèi)容的進(jìn)一步推斷。
  • 第節(jié):圖像推理能力。 超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。
  • 第節(jié):圖像中的文本推理。 在文本識別的基礎(chǔ)上,它涉及超越文本識別的進(jìn)一步推理,包括數(shù)學(xué)問題解決、圖表信息推理以及紙張、報(bào)告和圖形設(shè)計(jì)等文檔理解。
  • 第節(jié):圖像和文本的綜合理解。 它評估涉及圖像和文本的集體理解和推理能力。例如,任務(wù)包括從超市購物車中挑選物品,以及指導(dǎo)和修改圖像生成等。

三項(xiàng)專業(yè)任務(wù):

第節(jié)到第節(jié) 評估了三項(xiàng)專業(yè)任務(wù)的性能,即對象定位、時(shí)間理解和多語言理解。

  • 第節(jié):物體定位。 強(qiáng)調(diào)對象定位能力,要求模型提供指定對象的相對坐標(biāo)。這包括關(guān)注室外物體,如停車場中的汽車和抽象圖像定位。
  • 第節(jié):時(shí)間視頻理解。 通過關(guān)鍵幀評估模型對時(shí)間性的理解。這一部分包括兩項(xiàng)任務(wù):一項(xiàng)涉及對視頻序列的理解,另一項(xiàng)關(guān)注關(guān)鍵幀的排序。
  • 第節(jié):多語言能力。 它全面評估在識別、理解和生成多種語言內(nèi)容方面的能力。這包括在圖像中識別非英語內(nèi)容和以其他語言表達(dá)信息的能力。

行業(yè)應(yīng)用:

第節(jié) 展示了多模態(tài)大型模型的各種應(yīng)用場景。我們旨在向行業(yè)展示更多可能性,提供創(chuàng)新的思路??梢愿鶕?jù)特定領(lǐng)域的需求定制多模態(tài)大型模型。在這里,我們展示了七個(gè)子領(lǐng)域:

  • 第節(jié):應(yīng)用:缺陷檢測。 這項(xiàng)任務(wù)涉及檢測工業(yè)裝配線上產(chǎn)品的缺陷,包括紡織品、金屬零件、藥品等。
  • 第節(jié):應(yīng)用:雜貨結(jié)賬。 這指的是超市的自動(dòng)結(jié)賬系統(tǒng),旨在識別購物車中的所有物品以進(jìn)行結(jié)賬。目標(biāo)是全面識別購物車內(nèi)的所有物品。
  • 第節(jié):應(yīng)用:汽車保險(xiǎn)。 這項(xiàng)任務(wù)涉及評估車禍中的損壞程度,并提供大致的維修成本,以及提供維修建議。
  • 第節(jié):應(yīng)用:定制字幕生成器。 目標(biāo)是在場景中識別各種對象的相對位置,提前提供對象名稱作為條件和提示。
  • 第節(jié):應(yīng)用:評估圖像生成。 這涉及評估生成圖像與給定文本提示之間的一致性,評估生成模型的質(zhì)量。
  • 第節(jié):應(yīng)用:具身智能代理。 這個(gè)應(yīng)用涉及將模型部署在具體智能和智能家居系統(tǒng)中,為室內(nèi)情景提供思考和決策。
  • 第節(jié):應(yīng)用:導(dǎo)航。 這項(xiàng)任務(wù)側(cè)重于指導(dǎo)用戶瀏覽PC/Mobile GUI界面,協(xié)助信息接收、在線搜索和購物任務(wù)。

Demos

第2節(jié):圖像識別與理解

對圖像內(nèi)容的基本識別和理解,不涉及進(jìn)一步的推理,包括識別地標(biāo)、食物、標(biāo)志、抽象圖像、自動(dòng)駕駛場景、虛假信息檢測、發(fā)現(xiàn)差異和物體計(jì)數(shù)等任務(wù)。屬于第一層最為基本的任務(wù)。一共有9個(gè)小節(jié)。

2.1 基本物體的識別

這里是測試模型基礎(chǔ)的物體識別和描述能力。GPT-4V和Gemini都能夠準(zhǔn)確識別基本物體并根據(jù)需要提供文本描述,并無顯著差異。

圖片

2.2 風(fēng)景名勝識別

雖然這兩個(gè)模型都擅長準(zhǔn)確識別地標(biāo),但GPT-4V生成簡潔的描述,而Gemini在旅游景點(diǎn)甚至室內(nèi)傾向于提供更詳細(xì)的敘述。甚至給出相應(yīng)的景點(diǎn)其他圖片和相關(guān)資料鏈接。

圖片

2.3 食品識別

這兩個(gè)模型都展現(xiàn)出識別廣泛種類的菜肴的能力,擴(kuò)展了它們對菜肴圖像中細(xì)節(jié)如配料、裝飾和烹飪技巧的識別能力。結(jié)論基本和風(fēng)景名勝一樣。

圖片

2.4 Logo識別

這兩個(gè)模型都成功識別了標(biāo)志并提供了全面的描述,捕捉了設(shè)計(jì)、顏色、形狀和符號表示等各個(gè)方面的信息。

圖片

2.5 抽象圖片識別

盡管GPT-4V提供了合理的回答,但Gemini提供的回答似乎不太符合邏輯。在識別七巧板這種抽象圖片中,Gemini的能力相對欠缺??赡苁怯捎谑撬袌D拼接輸入的結(jié)果。

圖片

2.6 室外場景理解(自動(dòng)駕駛)

這兩個(gè)模型都擅長提供場景自動(dòng)駕駛和物體的詳細(xì)描述。在第一個(gè)例子中,Gemini的描述展示了一個(gè)小錯(cuò)誤。

圖片

2.7 反事實(shí)示例(捏造物體)

這個(gè)意思是給定一張圖片。文字prompt中讓模型在圖片中尋找不存在的物體。我們發(fā)現(xiàn)這兩個(gè)模型都能夠提供與圖像中所呈現(xiàn)的場景和物體相關(guān)的事實(shí)性描述。

圖片

2.8 物體計(jì)數(shù)能力

任務(wù)是統(tǒng)計(jì)圖片中水果的數(shù)量。兩個(gè)模型在計(jì)數(shù)方面都有待提高。與GPT-4V相比,Gemini的計(jì)數(shù)能力相對較弱。由于Gemini的多模態(tài)記憶性能相對較弱,它無法被引導(dǎo)到正確的答案。

圖片

2.9 找不同的能力

這里是兩張圖片找不同的能力。GPT-4V和Gemini在找不同方面都有一定的局限。GPT-4V找不同的能力更強(qiáng)一些,更加準(zhǔn)確。

圖片

第3節(jié):圖像中的文本識別與理解

它集中在圖像中的文本識別(包括OCR),如場景文本、數(shù)學(xué)公式和圖表及表格文本識別等。同樣,在這里不進(jìn)行文本內(nèi)容的進(jìn)一步推斷。屬于第一層最為基本的任務(wù)。一共有9個(gè)小節(jié)。

3.1 場景文字識別

這里是從股市交易板,室外店鋪招牌等場景中去提取文字以及數(shù)字信息。這兩個(gè)模型都展現(xiàn)出在許多復(fù)雜情境下識別場景文本的熟練能力。

圖片

3.2 數(shù)學(xué)公式識別

這里是將圖片中的公式轉(zhuǎn)化為Latex格式,我們發(fā)現(xiàn)無論是GPT-4V還是Gemini在數(shù)學(xué)公式識別方面均較為欠缺。當(dāng)公式變復(fù)雜時(shí),都無法準(zhǔn)確讀出公式。

圖片

3.3 圖表信息識別

這里展示的是針對表格圖片的文字識別和提取。整體來說,這里GPT-4V的能力不如Gemini Pro。

圖片

第4節(jié):圖像推理能力

超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。這里屬于第二個(gè)層次即除了基本識別需要進(jìn)行進(jìn)一步的推理。一共有6個(gè)小節(jié)。

4.1 幽默信息理解(梗圖)

在幽默圖片理解方面。GPT-4V和Gemini都展現(xiàn)出了令人滿意的能力,可以理解嵌入在Memes中的幽默。

圖片

4.2 科學(xué)常識理解

GPT-4V和Gemini都能夠以理解科學(xué)的常識,并收集必要的信息來回答問題。在第一個(gè)例子中,Gemini的描述中存在遺漏。

圖片

4.3 偵探識別

這里的任務(wù)是給定一個(gè)房屋的圖片,去推理屋子主人的性格。GPT-4V和Gemini都能夠根據(jù)常識很好地推斷圖像。

圖片

4.4 圖片組合能力

這里是一個(gè)人用袋子裝扮自己的頭和身子。GPT-4V和Gemini都知道如何以合理的方式組合這三個(gè)部分。當(dāng)然,在這里GPT-4V提供了一個(gè)更令人滿意的答案,給出了三張子圖片組合成一張圖片的順序。

圖片

4.5 IQ測試(公務(wù)員考試:找規(guī)律)

對于Wechsler成人智力量表(WAIS)中的找規(guī)律問題,Gemini表現(xiàn)不佳。這表明它在識別和比較多個(gè)圖像方面的能力可能有限。

圖片

4.6 EQ測試(情緒理解和輸出)

在對于圖片所表達(dá)的情感上。GPT-4V和Gemini都理解不同的視覺內(nèi)容如何引發(fā)人類情感。

圖片

第5節(jié):圖像中的文本推理

超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。這里屬于第二個(gè)層次即除了基本識別需要進(jìn)行進(jìn)一步的推理。一共有3個(gè)小節(jié)。

5.1 解決數(shù)學(xué)題目

針對簡單的數(shù)學(xué)問題,GPT-4V和Gemini都能夠給出準(zhǔn)確的回答。

圖片

5.2 圖標(biāo)理解

這里我們展示的是針對流程圖的理解。這個(gè)例子中兩個(gè)模型都能夠?qū)⒘鞒虉D轉(zhuǎn)化為Python代碼。

圖片

5.3 文檔理解

這里展示的是一個(gè)公寓房屋的平面設(shè)計(jì)圖。這里兩個(gè)模型都給出了準(zhǔn)確的回答。但是Gemini的回答更加的完整,有條理。

圖片

第6節(jié):圖像和文本的綜合理解

超越基本圖像識別,這一部分涉及更高級的推理。這包括理解幽默和科學(xué)概念,以及像偵探工作、圖像組合、智力測試中尋找模式以及情感理解和表達(dá)等邏輯推理能力。這里屬于第三個(gè)層次針對圖文的綜合性理解。一共有2個(gè)小節(jié)。

6.1 交錯(cuò)的圖像文本輸入

這個(gè)圖像涉及輸入多張賬單并計(jì)算其中的稅款。GPT-4V可以準(zhǔn)確提供輸出,而Gemini對于連接在一起的圖像的回答不令人滿意。然而,它在為每張圖像提供個(gè)別答案方面表現(xiàn)良好。

圖片

6.2 針對圖像生成的識別的評分

通過自我反思來改進(jìn)文本到圖像模型SDXL的生成文本提示,GPT-4V反映出了初始提示中沒有提及狗的品種的錯(cuò)誤,并做出了正確的修訂。而Gemini生成的文本提示更好,提到了狗的品種。

圖片

第7節(jié):物體定位

強(qiáng)調(diào)對象定位能力,要求模型提供指定對象的相對坐標(biāo)(左上角和右下角的坐標(biāo))。這包括關(guān)注室外物體,如停車場中的汽車和抽象圖像定位。一共有2個(gè)小節(jié)。

7.1 現(xiàn)實(shí)世界中的物體定位

這里是針對識別出停車場中的一個(gè)汽車。在這之前我們給出了一個(gè)啤酒瓶定位的例子。GPT-4V和Gemini都能夠理解坐標(biāo)以生成視覺指示輸出。

圖片

7.2 抽象圖像定位

這里是針對指出抽象物體七巧板中的一個(gè)部分的位置。通過提示它們輸出定位框的角點(diǎn),GPT-4V可以定位到抽象鵝的頭部,而Gemini在這種情況下未能成功。

圖片

第8節(jié):時(shí)間視頻理解

通過關(guān)鍵幀評估模型對時(shí)間性的理解。這一部分包括兩項(xiàng)任務(wù):一項(xiàng)涉及對視頻序列的理解,另一項(xiàng)關(guān)注關(guān)鍵幀的排序。一共有2個(gè)小節(jié)。

8.1 時(shí)序動(dòng)作識別

在給定一系列連續(xù)動(dòng)作的情況下,GPT-4V和Gemini都能夠生成正確的理解。

圖片

8.2 關(guān)鍵幀排序

壽司制作過程是無序的,只有GPT4-V能夠找到正確的順序,而Gemini在這種情況下失敗了。

圖片

第9節(jié):多語言能力

它全面評估在識別、理解和生成多種語言內(nèi)容方面的能力。這包括在圖像中識別非英語內(nèi)容和以其他語言表達(dá)信息的能力。一共有2個(gè)小節(jié)。

9.1 圖片多語言理解輸出

GPT-4V和Gemini都能夠用不同的語言描述圖像。

圖片

9.2 多語言場景文字理解

GPT-4V和Gemini都可以識別這三張圖片中的場景文本。

圖片

第10節(jié):應(yīng)用

展示了多模態(tài)大型模型的各種應(yīng)用場景。我們旨在向行業(yè)展示更多可能性,提供創(chuàng)新的思路??梢愿鶕?jù)特定領(lǐng)域的需求定制多模態(tài)大型模型。在這里,我們展示了七個(gè)子領(lǐng)域。

10.1 應(yīng)用:缺陷檢測

這里是進(jìn)行工業(yè)流水線上進(jìn)行缺陷檢測。這兩個(gè)模型都能夠相當(dāng)準(zhǔn)確地檢測圖像中物體的缺陷。然而,值得注意的是,在這類任務(wù)中,Gemini提供了更多的細(xì)節(jié)。

圖片

10.2 應(yīng)用:雜貨結(jié)賬

這里是超市自助收銀的應(yīng)用。雖然GPT-4V提供了更全面和詳細(xì)的結(jié)果,但也存在一些錯(cuò)誤。另一方面,Gemini只識別了四個(gè)對象,但是識別是正確的,甚至為每個(gè)項(xiàng)目都包括了相應(yīng)的圖像。這表明,雖然GPT-4V在發(fā)現(xiàn)方面提供了廣度,但Gemini提供了準(zhǔn)確性,在執(zhí)行這類任務(wù)時(shí)展示了不同的優(yōu)勢。

圖片

10.3 應(yīng)用:汽車保險(xiǎn)

這里是進(jìn)行車禍現(xiàn)場的損傷程度判斷。兩者都展示了他們執(zhí)行全面、詳細(xì)和準(zhǔn)確的損傷評估的能力。

圖片

10.4 應(yīng)用:定制字幕生成器

這里是首先將單個(gè)物體的圖片和名稱輸入給模型作為prompt,之后再輸入一個(gè)完整的場景讓模型去描述其中各個(gè)物體的相對位置。GPT-4V提供了更全面、準(zhǔn)確和有條理的描述,而Gemini則表現(xiàn)不佳,未能識別左圖中蝸牛殼的存在,并錯(cuò)誤地描述了蝸牛的位置。這表明,雖然GPT-4V在提供詳細(xì)和精確的描述方面表現(xiàn)出色。

圖片

10.5 應(yīng)用:評估圖像生成

針對圖像生成文字prompt和生成圖片的匹配度測試。這兩個(gè)模型都準(zhǔn)確描述了圖像內(nèi)容并提供了相應(yīng)的解釋和一致的分?jǐn)?shù)。值得注意的是,Gemini為其評估提供了更詳細(xì)的理由。

圖片

10.6 應(yīng)用:具身智能代理

再Embodied AI的應(yīng)用上。GPT-4V提供了正確的回答,并附帶清晰而簡潔的解釋。相比之下,Gemini提供的回答完全不正確。

圖片

10.7 應(yīng)用:GUI導(dǎo)航

在這個(gè)例子中,我們給的是使用PC網(wǎng)絡(luò)搜索引擎去搜索麻婆豆腐的菜譜。這里是從剛開機(jī)的電腦界面一步步利用多模態(tài)模型進(jìn)行引導(dǎo)。這里我們僅僅給出了第一步。

圖片

第11節(jié):將GPT-4V和Gemini進(jìn)行結(jié)合

在本節(jié)中,我們探索如何將GPT-4V和Gemini進(jìn)行結(jié)合,利用他們各自的優(yōu)勢,一共有2個(gè)小節(jié)。

11.1 產(chǎn)品識別和推薦

我們首先使用GPT-4V來描述圖片中的所有物體,然后將GPT-4V的答案作為輸入的一部分,使用Gemini來推薦類似產(chǎn)品的鏈接。

圖片

11.2 多圖像識別和故事生成

我們首先使用GPT-4V來描述圖片中包含的所有場景,然后使用Gemini生成一個(gè)特定風(fēng)格的長篇故事。

圖片

Conclusions

我們已經(jīng)對GPT-4V和Gemini的多模態(tài)理解和推理能力進(jìn)行了全面的比較,涵蓋了多個(gè)方面,并得出了以下結(jié)論:

圖像識別與理解。 在基本圖像識別任務(wù)中,兩個(gè)模型表現(xiàn)出了可比較的性能,并能夠有效地完成任務(wù)。
圖像中的文本識別與理解。 兩個(gè)模型都擅長從圖像中提取和識別文本。然而,在復(fù)雜的公式和儀表盤識別方面還需要改進(jìn)。Gemini在讀取表格信息方面表現(xiàn)更好。
圖像推理能力。 在圖像推理方面,兩個(gè)模型都在常識理解方面表現(xiàn)出色。與GPT-4V相比,Gemini在尋找模式方面稍顯不足(智力測試)。在情感理解測試中,兩者都能理解情感并具有審美判斷能力。
圖像中的文本推理。 在文本推理領(lǐng)域,當(dāng)處理復(fù)雜的基于表格的推理和數(shù)學(xué)問題解決任務(wù)時(shí),Gemini表現(xiàn)出相對較低的性能水平。此外,Gemini傾向于提供更詳細(xì)的輸出。
綜合圖像和文本理解。 在涉及復(fù)雜文本和圖像的任務(wù)中,由于Gemini無法一次輸入多個(gè)圖像,它在某些方面落后于GPT-4V,盡管在處理單一圖像的文本推理方面與GPT-4V表現(xiàn)相似。
對象定位。 兩個(gè)模型在現(xiàn)實(shí)世界的對象定位方面表現(xiàn)相似,Gemini在抽象圖像(七巧板)的定位方面略遜一籌。
時(shí)間視頻理解。 在理解時(shí)間性方面,Gemini的單一圖像輸入模式在某些方面不及GPT-4V,特別是在理解序列方面。
多語言能力。 兩個(gè)模型都展現(xiàn)出良好的多語言識別、理解和輸出能力,能夠有效完成多語言任務(wù)。

在工業(yè)應(yīng)用方面,Gemini在具體智能代理和GUI導(dǎo)航方面不如GPT-4V,這也歸因于Gemini的單一圖像、非記憶輸入模式。結(jié)合這兩個(gè)大型模型可以發(fā)揮它們各自的優(yōu)勢??偟膩碚f,Gemini和GPT-4V都是強(qiáng)大而令人印象深刻的多模態(tài)大型模型。就整體性能而言,GPT-4V略優(yōu)于Gemini Pro。這與Gemini報(bào)告的結(jié)果一致。我們期待Gemini Ultra和GPT-4.5的發(fā)布,它們有望為視覺多模態(tài)應(yīng)用領(lǐng)域帶來更多可能性。

Citation

如果您覺得有用,請引用:

@misc{qi2023gemini,
      title={Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases}, 
      author={Zhangyang Qi and Ye Fang and Mengchen Zhang and Zeyi Sun and Tong Wu and Ziwei Liu and Dahua Lin and Jiaqi Wang and Hengshuang Zhao},
      year={2023},
      eprint={2312.15011},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

原文鏈接:https://mp.weixin.qq.com/s/ueSAHlSYdPP_emTYxMa2DQ

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-01-03 12:56:39

2023-12-22 12:41:01

模型訓(xùn)練

2024-07-23 09:48:59

2024-02-06 09:00:00

GPT-4VLLaVA大型語言

2023-10-19 09:32:45

自動(dòng)駕駛技術(shù)

2024-06-27 13:10:21

2016-11-21 17:27:04

Android 推送

2023-10-17 12:34:04

2023-06-28 08:36:44

大語言模型人工智能

2024-05-11 07:00:00

GPT4VGemini大模型

2023-11-20 13:53:00

數(shù)據(jù)訓(xùn)練

2023-10-23 12:28:18

AI訓(xùn)練

2024-01-30 21:18:57

語言模型圖像序列機(jī)器人

2024-06-11 08:16:00

2024-04-07 13:39:55

2023-11-27 11:34:59

ChatGPTAutoGPT

2024-01-22 06:40:00

模型視覺

2017-08-23 14:48:36

VBoxVMWare虛擬化

2022-06-06 08:16:16

RedisJavaHaspM

2023-12-20 15:32:02

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號