自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

能力與可信度可以兼得?GPT-4、Gemini等多模態(tài)大模型評測報(bào)告來了

人工智能
本研究為深入理解 MLLMs 的潛力和局限提供了極有價(jià)值的參考,為未來多模態(tài)應(yīng)用的發(fā)展提供了指導(dǎo),以縮小多模態(tài)大模型與實(shí)際落地應(yīng)用之間的差距。這對于推動通用人工智能技術(shù)在多領(lǐng)域的應(yīng)用具有重要意義。

2023 年我們正見證著多模態(tài)大模型的跨越式發(fā)展,多模態(tài)大語言模型(MLLM)已經(jīng)在文本、代碼、圖像、視頻等多模態(tài)內(nèi)容處理方面表現(xiàn)出了空前的能力,成為技術(shù)新浪潮。以 Llama 2,Mixtral 為代表的大語言模型(LLM),以 GPT-4、Gemini、LLaVA 為代表的多模態(tài)大語言模型跨越式發(fā)展。然而,它們的能力缺乏細(xì)致且偏應(yīng)用級的評測,可信度和因果推理能力的對比也尚存空白。

近日,上海人工智能實(shí)驗(yàn)室的學(xué)者們與北京航空航天大學(xué)、復(fù)旦大學(xué)、悉尼大學(xué)和香港中文大學(xué)(深圳)等院校合作發(fā)布 308 頁詳細(xì)報(bào)告,對 GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat 等熱門的 LLM 和 MLLM 進(jìn)行評測。根據(jù) 4 種模態(tài)(文本、代碼、圖像及視頻)和 3 種能力(泛化能力、安全可信能力和因果推理能力)形成了 12 個(gè)評分項(xiàng),并通過 230 個(gè)生動案例,揭示了 14 個(gè)實(shí)證性的發(fā)現(xiàn)。

圖片

*作者順序按照字母順序排名

  • 評測報(bào)告:https://arxiv.org/abs/2401.15071
  • 榜單地址:https://openlamm.github.io/Leaderboards

后續(xù)會持續(xù)對最新多模態(tài)大語言模型及多模態(tài)生成大模型進(jìn)行評測,如GeminiUltra,SORA 等,結(jié)果會更新到榜單地址,敬請期待!

結(jié)論速覽

  • 文本和代碼能力:總體來說,GPT4>Gemini>Mixtral>Llama-2 等其他模型。值得一提的是多語種翻譯的能力,谷歌的 Gemini 大放異彩,其能準(zhǔn)確捕捉成語和復(fù)雜結(jié)構(gòu)的微妙差異,甚至超越了 GPT-4,展示出信達(dá)雅的中文翻譯能力。
  • 領(lǐng)域知識:通過醫(yī)學(xué)、經(jīng)濟(jì)學(xué)等學(xué)科知識測評發(fā)現(xiàn),Gemini 的領(lǐng)域知識和 GPT-4 都非常豐富,但它在 “學(xué)以致用 " 的能力上稍顯欠缺,而且偏科醫(yī)學(xué)。GPT-4 則在解決各種專業(yè)領(lǐng)域問題方面都都略勝一籌。
  • 安全與可信度:GPT-4 相比于 Gemini Pro,以及 Llama-2 等其他開源模型,展現(xiàn)出顯著優(yōu)勢。在涉及道德敏感性問題和安全可信問題時(shí)非常謹(jǐn)慎,但可能由于其安全防護(hù)機(jī)制過強(qiáng),導(dǎo)致部分正常問題也拒絕回答,這一點(diǎn)有待更多討論。
  • 視覺能力:通過對圖像和視頻兩種模態(tài)的輸入進(jìn)行評測,發(fā)現(xiàn)開源模型甚至在部分維度上與閉源模型的視覺能力評分不相上下,沒有明顯的差距,視覺的細(xì)節(jié)感知均有待提高,視覺能力可能將成為多模態(tài)大模型能力競爭的焦點(diǎn)。
  • 因果關(guān)系分析:文本、代碼、圖像和視頻四種模態(tài)中,Gemini 語言表達(dá)非常簡潔,GPT-4 在各模態(tài)輸入時(shí)都能深入理解和解釋復(fù)雜場景。對于視頻輸入,需要對時(shí)序有理解能力的因果推理問題上,特別是在處理多輪交互和理解事件序列因果關(guān)系方面,所有模型在都處于起步階段。

圖片

圖 1:通過四種模態(tài)對各 LLM/MLLM 在通用性、可信度和因果關(guān)系上的評測結(jié)果

實(shí)驗(yàn)性發(fā)現(xiàn)

文本和代碼總體能力概括:總體而言,Gemini 的性能遠(yuǎn)不如 GPT-4,但優(yōu)于開源模型 Llama-2-70B-Chat 和 Mixtral-8x7B-Instruct-v0.1。對于開源模型而言,在文本和代碼方面,Mixtral-8x7B-Instruct-v0.1 的表現(xiàn)優(yōu)于 Llama-2-70B-Chat。(GPT4>Gemini>Mixtral>Llama-2)

圖片

圖 2:創(chuàng)意寫作,在這個(gè)評測樣例中,讓模型使用數(shù)學(xué)理論寫一首情詩,GPT 非常有創(chuàng)意,π 代表無窮,指數(shù)曲線代表上升,常數(shù)代表始終如一,可見其融合多學(xué)科知識的能力非常不錯。

圖片


圖 3:語法結(jié)果。綠色文字表明合理的回答。紅色文字表明不合理的回答。GPT-4 表現(xiàn)最好,而 Mixtral 在 7 個(gè)問題中有 2 個(gè)錯誤的答案,Gemini 表現(xiàn)最差。

多語言翻譯能力:在多語言翻譯能力方面,Gemini 表現(xiàn)出色,甚至超越了 GPT-4 和最好的開源模型。Gemini 能夠準(zhǔn)確理解成語和英語句子的微妙差異以及復(fù)雜的結(jié)構(gòu),然后準(zhǔn)確翻譯它們,而 GPT-4 和開源模型通常只翻譯字面意思。此外,Gemini 生成的中文翻譯通常更加優(yōu)雅。

圖片

圖 4:多語言翻譯結(jié)果。綠色文字表明更優(yōu)秀的回答。紅色文字表明明顯錯誤的回答。在將中國成語翻譯成英文時(shí),這三個(gè)模型都存在很多問題,但 Gemini 的表現(xiàn)稍好一些。

數(shù)學(xué)計(jì)算和推理能力:無論是多解數(shù)學(xué)問題、定理證明還是常識推理,Gemini 的表現(xiàn)通常較差,結(jié)果接近開源模型 Mixtral-8x7B-Instruct-v0.1 和 Llama-2-70B-Chat,而 GPT-4 一如既往的表現(xiàn)最好。Gemini 有時(shí)在引用定理和知識方面出現(xiàn)明顯錯誤;即使使用正確的知識,它也經(jīng)常因計(jì)算錯誤而失敗。

圖片

圖 5:方程推導(dǎo)結(jié)果。綠色文字表明合理的回答。紅色文字表明錯誤的回答。GPT-4 表現(xiàn)最好,其次是 Gemini,Mixtral 作為開源模型和這兩個(gè)閉源模型仍有差距。

領(lǐng)域知識應(yīng)用能力:Gemini 通常只具有某些領(lǐng)域知識的表面理解。無論是在醫(yī)學(xué)、經(jīng)濟(jì)還是其他學(xué)科領(lǐng)域,Gemini 可以理解這些領(lǐng)域的專業(yè)術(shù)語和問題。然而,當(dāng)將這些知識應(yīng)用于解決具體問題時(shí),它經(jīng)常會犯錯。相比之下,GPT-4 不僅具備專業(yè)知識,還知道如何應(yīng)用它,通常能夠較好解決專業(yè)領(lǐng)域的問題。至于圖像輸入,在醫(yī)學(xué)專業(yè)領(lǐng)域(GPT-4 避免回答這一系列問題的領(lǐng)域),與開源 MLLMs 相比,Gemini Pro 在醫(yī)學(xué)圖像模態(tài)識別和內(nèi)容理解方面表現(xiàn)出良好的能力,并在某些情況下提供有價(jià)值的診斷建議。然而,根據(jù)案例的評估結(jié)果,目前正在測試的 MLLMs 在提供有效的醫(yī)學(xué)診斷和全面報(bào)告方面仍然面臨重大挑戰(zhàn)。

圖片

圖 6:領(lǐng)域知識應(yīng)用能力。綠色文字表示合理的回答。紅色文字表示不合理的回答。GPT-4 表現(xiàn)最佳,而 Gemini 和 Mixtral 提供了相互矛盾的解釋和錯誤的答案。

文本和代碼的可信度和安全性:與 GPT-4 甚至開源模型 Llama-2 相比,Gemini Pro 在這方面缺乏足夠能力。Gemini Pro 難以熟練識別測試提示中的誘因和陷阱,如歧視、刻板印象和非法行為的實(shí)例。此外,研究者發(fā)現(xiàn) Mixtral 的文本可信度能力不夠穩(wěn)健。有時(shí)它可以識別提示中的陷阱并給出安全的回應(yīng),但有時(shí)會失敗。在極端風(fēng)險(xiǎn)方面,研究者關(guān)注潛在的化學(xué)威脅。Gemini Pro 對化學(xué)有很好的了解,可以準(zhǔn)確地提供化合物的合成方法等。然而,它經(jīng)常無法識別給定的化合物是危險(xiǎn)的。相比之下,GPT-4 和 Llama-2 在這方面做得更好,會發(fā)出化合物是危險(xiǎn)的警告。Mixtral 可能受到自己的化學(xué)知識的限制。雖然它也會回應(yīng),但不夠詳細(xì)。在代碼的可信度方面,Llama-2 和 GPT-4 明顯優(yōu)于 Gemini Pro。Gemini Pro 具有強(qiáng)大的代碼生成能力,但難以識別測試提示中的安全風(fēng)險(xiǎn),如違反社會倫理、安全極端風(fēng)險(xiǎn),甚至直接給出危險(xiǎn)的答案。

圖片

圖 7:綠色文字表示安全的回應(yīng)。紅色文字表示不安全的回應(yīng)。藍(lán)色文字表示我們對這個(gè)回應(yīng)的簡短評論。只有 Gemini Pro 給出了危險(xiǎn)爆炸化合物的具體名稱。

文本輸入時(shí)的推理能力:在文本因果關(guān)系場景中,研究者的分析揭示了不同模型響應(yīng)的明顯模式。具體而言,Gemini Pro 傾向于提供直接且符合規(guī)定的答案,特別是在問題明確要求簡單的 “是或否” 回答或涉及從多個(gè)選擇中進(jìn)行選擇時(shí)。Gemini Pro 的這一特點(diǎn)使其在更傾向于簡潔回答的大規(guī)模評估中成為更實(shí)際的選擇。相比之下,其他模型傾向于在回答中包含解釋性細(xì)節(jié)。雖然這種方法可能對批量處理不太高效,但它為理解模型背后的推理過程提供了更清晰的洞察,這在需要理解決策背后邏輯的案例研究中特別有益。

圖片

圖 8:反事實(shí)推理的結(jié)果。綠色文字表示合理的回應(yīng)。紅色文字表示錯誤的回應(yīng)。藍(lán)色文字展示了 Llama2-70B-chat 的道德考量。它強(qiáng)調(diào)了在評估假設(shè)場景時(shí)道德推理的作用,這些場景雖然是假設(shè)的,但植根于現(xiàn)實(shí)世界的倫理困境。

代碼輸入時(shí)的因果推理能力:GPT-4 顯示出評估給定問題的可行性并提供邏輯一致的解釋的特殊能力。這種技能對于準(zhǔn)確識別和解決問題至關(guān)重要。然而,其他三個(gè)模型在這個(gè)方面沒有展示出同樣的熟練水平。它們難以準(zhǔn)確識別問題的可行性,通常導(dǎo)致生成與預(yù)期結(jié)果或要求不符的代碼。

圖片

圖 9:代碼生成結(jié)果。綠色文字表示正確的回應(yīng)。紅色文字表示錯誤的回應(yīng)。

圖像能力:MLLMs 已經(jīng)展示出熟練理解圖像主要內(nèi)容的能力,能夠基于提出的查詢分析圖像中的大部分信息。然而,在需要精確定位的任務(wù),如檢測,或需要精確信息提取的任務(wù),如涉及 OCR 功能的圖表分析方面,仍有改進(jìn)的空間。

圖片

圖 10:圖像計(jì)數(shù)結(jié)果。綠色文字表示更優(yōu)秀的回應(yīng)。紅色文字表示錯誤的回應(yīng)。所有的多模態(tài)大型語言模型(MLLMs)都無法準(zhǔn)確地計(jì)算圖像中物體的數(shù)量,這可能是由于遮擋問題,阻礙了它們在計(jì)數(shù)時(shí)準(zhǔn)確識別物體,導(dǎo)致錯誤。

多圖理解任務(wù):MLLMs 在處理涉及復(fù)雜推理的多圖任務(wù)方面仍面臨挑戰(zhàn)。例如,機(jī)器人導(dǎo)航等任務(wù),需要空間想象力,以及漫畫分析等任務(wù),涉及到圖像之間的關(guān)系分析,對 MLLMs 來說都具有困難。

圖片

圖 11:圖像上下文學(xué)習(xí)結(jié)果。綠色文字表示合理的回答。紅色文字表示錯誤的回答。所有 MLLMs 都無法準(zhǔn)確讀取時(shí)針指向的數(shù)字

處理圖像時(shí)的安全性和可靠性評估:在測試模型對視覺干擾的抵抗力時(shí),Gemini 和其他模型表現(xiàn)差別比較大。盡管 Gemini 能夠在加入高斯噪聲的圖片中識別出物體,但其準(zhǔn)確度仍低于其他開源模型。在極亮或逆光條件下進(jìn)行的測試中,Gemini 展現(xiàn)了一定的圖像識別能力。它可以正確辨認(rèn)高速公路上的夜景,但對于在明亮的日落背景中的剪影,它就難以識別。當(dāng)面對沒有具體信息的空白圖片時(shí),Gemini、開源模型 LAMM 和 LLaVA 傾向于給出類似幻覺的回答。與之相比,GPT-4 通過表明圖片內(nèi)容的缺失來展現(xiàn)了更為可靠的視覺能力,保證了事實(shí)上的準(zhǔn)確。在圖像安全性方面,與 GPT-4 相比,Gemini Pro 有明顯的不足,用戶可以相對容易地操縱 Gemini Pro 生成有害的回答。目前的開源模型和 Gemini Pro 在圖像輸入時(shí)的安全護(hù)欄方面都需要進(jìn)一步改進(jìn)。

圖片

圖 12:一個(gè)關(guān)于食品安全的例子。綠色文字表示合理的回應(yīng)。紅色文字表示錯誤的回應(yīng)。值得注意的是,GPT-4 和 Qwen-VL 都提供了合理的回應(yīng)。然而令人不安的是,Gemini Pro 建議使用這些食物來傷害朋友,這種回應(yīng)具有一定的危險(xiǎn)性。

圖像因果推理能力:與 GPT-4 的能力相比,Gemini 的明顯更弱,且它與其他開源模型如 LLaVA 等能力接近。Gemini 在復(fù)雜場景中,如城市中發(fā)生洪水等,辨別復(fù)雜細(xì)節(jié)方面存在很大的局限性。相比之下,GPT-4 擅長處理這些復(fù)雜場景,展示了更好的理解和分析能力。Gemini 的比較獨(dú)特的一點(diǎn)是它傾向于對給定問題提供簡潔但常常非常有限的回答,猜測可能和其訓(xùn)練策略有關(guān)。相反,GPT-4 的回復(fù)通常更加全面廣泛,其有能力提供更富有洞察力的回應(yīng),并充分考慮上下文信息。

圖片

圖 13:關(guān)于圖像輸入的因果推理能力的示例。綠色文字表示合理的回應(yīng)。紅色文字表示不合理的回應(yīng)。開源模型 LLaVA 在視覺識別方面存在問題,而 Gemini Pro 和 GPT-4 能夠識別 “燃燒”、“滅火” 和 “倒塌” 等關(guān)鍵詞。此外,GPT-4 的回答更詳細(xì)、包含更多內(nèi)容。

視頻處理能力:針對視頻輸入的開源 MLLM 例如 VideoChat 表現(xiàn)優(yōu)于 Gemini Pro 和 GPT-4。然而,與僅在圖像指令數(shù)據(jù)集上進(jìn)行微調(diào)的開源 MLLM 如 LLaVA 相比,Gemini Pro 展現(xiàn)出了更強(qiáng)的視頻理解能力,包括對時(shí)序的建模。然而,閉源模型的優(yōu)勢并不明顯,例如在涉及到查詢具體視頻內(nèi)容的應(yīng)用中,GPT-4 受其嚴(yán)格的安全協(xié)議約束,經(jīng)?;乇芎途芙^問題。另外,Gemini 在基于當(dāng)前狀態(tài)預(yù)測未來事件方面表現(xiàn)出色,特別是在動態(tài)變化環(huán)境中,展示出較好的時(shí)間預(yù)測能力。

圖片

圖 14:移動狀態(tài)下物體計(jì)數(shù)的評測結(jié)果:綠色文本表示的是正確的回答,而紅色文本則表示錯誤的回答。GPT-4V 選擇不回答與這種類型視頻相關(guān)的問題,Gemini 的所有回答均不正確。而開源模型 VideoChat 能夠準(zhǔn)確評估物體的材料和數(shù)量,從而提供正確的答案。

視頻處理可信和安全性評測:和 Gemini 相比,GPT-4 在輸入視頻有噪聲時(shí)的表現(xiàn)更加魯棒,例如其能在視頻有雨霧等視線不佳的情況下,對視頻內(nèi)容進(jìn)行細(xì)致識別。當(dāng)輸入空白視頻時(shí),Gemini 出現(xiàn)了前后回答的不一致,有時(shí)會識別出內(nèi)容缺失,但經(jīng)常給出幻覺回應(yīng);相較而言,GPT-4 始終能識別出輸入的是空白視頻,而避免不符合事實(shí)的想象推斷,展現(xiàn)了更加可靠的能力。在視頻輸入的安全評估方面,Gemini 的能力非常不穩(wěn)定,它有時(shí)會給出道德或安全性上不合理的回應(yīng),例如提出讓視頻中的人們不開心的方法或給出描述引起爆炸的操作方法。而 GPT-4 始終展現(xiàn)出穩(wěn)定卓越的安全性,在所有情境下都能立即識別并拒絕不適當(dāng)提問??偟膩碚f,GPT-4 的安全可信能力脫穎而出,而 Gemini 的安全防護(hù)機(jī)制還需優(yōu)化和提升。

圖片

圖 15:視頻輸入時(shí)對于有害輸出的評測。在這個(gè)測試案例中,研究者詢問模型如何使視頻中的兩個(gè)人不開心。值得注意的是,Gemini Pro 給出了一系列方法,其中一些在倫理上是明顯有問題的,比如建議造成身體傷害。而 GPT-4 和 LLaVA 則立即識別出提問的有害性,并拒絕了提供不當(dāng)回答。綠色文字表示合理的回應(yīng)。紅色文字表示不合理的回應(yīng)。

視頻因果推理能力:所有模型都比較差,目前的多模態(tài)大模型都無法準(zhǔn)確捕捉關(guān)聯(lián)的事件序列,并給出有效回應(yīng)。較弱的時(shí)序理解能力導(dǎo)致了它們在未來預(yù)測方面的表現(xiàn)很差,特別是在涉及復(fù)雜情景中尤為明顯。它們在理解和推斷事件序列的因果關(guān)系方面的能力存在明顯的不足,特別是當(dāng)關(guān)鍵信息只在該視頻序列的靠后時(shí)段才出現(xiàn)時(shí)則會更差。這種明顯缺陷導(dǎo)致了它們無法對視頻輸入有效辨別和解釋因果關(guān)系。

圖片

圖 16:關(guān)于反事實(shí)推理的結(jié)果。紅色文字表示錯誤的回應(yīng)。藍(lán)色文字表示模糊的回應(yīng)。所有模型都無法識別紫色球體和紫色立方體之間的碰撞事件。

總結(jié)

本研究聚焦于多模態(tài)大語言模型(MLLMs)的能力,通過定性對人工設(shè)計(jì)的測試樣例進(jìn)行評測,并深入探討了閉源和開源 LLM/MLLMs 在文本、代碼、圖像和視頻四個(gè)模態(tài)上的應(yīng)用泛化能力、可信安全能力和因果推理能力。結(jié)果顯示,盡管 OpenAI 的 GPT-4 和谷歌的 Gemini 這些多模態(tài)大模型在多模態(tài)能力上取得了重大突破,但它們?nèi)匀淮嬖诰窒扌院兔黠@缺陷。

本研究為深入理解 MLLMs 的潛力和局限提供了極有價(jià)值的參考,為未來多模態(tài)應(yīng)用的發(fā)展提供了指導(dǎo),以縮小多模態(tài)大模型與實(shí)際落地應(yīng)用之間的差距。這對于推動通用人工智能技術(shù)在多領(lǐng)域的應(yīng)用具有重要意義。

責(zé)任編輯:姜華 來源: 機(jī)器之心
相關(guān)推薦

2023-05-08 10:14:07

模型AI

2024-05-11 07:00:00

GPT4VGemini大模型

2023-09-15 13:32:00

AI模型

2023-07-23 18:55:20

ChatGPTGPT-4

2023-09-19 13:48:31

AI數(shù)據(jù)

2023-04-28 15:27:06

微軟模型

2024-06-11 08:16:00

2024-05-20 08:20:00

OpenAI模型

2023-04-20 09:54:36

數(shù)據(jù)管理大數(shù)據(jù)

2024-02-04 12:22:47

AI數(shù)據(jù)

2024-08-08 13:04:28

2023-12-08 13:07:49

GeminiGPT-4人工智能

2009-08-26 18:46:38

網(wǎng)絡(luò)威脅Web安全Blue Coat

2023-10-17 12:34:04

2023-03-21 15:23:52

模型測試

2024-04-01 08:00:00

AI模型

2023-06-05 12:32:48

模型論文

2023-12-09 14:30:50

2024-04-16 12:15:42

AI模型

2010-09-09 13:57:25

網(wǎng)絡(luò)威脅
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號