自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4作弊被抓!吉娃娃or松餅打亂順序就出錯(cuò),LeCun:警惕在訓(xùn)練集上測(cè)試

人工智能
流行的緩解措施,如自我糾正和思維鏈提示并不能有效解決這些問(wèn)題,并測(cè)試了LLaVA和Bard等多模態(tài)模型存在相似的問(wèn)題。另外研究還發(fā)現(xiàn),GPT-4V更擅長(zhǎng)解釋西方文化背景的圖像或帶有英文文字的圖像。

GPT-4解決網(wǎng)絡(luò)名梗“吉娃娃or藍(lán)莓松餅”,一度驚艷無(wú)數(shù)人。

然鵝,現(xiàn)在它被指出“作弊”了!

圖片圖片

全用原題中出現(xiàn)的圖,只是打亂順序和排列方式。

結(jié)果,最新版全模式合一的GPT-4不但數(shù)錯(cuò)圖片數(shù)量,原來(lái)能正確識(shí)別的吉娃娃也識(shí)別出錯(cuò)了。

圖片圖片

那么為什么GPT-4在原圖上表現(xiàn)的這么好呢?

搞這項(xiàng)測(cè)試的UCSC助理教授Xin Eric Wang猜測(cè),原圖在互聯(lián)網(wǎng)上太流行,以至于GPT-4在訓(xùn)練時(shí)多次見(jiàn)過(guò)原答案,還給背了下來(lái)。

圖靈獎(jiǎng)三巨頭中的LeCun也關(guān)注此事,并表示:

警惕在訓(xùn)練集上測(cè)試。

圖片圖片

泰迪和炸雞也無(wú)法區(qū)分

原圖究竟有多流行呢,不但是網(wǎng)絡(luò)名梗,甚至在計(jì)算機(jī)視覺(jué)領(lǐng)域也成了經(jīng)典問(wèn)題,并多次出現(xiàn)在相關(guān)論文研究中。

圖片圖片

那么拋開(kāi)原圖的影響,GPT-4能力究竟局限在哪個(gè)環(huán)節(jié)?許多網(wǎng)友都給出了自己的測(cè)試方案。

為了排除排列方式太復(fù)雜是否有影響,有人修改成簡(jiǎn)單3x3排列也認(rèn)錯(cuò)很多。

圖片圖片

圖片圖片

有人把其中一些圖拆出來(lái)單獨(dú)發(fā)給GPT-4,得到了5/5的正確率。

圖片圖片

但Xin Eric Wang認(rèn)為,把這些容易混淆的圖像放在一起正是這個(gè)挑戰(zhàn)的重點(diǎn)。

圖片圖片

終于,有人同時(shí)用上了讓AI“深呼吸”和“一步一步地想”兩大咒語(yǔ),得到了正確結(jié)果。

圖片圖片

但GPT-4在回答中的用詞“這是視覺(jué)雙關(guān)或著名梗圖的一個(gè)例子”,也暴露了原圖確實(shí)可能存在于訓(xùn)練數(shù)據(jù)里。

圖片圖片

最后也有人測(cè)試了經(jīng)常一起出現(xiàn)的“泰迪or炸雞”測(cè)試,發(fā)現(xiàn)GPT-4也不能很好分辨。

圖片圖片

但是這個(gè)“藍(lán)莓or巧克力豆”就實(shí)在有點(diǎn)過(guò)分了……

圖片圖片

視覺(jué)幻覺(jué)成熱門方向

大模型“胡說(shuō)八道”在學(xué)術(shù)界被稱為幻覺(jué)問(wèn)題,多模態(tài)大模型的視覺(jué)幻覺(jué)問(wèn)題,已經(jīng)成了最近研究的熱門方向。

在EMNLP 2023一篇研究中,構(gòu)建了GVIL數(shù)據(jù)集,包含1600個(gè)數(shù)據(jù)點(diǎn),系統(tǒng)性的評(píng)估視覺(jué)幻覺(jué)問(wèn)題。

圖片圖片

研究發(fā)現(xiàn),規(guī)模更大的模型更容易受到錯(cuò)覺(jué)的影響,而且更接近人類感知。

圖片圖片

另一篇?jiǎng)偝鰻t的研究則重點(diǎn)評(píng)估了兩種幻覺(jué)類型:偏差和干擾。

圖片圖片

  • 偏差指模型傾向于產(chǎn)生某些類型的響應(yīng),可能是由于訓(xùn)練數(shù)據(jù)的不平衡造成的。
  • 干擾則是可能因文本提示的措辭方式或輸入圖像的呈現(xiàn)方式造成去別的場(chǎng)景。

圖片圖片

研究中指出GPT-4V一起解釋多個(gè)圖像時(shí)經(jīng)常會(huì)困惑,單獨(dú)發(fā)送圖像時(shí)表現(xiàn)更好,符合“吉娃娃or松餅”測(cè)試中的觀察結(jié)果。

圖片圖片

流行的緩解措施,如自我糾正和思維鏈提示并不能有效解決這些問(wèn)題,并測(cè)試了LLaVA和Bard等多模態(tài)模型存在相似的問(wèn)題。

另外研究還發(fā)現(xiàn),GPT-4V更擅長(zhǎng)解釋西方文化背景的圖像或帶有英文文字的圖像。

比如GPT-4V能正確數(shù)出七個(gè)小矮人+白雪公主,卻把七個(gè)葫蘆娃數(shù)成了10個(gè)。

圖片圖片

參考鏈接:[1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2023-11-13 18:42:29

GPT-4VSOTA

2025-04-08 13:12:49

2023-06-19 10:09:01

數(shù)學(xué)AI

2023-12-08 13:07:49

GeminiGPT-4人工智能

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-05-29 09:29:52

GPT-4語(yǔ)言模型

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-06-19 12:28:21

GPT人工驗(yàn)證數(shù)據(jù)集

2024-05-20 08:40:00

2023-07-11 15:30:08

GPT-4架構(gòu)

2023-09-06 16:44:03

2023-11-26 17:14:05

2024-06-24 17:45:16

2024-06-27 13:12:17

2024-06-28 13:40:03

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-03-27 17:45:16

研究AI

2023-11-02 12:10:00

AI訓(xùn)練

2023-03-29 14:58:04

GPT-4技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)