谷歌Gemini被曝視頻造假!多模態(tài)視頻竟是剪輯配音,擊敗GPT-4靠「作弊」?
谷歌的宣傳視頻,竟然作假了?
在谷歌昨天發(fā)布的Gemini的宣傳視頻中,所有人都被那一段6分鐘一鏡到底的互動視頻驚艷到了。
圖片
一天之內(nèi)有720萬的播放量。網(wǎng)友驚呼,Gemini看起來就像一個能隨時事無巨細(xì)地向你解釋一切的朋友。
圖片
視頻中看起來,好像Gemini能夠?qū)崟r地感知人類的動作,并且直接做出語音回應(yīng)。
然而,有越來越多的人質(zhì)疑demo的真實性。
彭博社的Parmy Olsen,第一個質(zhì)疑視頻造假。
圖片
隨后,谷歌官博也放出了解釋——
是的,視頻的確有后期制作和剪輯的成分。
根據(jù)官方發(fā)布的一個技術(shù)文檔,Gemini所有的這些交互都不是實時感知到的,而是通過提示詞問出來的。比如:
圖片
視頻中顯示,似乎Gemini能直接看懂人類在玩石頭剪子布,
但其實,真實的過程是,向Gemini上傳一張手比剪刀的照片,問它看到了什么。然后用人聲把它的回復(fù)讀了出來。
而石頭剪子布的視頻,則是把三張照片依次傳給Gemini,讓它把這三張照片連在一起推理,它直接給出回答,這是在玩石頭剪子布。
所以,實際上并不是Gemini看懂了一段視頻,它只是看懂了三張圖片,并且做出了推理而已。
圖片
人類給Gemini傳了一張「剪刀」的照片,Gemini回復(fù)說:「這似乎是伸出了兩個指頭的手勢,一般來說這個手勢代表著數(shù)字2」。然后人類又傳了3張「石頭剪刀布」的手勢照片,問它這三張照片合在一起是什么意思。Gemini才說了這是「石頭剪子布」游戲
同樣,在識別行星的演示,視頻給人營造的感覺仿佛是直接問Gemini「這個順序正確嗎」,它就能回答不正確,應(yīng)該是太陽、地球、土星。
圖片
但實際上,是谷歌給了Gemini一句prompt:「這個順序正確嗎?請考慮它們與太陽的距離,并且解釋你的理由」,隨后,Gemini才回答了那樣一句話。
圖片
很多網(wǎng)友也認(rèn)為,谷歌這種有意地誤導(dǎo)性呈現(xiàn),反而讓用戶會懷疑,到底模型的真實能力有多強(qiáng)。
圖片
畢竟,產(chǎn)品不能永遠(yuǎn)停留在宣傳視頻里,最終都要交到用戶手上去體驗。
這個視頻最大的誤導(dǎo)性在于,似乎讓用戶誤以為Gemini能實時的讀取視頻信息,并且能夠通過自己的理解直接推測用戶的問題并直接回復(fù)。
而實際情況是,谷歌員工是通過讀取圖片+良好的提示詞工程才能讓Gemini生成這些回復(fù)的。
雖然說從技術(shù)原理上來看,能夠讀取圖片和能夠看懂視頻之間,并沒有技術(shù)上的鴻溝。
但是從產(chǎn)品實現(xiàn)落地的角度看,把讀取圖片約等于能實時看懂視頻,并且過于強(qiáng)調(diào)實時性而壓縮了交互過程中的延遲,這幾乎已經(jīng)可以理解為虛假宣傳了。
而是否需要良好的提示詞工程,更是評價模型能力的關(guān)鍵問題。
谷歌的這些「后期加工」,只能說明,他們太想讓Gemini「看起來」比競品好太多了。
畢竟,起了個大早卻趕了個晚集的谷歌,在大模型上確實太需要流量了。
在YouTube描述中,谷歌也承認(rèn)了該視頻被編輯為延遲,這樣就能使得模型看起來響應(yīng)速度比實際更快。
Olson表示,谷歌的營銷非常巧妙,所以我們真的應(yīng)該在AI炒作中更加謹(jǐn)慎,保持清醒的頭腦和判斷力。
圖片
谷歌,令人失望了
本來,昨天Gemini的演示一出立馬驚艷了眾人,本來是多模態(tài)理解領(lǐng)域的一次令人興奮的展示。
現(xiàn)在被扒出偽造,顯然會讓用戶對谷歌的誠信失去信心。谷歌這一出,著實得不償失。
其實本來,Gemini確實輸出了視頻中顯示的回應(yīng)。
圖片
但視頻的剪輯效果,卻會讓用戶對于Gemini的交互速度、準(zhǔn)確性和基本模式產(chǎn)生誤解。
石頭剪子布的demo,和實際上Gemini對于三張圖片的識別,是完全不同的交互。
前者是一種直觀的反應(yīng),表示Gemini可以即時捕捉一個抽象的想法;而后者,則是經(jīng)過精心設(shè)計、充滿大量暗示的交互,雖然的確體現(xiàn)了Gemini的能力,但也具有不少局限性。
如果視頻一開始就明確指出,「這是研究人員測試Gemini互動的一種風(fēng)格化演示」,可能會讓公眾的期待者降低一些,也就不會像如今這樣失望。
而且,視頻名叫「Hands-on with Gemini」,暗示了視頻中展示的就是和Gemini的原樣互動。然而實際上Gemini的參與程度,是摻了水分的。
視頻中也沒有明說,視頻中的模型,到底是Gemini的哪個版本。
總的來說,這段視頻半真半假,盡管包含一些真實的成分,但它根本沒有反映現(xiàn)實。
網(wǎng)友深表理解
Perplexity AI的首席執(zhí)行官將網(wǎng)友對谷歌Gemini造假視頻,做了客觀的分析。
當(dāng)前有兩種激進(jìn)派的人,是這樣看待Gemini的發(fā)布:
極端看法1:「DeepMind偽造了評估和演示。Gemini很糟糕」。
極端看法2:「OpenAI 完蛋了。谷歌回來了。Bard將免費(fèi)運(yùn)行Gemini,因為計算芯片的利潤空間,它會擊敗 ChatGPT」。
而現(xiàn)實情況是,Gemini很酷,是第一個真正可以與GPT-4媲美的模型,也是谷歌真正的成就之一。尤其它僅僅是一個密集型模型(原生模型)。
這次,只能說谷歌的市場營銷手段過火了,但眾所周知DeepMind喜歡高調(diào)公關(guān)。
而谷歌視頻演示的多模態(tài)能力,實際上在一年內(nèi)就能實現(xiàn)。
圖片
一位網(wǎng)友對此表示深度贊同,太多人想要給谷歌扣上「偽造」視頻的黑帽。
圖片
還有人表示完全理解炒作的行為,畢竟谷歌對微軟OpenAI的反擊晚了一步。
圖片
打敗GPT-4,靠的是「作弊」
另外,谷歌發(fā)布的這個表格,顯示出Gemini Ultra在大多數(shù)標(biāo)準(zhǔn)基準(zhǔn)測試中擊敗了GPT-4。
圖片
可是這種比較并不公平。
GPT-4的86.4%分?jǐn)?shù)是基于行業(yè)評估標(biāo)準(zhǔn),即「5-shot」。
然而,Gemini Ultra 90%的得分是基于谷歌研究人員開發(fā)的一種基于「32個樣本的思維鏈」的方法。
對于同一個問題,Gemini Ultra會生成32個答案以及這些答案的推理。然后,模型會選擇最常見的答案作為最終答案。
或許就是這種新方法,讓Gemini能夠更好地「推理」。
但是,在使用行業(yè)標(biāo)準(zhǔn)5-shot MMLU的情況下,GPT-4的86.4%要高于Gemini Ultra的83.7%。
HuggingFace技術(shù)主管Philipp Schmid特意從Gemini的技術(shù)報告中扒了數(shù)據(jù),重做了一張新圖——如果使用5-shot,Gemini的得分實為83.7%,而非90.0%。
圖片
而且,Gemini Ultra對于GPT-4僅有幾個百分點的優(yōu)勢,但是GPT-4,是OpenAI差不多一年前的產(chǎn)品。
外媒The Information發(fā)布了題為《Gemini可能并不像谷歌說的那么好》的文章,表示谷歌的員工一定是壓力太大了,因為他們用了一些額外的措施,讓Gemini看起來比競爭對手更出色。
圖片
如果真如谷歌所說,Gemini Ultra是在明年一月發(fā)布,那它可能SOTA不了多久。
要知道,OpenAI的GPT-5,應(yīng)該已經(jīng)在路上了。
圖片
似乎是內(nèi)部知情人士艾特了Sam Altman,問他還要把寶貝捂到什么時候?還不趕快拿出來?
網(wǎng)友試用體驗
我讓Gemini畫了一幅一個人開著電卡車在樹林里露營的圖,它生成的樣子如下。
圖片
還是需要稍加修改,有待進(jìn)步。
圖片
這位網(wǎng)友發(fā)出了自己測試基于Gemini Pro的Bard,對于很多事實類問題還是有錯誤。
他問了兩遍Bard奧斯卡2023年的獲獎情況,Bard給了兩個不同的錯誤獲獎名單。
圖片
另一個網(wǎng)友又問了一個和翻譯有關(guān)的問題,結(jié)果也不太對。
圖片
似乎它對語言中單詞字?jǐn)?shù)非常不敏感,經(jīng)常會數(shù)錯。
圖片
而對于谷歌重點宣傳的代碼能力,似乎Bard的表現(xiàn)也不夠好,難道原因是在Stackoverflow上沒有對應(yīng)的答案?
圖片
還有人也模仿谷歌的行為,讓ChatGPT從MP4中提取視頻幀,然后解釋視頻......
圖片
ChatGPT自主從從視頻中提取幀,然后網(wǎng)友上傳6張對應(yīng)圖片,讓ChatGPT給出具體的解釋。
圖片
圖片
圖片
圖片
Gemini時代來臨了
作為谷歌DeepMind的領(lǐng)導(dǎo)人,Demis Hassabis也是興奮不已,并表示「Gemini的時代來臨了」。
圖片
最新Wired的采訪中,Hassabis直言道,谷歌今天宣布的人工智能模型Gemini為人工智能開辟了一條未被實踐的道路,可能會帶來重大的新突破。
「作為一名神經(jīng)科學(xué)家和計算機(jī)科學(xué)家,多年來我一直想嘗試創(chuàng)造一種新一代的人工智能模型。而這些模型的靈感來自我們所有感官互動和理解世界的方式」。
「Gemini是向這種『多模態(tài)』模型邁出的一大步」。
圖片
他繼續(xù)道,「到目前為止,大多數(shù)模型都是通過訓(xùn)練單獨的模塊,然后將其拼接在一起,來實現(xiàn)多模態(tài)能力」。
「對于某些任務(wù)來說,這是可以的,但是在多模態(tài)空間中,無法進(jìn)行深度復(fù)雜推理」。
這似乎是在暗指OpenAI的技術(shù)。
我們都知道,ChatGPT的多模態(tài)能力,是由GPT-4、DALL·E 3、Whisper多個模型組合而實現(xiàn)的。
今年5月的谷歌開發(fā)者大會I/O上,劈柴首次官宣,谷歌正在訓(xùn)練一個新的、更強(qiáng)大的PaLM繼任者,名為Gemini。
圖片
Gemini的命名也有深層的寓意,是為了紀(jì)念谷歌大腦和DeepMind兩個團(tuán)隊實驗室的合體,并向美國宇航局Gemini致敬。
7個月的時間,關(guān)于Gemini的各種爆料也是層出不窮。
而現(xiàn)在,谷歌以驚人的速度研發(fā)出Gemini,著實在年底之前來了一次重磅反擊。
Hassabis說,新模型能夠處理不同形式的數(shù)據(jù),包括文本之外的數(shù)據(jù),這是該項目從一開始就愿景的關(guān)鍵部分。
許多人工智能研究人員認(rèn)為,能夠利用不同格式的數(shù)據(jù)是自然智能的一項關(guān)鍵能力,而這正是機(jī)器所缺乏的。
ChatGPT等AI大模型因從強(qiáng)大的互聯(lián)網(wǎng)數(shù)據(jù)中學(xué)習(xí),獲得了靈活且強(qiáng)大的泛化能力。
但是,盡管ChatGPT和類似的聊天機(jī)器人可以用同樣的技巧,來討論或回答有關(guān)物理世界的問題,但這種表面上的理解很快就會瓦解。
圖片
許多人工智能專家認(rèn)為,要使機(jī)器智能取得重大進(jìn)步,就需要AI系統(tǒng)在物理現(xiàn)實中賦予身體,即「具身」。
Hassabis表示,谷歌DeepMind已經(jīng)在研究,如何將Gemini與機(jī)器人技術(shù)相結(jié)合,與世界進(jìn)行物理互動。
「要實現(xiàn)真正的多模態(tài),你需要包括觸覺和觸覺反饋。將這些基礎(chǔ)型模型應(yīng)用于機(jī)器人技術(shù)有很多希望,我們正在大力探索」。
目前,谷歌已經(jīng)朝著這個方向邁出了一小步。
5月,該公司宣布了一款名為Gato的AI模型,能夠?qū)W習(xí)執(zhí)行各種任務(wù),包括玩Atari游戲、為圖像添加字幕,以及使用機(jī)械臂堆疊積木。
今年7月,谷歌RT-2機(jī)器人模型,便是通過語言模型來幫助機(jī)器人理解和執(zhí)行動作。
為了讓AI智能體更可靠,就需要為其提供動力的算法必須更加智能。
前段時間,OpenAI曾被曝出開發(fā)一個名為「Q*」的項目,網(wǎng)友紛紛猜測可能用到了「強(qiáng)化學(xué)習(xí)」,這是AlphaGo的核心技術(shù)。
不過,Hassabis稱,谷歌目前正在按照類似的思路進(jìn)行研究。
AlphaGo的進(jìn)步有望幫助改善未來模型的規(guī)劃和推理,就像今天推出的模型一樣。我們正在努力進(jìn)行一些有趣的創(chuàng)新,以將其帶入Gemini的未來版本。
「明年,你將會看Gemini超強(qiáng)進(jìn)化」。
看來,正如網(wǎng)友所說,我們離GPT-5降臨的那一天也不遠(yuǎn)了。
圖片
現(xiàn)在,谷歌有Gemini,微軟有GPT,Meta有LLaMA,Anthropic有Claude,這是否意味著蘋果iPhone時代的終結(jié)?
圖片
參考資料:
https://twitter.com/parmy/status/1732811357068615969
https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html