自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="n6bgk"><track id="n6bgk"></track></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

谷歌Gemini被曝視頻造假！多模態(tài)視頻竟是剪輯配音，擊敗GPT-4靠「作弊」？

作者：新智元 2023-12-08 13:07:49

最新Wired的采訪中，Hassabis直言道，谷歌今天宣布的人工智能模型Gemini為人工智能開辟了一條未被實踐的道路，可能會帶來重大的新突破?！缸鳛橐幻窠?jīng)科學(xué)家和計算機(jī)科學(xué)家，多年來我一直想嘗試創(chuàng)造一種新一代的人工智能模型。而這些模型的靈感來自我們所有感官互動和理解世界的方式」。

谷歌的宣傳視頻，竟然作假了？

在谷歌昨天發(fā)布的Gemini的宣傳視頻中，所有人都被那一段6分鐘一鏡到底的互動視頻驚艷到了。

圖片

一天之內(nèi)有720萬的播放量。網(wǎng)友驚呼，Gemini看起來就像一個能隨時事無巨細(xì)地向你解釋一切的朋友。

圖片

視頻中看起來，好像Gemini能夠?qū)崟r地感知人類的動作，并且直接做出語音回應(yīng)。

然而，有越來越多的人質(zhì)疑demo的真實性。

彭博社的Parmy Olsen，第一個質(zhì)疑視頻造假。

圖片

隨后，谷歌官博也放出了解釋——

是的，視頻的確有后期制作和剪輯的成分。

根據(jù)官方發(fā)布的一個技術(shù)文檔，Gemini所有的這些交互都不是實時感知到的，而是通過提示詞問出來的。比如：

圖片

視頻中顯示，似乎Gemini能直接看懂人類在玩石頭剪子布，

但其實，真實的過程是，向Gemini上傳一張手比剪刀的照片，問它看到了什么。然后用人聲把它的回復(fù)讀了出來。

而石頭剪子布的視頻，則是把三張照片依次傳給Gemini，讓它把這三張照片連在一起推理，它直接給出回答，這是在玩石頭剪子布。

所以，實際上并不是Gemini看懂了一段視頻，它只是看懂了三張圖片，并且做出了推理而已。

圖片

人類給Gemini傳了一張「剪刀」的照片，Gemini回復(fù)說：「這似乎是伸出了兩個指頭的手勢，一般來說這個手勢代表著數(shù)字2」。然后人類又傳了3張「石頭剪刀布」的手勢照片，問它這三張照片合在一起是什么意思。Gemini才說了這是「石頭剪子布」游戲

同樣，在識別行星的演示，視頻給人營造的感覺仿佛是直接問Gemini「這個順序正確嗎」，它就能回答不正確，應(yīng)該是太陽、地球、土星。

圖片

但實際上，是谷歌給了Gemini一句prompt：「這個順序正確嗎？請考慮它們與太陽的距離，并且解釋你的理由」，隨后，Gemini才回答了那樣一句話。

圖片

很多網(wǎng)友也認(rèn)為，谷歌這種有意地誤導(dǎo)性呈現(xiàn)，反而讓用戶會懷疑，到底模型的真實能力有多強(qiáng)。

圖片

畢竟，產(chǎn)品不能永遠(yuǎn)停留在宣傳視頻里，最終都要交到用戶手上去體驗。

這個視頻最大的誤導(dǎo)性在于，似乎讓用戶誤以為Gemini能實時的讀取視頻信息，并且能夠通過自己的理解直接推測用戶的問題并直接回復(fù)。

而實際情況是，谷歌員工是通過讀取圖片+良好的提示詞工程才能讓Gemini生成這些回復(fù)的。

雖然說從技術(shù)原理上來看，能夠讀取圖片和能夠看懂視頻之間，并沒有技術(shù)上的鴻溝。

但是從產(chǎn)品實現(xiàn)落地的角度看，把讀取圖片約等于能實時看懂視頻，并且過于強(qiáng)調(diào)實時性而壓縮了交互過程中的延遲，這幾乎已經(jīng)可以理解為虛假宣傳了。

而是否需要良好的提示詞工程，更是評價模型能力的關(guān)鍵問題。

谷歌的這些「后期加工」，只能說明，他們太想讓Gemini「看起來」比競品好太多了。

畢竟，起了個大早卻趕了個晚集的谷歌，在大模型上確實太需要流量了。

在YouTube描述中，谷歌也承認(rèn)了該視頻被編輯為延遲，這樣就能使得模型看起來響應(yīng)速度比實際更快。

Olson表示，谷歌的營銷非常巧妙，所以我們真的應(yīng)該在AI炒作中更加謹(jǐn)慎，保持清醒的頭腦和判斷力。

圖片

谷歌，令人失望了

本來，昨天Gemini的演示一出立馬驚艷了眾人，本來是多模態(tài)理解領(lǐng)域的一次令人興奮的展示。

現(xiàn)在被扒出偽造，顯然會讓用戶對谷歌的誠信失去信心。谷歌這一出，著實得不償失。

其實本來，Gemini確實輸出了視頻中顯示的回應(yīng)。

圖片

但視頻的剪輯效果，卻會讓用戶對于Gemini的交互速度、準(zhǔn)確性和基本模式產(chǎn)生誤解。

石頭剪子布的demo，和實際上Gemini對于三張圖片的識別，是完全不同的交互。

前者是一種直觀的反應(yīng)，表示Gemini可以即時捕捉一個抽象的想法；而后者，則是經(jīng)過精心設(shè)計、充滿大量暗示的交互，雖然的確體現(xiàn)了Gemini的能力，但也具有不少局限性。

如果視頻一開始就明確指出，「這是研究人員測試Gemini互動的一種風(fēng)格化演示」，可能會讓公眾的期待者降低一些，也就不會像如今這樣失望。

而且，視頻名叫「Hands-on with Gemini」，暗示了視頻中展示的就是和Gemini的原樣互動。然而實際上Gemini的參與程度，是摻了水分的。

視頻中也沒有明說，視頻中的模型，到底是Gemini的哪個版本。

總的來說，這段視頻半真半假，盡管包含一些真實的成分，但它根本沒有反映現(xiàn)實。

網(wǎng)友深表理解

Perplexity AI的首席執(zhí)行官將網(wǎng)友對谷歌Gemini造假視頻，做了客觀的分析。

當(dāng)前有兩種激進(jìn)派的人，是這樣看待Gemini的發(fā)布：

極端看法1：「DeepMind偽造了評估和演示。Gemini很糟糕」。

極端看法2：「OpenAI 完蛋了。谷歌回來了。Bard將免費(fèi)運(yùn)行Gemini，因為計算芯片的利潤空間，它會擊敗 ChatGPT」。

而現(xiàn)實情況是，Gemini很酷，是第一個真正可以與GPT-4媲美的模型，也是谷歌真正的成就之一。尤其它僅僅是一個密集型模型（原生模型）。

這次，只能說谷歌的市場營銷手段過火了，但眾所周知DeepMind喜歡高調(diào)公關(guān)。

而谷歌視頻演示的多模態(tài)能力，實際上在一年內(nèi)就能實現(xiàn)。

圖片

一位網(wǎng)友對此表示深度贊同，太多人想要給谷歌扣上「偽造」視頻的黑帽。

圖片

還有人表示完全理解炒作的行為，畢竟谷歌對微軟OpenAI的反擊晚了一步。

圖片

打敗GPT-4，靠的是「作弊」

另外，谷歌發(fā)布的這個表格，顯示出Gemini Ultra在大多數(shù)標(biāo)準(zhǔn)基準(zhǔn)測試中擊敗了GPT-4。

圖片

可是這種比較并不公平。

GPT-4的86.4%分?jǐn)?shù)是基于行業(yè)評估標(biāo)準(zhǔn)，即「5-shot」。

然而，Gemini Ultra 90%的得分是基于谷歌研究人員開發(fā)的一種基于「32個樣本的思維鏈」的方法。

對于同一個問題，Gemini Ultra會生成32個答案以及這些答案的推理。然后，模型會選擇最常見的答案作為最終答案。

或許就是這種新方法，讓Gemini能夠更好地「推理」。

但是，在使用行業(yè)標(biāo)準(zhǔn)5-shot MMLU的情況下，GPT-4的86.4%要高于Gemini Ultra的83.7%。

HuggingFace技術(shù)主管Philipp Schmid特意從Gemini的技術(shù)報告中扒了數(shù)據(jù)，重做了一張新圖——如果使用5-shot，Gemini的得分實為83.7%，而非90.0%。

圖片

而且，Gemini Ultra對于GPT-4僅有幾個百分點的優(yōu)勢，但是GPT-4，是OpenAI差不多一年前的產(chǎn)品。

外媒The Information發(fā)布了題為《Gemini可能并不像谷歌說的那么好》的文章，表示谷歌的員工一定是壓力太大了，因為他們用了一些額外的措施，讓Gemini看起來比競爭對手更出色。

圖片

如果真如谷歌所說，Gemini Ultra是在明年一月發(fā)布，那它可能SOTA不了多久。

要知道，OpenAI的GPT-5，應(yīng)該已經(jīng)在路上了。

圖片

似乎是內(nèi)部知情人士艾特了Sam Altman，問他還要把寶貝捂到什么時候？還不趕快拿出來？

網(wǎng)友試用體驗

我讓Gemini畫了一幅一個人開著電卡車在樹林里露營的圖，它生成的樣子如下。

圖片

還是需要稍加修改，有待進(jìn)步。

圖片

這位網(wǎng)友發(fā)出了自己測試基于Gemini Pro的Bard，對于很多事實類問題還是有錯誤。

他問了兩遍Bard奧斯卡2023年的獲獎情況，Bard給了兩個不同的錯誤獲獎名單。

圖片

另一個網(wǎng)友又問了一個和翻譯有關(guān)的問題，結(jié)果也不太對。

圖片

似乎它對語言中單詞字?jǐn)?shù)非常不敏感，經(jīng)常會數(shù)錯。

圖片

而對于谷歌重點宣傳的代碼能力，似乎Bard的表現(xiàn)也不夠好，難道原因是在Stackoverflow上沒有對應(yīng)的答案？

圖片

還有人也模仿谷歌的行為，讓ChatGPT從MP4中提取視頻幀，然后解釋視頻......

圖片

ChatGPT自主從從視頻中提取幀，然后網(wǎng)友上傳6張對應(yīng)圖片，讓ChatGPT給出具體的解釋。

圖片

圖片

圖片

圖片

Gemini時代來臨了

作為谷歌DeepMind的領(lǐng)導(dǎo)人，Demis Hassabis也是興奮不已，并表示「Gemini的時代來臨了」。

圖片

最新Wired的采訪中，Hassabis直言道，谷歌今天宣布的人工智能模型Gemini為人工智能開辟了一條未被實踐的道路，可能會帶來重大的新突破。

「作為一名神經(jīng)科學(xué)家和計算機(jī)科學(xué)家，多年來我一直想嘗試創(chuàng)造一種新一代的人工智能模型。而這些模型的靈感來自我們所有感官互動和理解世界的方式」。

「Gemini是向這種『多模態(tài)』模型邁出的一大步」。

圖片

他繼續(xù)道，「到目前為止，大多數(shù)模型都是通過訓(xùn)練單獨的模塊，然后將其拼接在一起，來實現(xiàn)多模態(tài)能力」。

「對于某些任務(wù)來說，這是可以的，但是在多模態(tài)空間中，無法進(jìn)行深度復(fù)雜推理」。

這似乎是在暗指OpenAI的技術(shù)。

我們都知道，ChatGPT的多模態(tài)能力，是由GPT-4、DALL·E 3、Whisper多個模型組合而實現(xiàn)的。

今年5月的谷歌開發(fā)者大會I/O上，劈柴首次官宣，谷歌正在訓(xùn)練一個新的、更強(qiáng)大的PaLM繼任者，名為Gemini。

圖片

Gemini的命名也有深層的寓意，是為了紀(jì)念谷歌大腦和DeepMind兩個團(tuán)隊實驗室的合體，并向美國宇航局Gemini致敬。

7個月的時間，關(guān)于Gemini的各種爆料也是層出不窮。

而現(xiàn)在，谷歌以驚人的速度研發(fā)出Gemini，著實在年底之前來了一次重磅反擊。

Hassabis說，新模型能夠處理不同形式的數(shù)據(jù)，包括文本之外的數(shù)據(jù)，這是該項目從一開始就愿景的關(guān)鍵部分。

許多人工智能研究人員認(rèn)為，能夠利用不同格式的數(shù)據(jù)是自然智能的一項關(guān)鍵能力，而這正是機(jī)器所缺乏的。

ChatGPT等AI大模型因從強(qiáng)大的互聯(lián)網(wǎng)數(shù)據(jù)中學(xué)習(xí)，獲得了靈活且強(qiáng)大的泛化能力。

但是，盡管ChatGPT和類似的聊天機(jī)器人可以用同樣的技巧，來討論或回答有關(guān)物理世界的問題，但這種表面上的理解很快就會瓦解。

圖片

許多人工智能專家認(rèn)為，要使機(jī)器智能取得重大進(jìn)步，就需要AI系統(tǒng)在物理現(xiàn)實中賦予身體，即「具身」。

Hassabis表示，谷歌DeepMind已經(jīng)在研究，如何將Gemini與機(jī)器人技術(shù)相結(jié)合，與世界進(jìn)行物理互動。

「要實現(xiàn)真正的多模態(tài)，你需要包括觸覺和觸覺反饋。將這些基礎(chǔ)型模型應(yīng)用于機(jī)器人技術(shù)有很多希望，我們正在大力探索」。

目前，谷歌已經(jīng)朝著這個方向邁出了一小步。

5月，該公司宣布了一款名為Gato的AI模型，能夠?qū)W習(xí)執(zhí)行各種任務(wù)，包括玩Atari游戲、為圖像添加字幕，以及使用機(jī)械臂堆疊積木。

今年7月，谷歌RT-2機(jī)器人模型，便是通過語言模型來幫助機(jī)器人理解和執(zhí)行動作。

為了讓AI智能體更可靠，就需要為其提供動力的算法必須更加智能。

前段時間，OpenAI曾被曝出開發(fā)一個名為「Q*」的項目，網(wǎng)友紛紛猜測可能用到了「強(qiáng)化學(xué)習(xí)」，這是AlphaGo的核心技術(shù)。

不過，Hassabis稱，谷歌目前正在按照類似的思路進(jìn)行研究。

AlphaGo的進(jìn)步有望幫助改善未來模型的規(guī)劃和推理，就像今天推出的模型一樣。我們正在努力進(jìn)行一些有趣的創(chuàng)新，以將其帶入Gemini的未來版本。

「明年，你將會看Gemini超強(qiáng)進(jìn)化」。

看來，正如網(wǎng)友所說，我們離GPT-5降臨的那一天也不遠(yuǎn)了。

圖片

現(xiàn)在，谷歌有Gemini，微軟有GPT，Meta有LLaMA，Anthropic有Claude，這是否意味著蘋果iPhone時代的終結(jié)？

圖片

參考資料：

https://twitter.com/parmy/status/1732811357068615969

https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/

https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

責(zé)任編輯：武曉燕來源：新智元

Gemini GPT-4 人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="f7xjy"><rp id="f7xjy"><pre id="f7xjy"></pre></rp></cite>