自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Gemini上線首日：用戶褒貶不一，演示被質(zhì)疑「造假」，谷歌承認(rèn)了

作者：機(jī)器之心 2023-12-08 13:18:00

人工智能新聞

本周三，谷歌的 Gemini 讓生成式 AI 進(jìn)入了原生多模態(tài)時(shí)代。人們第一時(shí)間涌入新模型加持的 Bard 想要試試 AI 的能力，結(jié)果給出的評(píng)價(jià)褒貶不一。

「谷歌，這就有點(diǎn)尷尬了。」

沒有想到，Gemini 上線頭一天，熱門評(píng)論會(huì)是這個(gè)樣子。

本周三，谷歌的 Gemini 讓生成式 AI 進(jìn)入了原生多模態(tài)時(shí)代。人們第一時(shí)間涌入新模型加持的 Bard 想要試試 AI 的能力，結(jié)果給出的評(píng)價(jià)褒貶不一。

其中最值得注意的是有人指出，Gemini 在發(fā)布時(shí)，谷歌給出的一系列 Demo 中最令人眼花繚亂的部分是偽造的。

名為《Hands-on with Gemini: Interacting with multimodal AI》的視頻現(xiàn)在的播放量已經(jīng)有 140 萬次，其中展示了谷歌認(rèn)為自己「最喜歡的與 Gemini 的交互案例」，展示了多模態(tài)模型（即它理解并混合語言和視覺理解）如何靈活地響應(yīng)各種輸入。

谷歌展示了 Gemini 神奇的理解和交互能力，人用畫筆繪制一只鴨子的草圖，從一條曲線到一幅完整的圖畫，AI 評(píng)論說藍(lán)色是一種不切實(shí)際的動(dòng)物顏色。

然后 AI 看到一只實(shí)體的玩具藍(lán)色鴨時(shí)表現(xiàn)出了驚訝。然后它會(huì)響應(yīng)人類圍繞鴨子的各種問題，包括地球的哪個(gè)地點(diǎn)會(huì)有鴨子，鴨子在各種語言里的讀法等等。

隨后演示繼續(xù)進(jìn)行，AI 實(shí)現(xiàn)了在換杯子游戲中正確跟蹤、識(shí)別皮影手勢(shì)、識(shí)別材料給出組合建議、重新排序行星草圖等等。

但點(diǎn)擊 YouTube 上的視頻描述，可以發(fā)現(xiàn) Google 有一個(gè)重要的免責(zé)聲明：「為了演示的目的，他們已經(jīng)減少延遲，為了簡(jiǎn)潔，Gemini 的輸出也縮短了。」

根據(jù)彭博社消息，谷歌在被要求發(fā)表評(píng)論時(shí)承認(rèn)，視頻演示并不是實(shí)時(shí)的，而是使用了原始鏡頭中的靜止圖像幀，然后編寫了文本提示，讓 Gemini 做出回應(yīng)。

視頻看起來很美好，然而，卻也反映出了這一問題：視頻不是真實(shí)的。人們使用了各種方式來進(jìn)行驗(yàn)證，包括使用視頻的截圖來問 Bard 中的 Gemini，發(fā)現(xiàn) AI 并不能準(zhǔn)確地回答問題。

有理由懷疑，谷歌可能只是制作了一個(gè)夸張的視頻，然后使用靜態(tài)圖像幀和文本進(jìn)行拼湊來作為 Gemini 的提示語。也就是說，視頻 Demo 是精心挑選的結(jié)果。

也許 Gemini 可以如實(shí)的完成視頻展示的內(nèi)容，但谷歌沒有這樣做，而是加了速；又或許 Gemini 根本不像視頻中展示的那樣絲滑，有人從好幾個(gè)錯(cuò)誤結(jié)果中挑出了正確的作為素材。

但無論如何，Gemini 的演示看起來都像是經(jīng)過精心調(diào)整好的，對(duì)實(shí)際交互情況進(jìn)行了歪曲。

谷歌在這篇名為《How it’s Made: Interacting with Gemini through multimodal prompting》的博客中也解釋了多模態(tài)交互過程，即如何通過多模態(tài) prompting 來與 Gemini 交互。

注：Gemini 的提示語可以是多模態(tài) prompting（即不同模態(tài)的組合，如圖像和文本），之后讓 Gemini 預(yù)測(cè)接下來會(huì)發(fā)生什么，從而做出反應(yīng)。

例如，在玩剪刀石頭布的游戲中，谷歌的實(shí)驗(yàn)過程是這樣的：將照片展示給 Gemini，并要求 Gemini 描述所看到的內(nèi)容：

在演示中，一方面，Gemini 似乎確實(shí)產(chǎn)生了視頻中所示的反應(yīng)。但在另一方面，觀眾可能被誤導(dǎo)了，主要體現(xiàn)在與模型的交互速度、準(zhǔn)確性等方面。

例如，在視頻的 2:45 處，一只手靜靜地做出一系列手勢(shì)。Gemini 很快回應(yīng)：「我知道你在做什么！你在玩石頭、剪刀、布！」

然而在谷歌博客中，用戶必須同時(shí)顯示所有三個(gè)手勢(shì)并提示：你認(rèn)為我在做什么？外加提示：這是一個(gè)游戲。Gemini 才回答道：「你在玩石頭、剪刀、布?！咕拖裣聢D所展示的，當(dāng)用戶伸出兩根手指時(shí)，Gemini 并不知道這是石頭、剪刀、布的游戲。只有三張圖片都齊全了，Gemini 才能猜對(duì)。

比較視頻和博客介紹的推理過程，給人一種完全不同的交互方式，視頻中顯示的「互動(dòng)」過程并沒有發(fā)生。

在隨后的演示中，將三張帶有太陽、土星和地球涂鴉的草圖展示給 Gemini。在視頻中，用戶問道「這個(gè)順序正確嗎？」Gemini 回答：「不，是太陽、地球、土星。」注意，原視頻中用戶除了「這個(gè)順序正確嗎？」這句話，沒有其他信息。Gemini 卻給出了答案。

但在實(shí)際的提示中（還是書面的），提示語卻是「這個(gè)順序?qū)?？考慮到與太陽的距離，并解釋你的理由?！笹emini 回答：正確的順序是太陽、地球、土星。太陽離太陽系中心最近，其次是地球，然后是土星。

我們可以推測(cè)，在視頻中，Gemini 的回答可能需要其他幫助，只是谷歌沒有體現(xiàn)出來。

在視頻展示的另一個(gè)示例中，紙團(tuán)在杯子之間交換，視頻中，Gemini 立即且看似直觀地進(jìn)行檢測(cè)和跟蹤。

但在博客中，完成這一過程還是很復(fù)雜的。

每動(dòng)一次都要和大模型交流一下。也許我們應(yīng)該假設(shè)谷歌人工智能演示中的所有功能都被夸大了。

面對(duì)人們的質(zhì)疑，谷歌的回應(yīng)是：他們直接承認(rèn)了。

在本文發(fā)表后發(fā)布的社交媒體帖子中，Google DeepMind 的研究副總裁 Oriol Vinyals 詳細(xì)介紹了「錄制該視頻時(shí) Gemini 是如何使用的」。

Oriol Vinyals 表示，谷歌為 Gemini 提供的多模態(tài)能力和即時(shí)響應(yīng)將在 12 月 13 日開放 Pro 訪問權(quán)限時(shí)供開發(fā)者使用。不過 Demo 視頻里的內(nèi)容是使用 Ultra 模型做到的。視頻中的所有人類提示和 AI 輸出都是真實(shí)的，但為簡(jiǎn)潔起見進(jìn)行了縮短。

谷歌 Gemini 聯(lián)合負(fù)責(zé)人 Oriol Vinyals 的推特：

圖源：https://x.com/OriolVinyalsML/status/1732885990291775553?s=20

對(duì)此網(wǎng)友們并不買賬：你說它是真的，又說不是真實(shí)的大模型推理速度，這不是自相矛盾嗎？

Gemini 遭自家員工指責(zé)，Pro 版本打不過 GPT-3.5

彭博社等媒體指出，在谷歌宣傳其 demo 視頻的同時(shí)，又遭到了一些自家員工的非議。尤其是在畫鴨子時(shí)，Gemini 似乎能夠在繪制時(shí)進(jìn)行實(shí)時(shí)分析，并在與用戶對(duì)話時(shí)以人聲回應(yīng)。

谷歌 CEO 皮查伊極力推廣這段 demo，并表示了解 Gemini 潛在驚人能力的最好方式是看它的實(shí)際效果?？纯蛡円矊?duì) demo 贊賞有加，直呼令人興奮和不真實(shí)（unreal）。

圖源：https://twitter.com/sundarpichai/status/1732433036929589301

不過很快有人指出，Gemini 并不像想象中那么好，你無法指望它像 demo 中那樣地靈敏智能。一些谷歌內(nèi)部員工指出了其中的「貓膩」。

一位員工向彭博社透露稱，這段 demo 描述了一副不切實(shí)際的畫面，過分渲染了從 Gemini 中輸出驚艷的效果是如此得容易。

另一位員工則表示，他們對(duì) demo 并不感到驚訝，并且已經(jīng)習(xí)慣了公司在定位自身產(chǎn)品時(shí)存在某種程度的營銷炒作。當(dāng)然，所有公司都會(huì)這樣做。因此他認(rèn)為，大多數(shù)使用過任何 LLM 技術(shù)的員工都知道要對(duì) demo 持保留態(tài)度。

對(duì)此，谷歌 DeepMind 產(chǎn)品副總裁 Eli Collins 告訴彭博社稱，鴨子繪圖演示仍然是研究層面的功能，正在開發(fā)當(dāng)中，而并不是實(shí)際的產(chǎn)品，至少目前是這樣。

對(duì)此，還有一些谷歌員工一直在討論，在沒有明確透露實(shí)情的情況下展示視頻是否會(huì)誤導(dǎo)公眾。甚至有人分享了一個(gè)模因，暗示鴨子視頻經(jīng)過了欺騙性編輯?！肝也乱曨l創(chuàng)建者更看重『講故事』的能力?！?/span>

除了 demo 視頻遭到公眾和內(nèi)部員工質(zhì)疑之外，Gemini 真如宣稱的那樣強(qiáng)大嗎？我們知道，Gemini 此次有三個(gè)版本，能力最強(qiáng)的 Gemini Ultra、多任務(wù)的 Gemini Pro、以及特定任務(wù)和端側(cè)的 Gemini Nano。

目前，谷歌類 ChatGPT 應(yīng)用 Bard 可免費(fèi)升級(jí)到 Gemini Pro 版本，Gemini Ultra 預(yù)計(jì)于明年初通過 Bard Advanced 與用戶見面。

在與 GPT-4 的比較中，谷歌給出的數(shù)據(jù)是 Gemini Ultra 全面超越 GPT-4，Pro 在大多數(shù)指標(biāo)上超越 GPT-3.5。

但實(shí)際效果究竟如何呢？推特用戶 Brett Winton 首次對(duì) Gemini Pro、Claude 和 GPT-3.5 進(jìn)行了基準(zhǔn)測(cè)試，對(duì)每個(gè)模型提了一道 8 年級(jí)的故事題。他得出的結(jié)論是：GPT-3.5 滿分、Claude 約 67 分，Gemini Pro 完全沒有那個(gè)味。

圖源：https://twitter.com/wintonARK/status/1732527909376815419

三個(gè)模型給出的答案分別如下：

從左到右依次為 Bard（Gemini Pro）、Claude 和 GPT-3.5。

看到這一結(jié)果，似乎只能用「升級(jí)了，但還沒完全升級(jí)」來做解釋。他表示在 Gemini Ultra 最終上線之前，還是不對(duì)它的能力做評(píng)價(jià)了。

Gemini 開創(chuàng)了新架構(gòu)，引來了流量，也遭受了批評(píng)，那么現(xiàn)在看來，谷歌反攻微軟的大計(jì)成了沒成？

至少從投資者們來看是個(gè)好的開頭。

本周四，谷歌的股價(jià)經(jīng)歷了暴漲，市值增加了 800 億美元。需要記得的是，在 2 月份谷歌推出 Bard 時(shí)，谷歌的股價(jià)一天跌去了 1000 億美元。

人們認(rèn)為，Gemini 可以幫助谷歌縮小與微軟、OpenAI 在大模型上的差距。

也許 1.0 版的 Gemini 只是開了個(gè)頭，我們還要保持耐心，等待大模型的進(jìn)一步技術(shù)升級(jí)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="ku96e"></style>