自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Gemini一眼識(shí)破Sora視頻是AI生成?百萬token上下文能力碾壓GPT-4

人工智能 新聞
Gemini 1.5的真實(shí)水平到底怎么樣,從谷歌那里獲得試用資格的大佬們,給大家進(jìn)行了一波極限測(cè)試。讓我們看看谷歌最新推出的大模型到底有多強(qiáng)的實(shí)力。

當(dāng)谷歌Gemini 1.5,遇上搶了它頭條的「罪魁禍?zhǔn)住?/span>Sora會(huì)怎么樣?

這兩天,拿到內(nèi)測(cè)資格的AI圈大佬們,紛紛給廣大網(wǎng)友來了一波在線測(cè)試。

這不,Gabor Cselle就讓Gemini 1.5去分析了那個(gè)著名的櫻花雪景視頻。

對(duì)此,Gemini 1.5給出的評(píng)價(jià)是:

視頻呈現(xiàn)的是日本一條覆蓋著雪的街道,櫻花正盛開。但幾處明顯的問題暗示這個(gè)視頻可能是AI制作的。

首先,盡管雪下得非常大,櫻花卻依然綻放。通常,櫻花在春季開放,那時(shí)天氣溫暖,不會(huì)有雪。

其次,雪以一種過于規(guī)律的方式落下,這與現(xiàn)實(shí)中雪的降落方式不符。

再者,盡管正下著大雪,視頻中的人們卻沒有穿戴任何冬季服裝。

總而言之,雖然視頻的視覺效果令人贊嘆,但這些問題表明它并非真實(shí)場(chǎng)景所拍。

不得不說,就分析視頻AI痕跡的準(zhǔn)確度來看,Gemini的回答非常切題,說明它的識(shí)別和理解能力確實(shí)非常出色。

無獨(dú)有偶,The Rundown AI創(chuàng)始人Rowan Cheung,則測(cè)試了貓?jiān)趨擦掷锫降囊曨l。

圖片

對(duì)此,Gemini 1.5給出的評(píng)價(jià)是:

這段視頻很有可能是由人工智能(AI)創(chuàng)造的,但要確定地說還是有些困難。

一些細(xì)節(jié)似乎表明這段視頻是真實(shí)的,例如貓的動(dòng)作自然流暢,光影效果也相當(dāng)逼真。

然而,也有一些細(xì)節(jié)讓人懷疑,比如貓的眼睛異常放大,毛皮的質(zhì)感也過于完美無瑕。

最終,視頻是真是假,還是要留給觀眾自己去判斷。

確實(shí)Sora的視頻生成已經(jīng)到達(dá)了真假難辨的地步,而且Gemini的分析也基本到位,有理有據(jù)。

不過,需要注意的是,在這兩位大佬的Prompt里,要么明示了視頻就是AI生成的,要么暗示了兩者可能有所聯(lián)系。

1,000,000 token上下文能干啥?

眾所周知,模型的上下文窗口越大,它處理給定提示時(shí)能夠接納的信息就越多——這就使得它的輸出更加連貫、相關(guān)和實(shí)用。

如今,谷歌成功把這個(gè)領(lǐng)域「卷」到了100萬token(極限為1000萬token),創(chuàng)下了最長(zhǎng)上下文窗口的紀(jì)錄。

在這個(gè)基礎(chǔ)之上,很多之前難以想象的應(yīng)用都成為了現(xiàn)實(shí)。

比如,一口氣處理1小時(shí)的視頻、11小時(shí)的音頻、超過30,000行的代碼庫(kù),或是超過700,000個(gè)單詞的文本等等。

于是,一大波千奇百怪的實(shí)測(cè)就撲面而來:

圖片

比如,前文提到的Rowan Cheung,就用了很多長(zhǎng)視頻來對(duì)Gemini 1.5的理解能力進(jìn)行了測(cè)試。

圖片

首先他上傳了今年整個(gè)NBA扣籃大賽,問哪一個(gè)扣籃得分最高。

Gemini 1.5非常能夠從很長(zhǎng)的視頻中找到了那個(gè)獲得50分滿分的扣籃,并清除地描述了扣籃的細(xì)節(jié)!

Mac McClung的最后一記扣籃獲得了當(dāng)晚的最高分——50 分滿分。他跳過兩人,將球輕敲籃板后板,然后用右手完成扣籃。

圖片

然后他又讓Gemini 1.5理解并比較《星際穿越》和《星際探索》的完整電影腳本。

讓Gemini 1.5 去理解比較兩部電影的完整文字內(nèi)容,來幫助他決定應(yīng)該看哪部電影。

圖片

Gemini 1.5最后輸出到:

《星際探索》:歸根結(jié)底,這是一個(gè)關(guān)于個(gè)人成長(zhǎng)和人與人之間聯(lián)系的重要性的故事,表明即使面對(duì)宇宙的冷漠,找到自身的意義和與他人的聯(lián)系也是至關(guān)重要的。

《星際穿越》:更加樂觀和充滿希望,強(qiáng)調(diào)了人類智慧的力量,以及面對(duì)看似難以克服的挑戰(zhàn)時(shí)堅(jiān)持不懈的重要性。

接下來該看哪部電影取決于你的個(gè)人喜好:

如果您正在尋找一個(gè)更加內(nèi)省、以人物為驅(qū)動(dòng)力、注重情感主題的故事,《星際探索》可能是一個(gè)不錯(cuò)的選擇。

如果你更喜歡史詩(shī)般的動(dòng)作冒險(xiǎn),關(guān)注人類的生存,那么《星際穿越》可能更有吸引力。

兩部電影都為太空探索和人類經(jīng)歷提供了獨(dú)特而發(fā)人深省的視角。

然后,他又讓Gemini將一段英語翻譯成一個(gè)全世界不超過2000人使用的語言(薩特蘭語)。

Gemini 1.5經(jīng)過推理之后將英語小冊(cè)子的所有內(nèi)容很快翻譯成薩特蘭語。

這個(gè)過程確實(shí)碉堡了。

然后他再讓Gemini查找、理解長(zhǎng)論文中的一個(gè)圖標(biāo)的含義。

Gemini從DeepMind的Gemini 1.5 Pro論文中提取「表 8」并解釋了這個(gè)圖表的含義。

表8的主要的內(nèi)容是:

與Gemini 1.0 Pro相比,Gemini 1.5 Pro在所有核心文本功能方面都有顯著改進(jìn)。這表明該模型的能力有了明顯的提升。

Gemini 1.5 Pro在許多基準(zhǔn)測(cè)試中的表現(xiàn)與Gemini 1.0 Ultra相當(dāng),甚至超過了后者,盡管所需的訓(xùn)練計(jì)算量更少。這凸顯了1.5 Pro模型效率的提高。

Gemini 1.5 Pro在不同的任務(wù)和語言中都表現(xiàn)出很強(qiáng)的性能,這表明它具有很好的泛化能力。

總之,表8提供的證據(jù)表明,Gemini 1.5 Pro不僅在長(zhǎng)文本理解方面表現(xiàn)出色,而且還保持甚至改進(jìn)了其前代產(chǎn)品的核心文本功能。這使它成為一個(gè)功能強(qiáng)大、用途廣泛的模型,適用于各種基于文本的任務(wù)。

最后,他讓Gemini理解整個(gè)《星際穿越》的劇本內(nèi)容,再把劇本中最高潮的部分的臺(tái)詞提取出來。

Gemini 1.5輸出了《星際穿越》文字記錄中最鼓舞人心的3句臺(tái)詞。

圖片

1. 「人類誕生于地球,但我們的命運(yùn)遠(yuǎn)不止于此?!埂?Cooper

這句話深刻地表達(dá)了人類探索未知、超越現(xiàn)狀的不屈不撓的精神。它提醒我們,我們的潛力不受當(dāng)前所處環(huán)境的限制,我們完全有能力克服挑戰(zhàn),追求更高的目標(biāo)。

2. 「愛是唯一能跨越時(shí)間和空間,觸及我們心靈的力量?!埂?Brand

這句話揭示了愛的強(qiáng)大能力,它能夠跨越遙遠(yuǎn)的距離,甚至是時(shí)間的界限,將我們緊緊相連。它暗示,愛是宇宙中的一股根本力量,能在逆境中為我們指明方向,帶給我們希望。

3. 「曾經(jīng),我們仰望星空,夢(mèng)想著自己在浩瀚宇宙中的位置。如今,我們卻沉溺于眼前的瑣事,忘記了自己的遠(yuǎn)大理想?!埂?Cooper

這句話是對(duì)好奇心、追求和雄心壯志的重要性的深情提醒。它對(duì)比了過去人類滿懷希望地探索星辰的時(shí)代,與如今忙于應(yīng)對(duì)日常挑戰(zhàn)、失去對(duì)未來的憧憬的現(xiàn)狀。它激勵(lì)我們重新尋找那份對(duì)未知的好奇和對(duì)更美好未來的追求。

Gemini 1.5性能極限測(cè)試

隨后,Rowan Cheung又對(duì)Gemini 1.5進(jìn)行了一些更加極限的測(cè)試:

他讓Gemini讀取了整部《哈利·波特與魔法石》(共741,028個(gè)Token)。

Prompt:「請(qǐng)按照時(shí)間順序列出書中最重要的50個(gè)(或100個(gè))思想或段落,并對(duì)它們的重要性進(jìn)行1到10的評(píng)分?!?/span>

完成這個(gè)任務(wù)耗時(shí)4分鐘。

圖片

他又輸入了梅西在對(duì)陣赫塔菲比賽中的經(jīng)典單刀進(jìn)球視頻。

Prompt:「這個(gè)進(jìn)球?yàn)槭裁慈绱酥俊?/span>

雖然沒有解釋這個(gè)進(jìn)球?yàn)槭裁茨敲粗?,但它成功識(shí)別出了梅西,但是把赫塔菲的球員識(shí)別成了皇馬球員。

圖片

這張圖片之所以出名,是因?yàn)樗蹲降搅擞惺芬詠碜顐ゴ蟮淖闱蜻\(yùn)動(dòng)員之一梅西在與巴塞羅那最大的對(duì)手之一皇家馬德里比賽時(shí)的場(chǎng)景。梅西的球技和運(yùn)動(dòng)能力在這幅圖片上得到了充分展示,視覺效果極佳。

他還進(jìn)行了難度很高的數(shù)學(xué)和邏輯推理測(cè)試。

Prompt:「當(dāng)一個(gè)點(diǎn)P在垂直線上移動(dòng)時(shí),該點(diǎn)在時(shí)間t(t ≥ 0)的速度v(t)與加速度a(t)滿足以下條件:(a) 當(dāng)0 ≤ t ≤ 2時(shí),v(t) = 2t^3 - 8t。(b) 當(dāng)t ≥ 2時(shí),a(t) = 6t + 4。請(qǐng)計(jì)算點(diǎn)P從時(shí)間t = 0到t = 3移動(dòng)的總距離?!?/span>

圖片

不過,大佬表示,自己并不確定這里給出的答案是否正確,但據(jù)網(wǎng)友評(píng)論的說法,這個(gè)答案是錯(cuò)誤的。

他又讓Gemini 1.5造10個(gè)句子,每個(gè)句子都以「Apple」結(jié)尾。

這個(gè)任務(wù)是檢驗(yàn)聊天機(jī)器人能力的一個(gè)很常用的方法。

Prompt:「請(qǐng)編寫10個(gè)句尾為『apple』的句子?!?/span>

最后,Gemini 1.5完全沒能完成這項(xiàng)挑戰(zhàn)。

于是他讓GPT-4也來跑了一下這個(gè)問題,結(jié)果GPT-4也沒給出正確的結(jié)果。

圖片

他又把《煉金術(shù)士》這本書的PDF全文輸入到了Gemini 1.5中,目的是獲取書中主人公的形象描述。

接著,他又把這個(gè)描述在DALL·E 3中生成了圖片。

Prompt:「讀完整本書后,幫我構(gòu)思一個(gè)基于主角形象的描述,我想把它用在AI圖像生成器里?!?/span>

圖片

圖片

1000萬極限海底撈針幾乎全綠

最后,我們來看看Gemini 1.5 Pro在多模態(tài)海底撈針測(cè)試中的成績(jī)。

圖片

對(duì)于文本處理,Gemini 1.5 Pro在處理高達(dá)530,000 token的文本時(shí),能夠?qū)崿F(xiàn)100%的檢索完整性,在處理100萬token的文本時(shí)達(dá)到99.7%的檢索完整性。

甚至在處理高達(dá)1000萬token的文本時(shí),檢索準(zhǔn)確性仍然高達(dá)99.2%。

圖片

在音頻處理方面,Gemini 1.5 Pro能夠在大約11小時(shí)的音頻資料中,100%成功檢索到各種隱藏的音頻片段。

圖片

在視頻處理方面,Gemini 1.5 Pro能夠在大約3小時(shí)的視頻內(nèi)容中,100%成功檢索到各種隱藏的視覺元素。

圖片

此外,谷歌研究人員還開發(fā)了一個(gè)更通用的版本的「大海撈針」測(cè)試。

在這個(gè)測(cè)試中,模型需要在一定的文本范圍內(nèi)檢索到100個(gè)不同的特定信息片段。

在這個(gè)測(cè)試中,Gemini 1.5 Pro在較短的文本長(zhǎng)度上的性能超過了GPT-4-Turbo,并且在整個(gè)100萬token的范圍內(nèi)保持了相對(duì)穩(wěn)定的表現(xiàn)

與之對(duì)比鮮明的是,GPT-4 Turbo的性能則飛速下降,且無法處理超過128,000 token的文本,表現(xiàn)慘烈。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-04-12 17:41:28

GPT-4TurboClaude

2025-04-15 07:41:18

2024-04-07 00:45:00

開源模型

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2024-02-21 13:15:42

模型數(shù)據(jù)

2025-04-15 08:51:05

2023-11-17 18:06:15

2023-09-16 13:47:47

人工智能數(shù)據(jù)

2023-12-09 14:30:50

2024-03-20 00:00:00

大語言模型人工智能AI

2024-09-18 10:40:00

AI生成

2024-04-01 00:00:00

馬斯克Grok 1.5HumanEval

2024-04-02 11:38:31

模型訓(xùn)練

2025-03-18 08:14:05

2021-07-30 09:45:11

AI 數(shù)據(jù)人工智能

2025-04-15 09:50:06

2024-04-03 13:17:51

AI數(shù)據(jù)

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2024-02-27 11:47:44

AI數(shù)據(jù)

2024-07-23 12:32:11

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)