谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,上下文窗口達(dá)200萬
OpenAI出手再次驚艷世界,谷歌果然坐不住了。
GPT-4o掀起的一片“AGI已至”的驚呼聲中,剛剛,Google DeepMind首席執(zhí)行官哈薩比斯親自攜谷歌版《Her》登場。
同樣能會(huì)還有,不僅能幾乎沒有延遲地和人類流暢交流,通過攝像頭,這個(gè)名為Project Astra的AI助手甚至能直接幫忙讀代碼。
谷歌還祭出了自己的硬件優(yōu)勢,帶來一波AR和大模型的夢幻聯(lián)動(dòng)。
一邊擼狗一邊玩轉(zhuǎn)大模型已經(jīng)成為現(xiàn)實(shí)(手動(dòng)狗頭)。
這一波操作下來,戰(zhàn)果如何尚未可知,網(wǎng)友們反正是興奮了起來:
而正面硬剛GPT-4o,還只是谷歌鉚足了勁,在I/O大會(huì)上釋出的冰山一角。
兩個(gè)小時(shí)的主題演講里,AI被提及了121次,CEO劈柴哥還猶嫌不足。
于是,對標(biāo)Sora能生成一分鐘長視頻的視頻生成模型Veo來了。
Gemini 1.5 Pro不僅面向所有人開放,上下文窗口還從100萬token直接一步邁向200萬,一口氣能讀1500頁P(yáng)DF。
連Android,現(xiàn)在也緊緊跟谷歌大模型Gemini綁定,搖身一變成為以AI為內(nèi)核的操作系統(tǒng)。
總之,信息量多到爆炸,相比之下,OpenAI不到半個(gè)小時(shí)的發(fā)布真的很隨性了。
谷歌版《Her》登場
第一時(shí)間引發(fā)最多討論的,當(dāng)然是谷歌版《Her》——Project Astra。
Project Astra基于Gemini系列模型打造,谷歌表示,研究人員們希望這樣的智能助手,能真正在人們的日常生活中提供幫助。
有意思的是,OpenAI總裁哥Brockman昨天在場外補(bǔ)充了有關(guān)GPT-4o多模態(tài)能力的更詳細(xì)視頻,而谷歌這邊,哈薩比斯也是第一時(shí)間在X上更新了與這樣一個(gè)智能助手的互動(dòng)。
看樣子,Ta不僅能完成幫忙找眼鏡這樣的基礎(chǔ)工作。
幫忙搞點(diǎn)文藝創(chuàng)作,解答一下專業(yè)書上看不懂的內(nèi)容,也都是信手拈來。
還有Google DeepMind的工作人員干脆和Project Astra一起看起了I/O大會(huì)直播。
不少網(wǎng)友都認(rèn)為,這是谷歌對OpenAI的GPT-4o的正面回應(yīng)。
不過嘛,網(wǎng)友們也關(guān)注到了不少問題,比如,Project Astra的延遲似乎還是比GPT-4o長,谷歌的演示中也沒有體現(xiàn)是否能打斷智能助手說話。
值得關(guān)注的是,Project Astra背后,是Gemini系列模型的進(jìn)一步升級迭代。
比如,Gemini 1.5 Pro的上下文窗口來到了驚人的200萬token。
谷歌還最新推出了Gemini 1.5 Flash這一輕量級模型,并開源了27B的Gemma 2和視覺語言模型PailGemma。
60秒長視頻生成
你可能已經(jīng)默默在心里比較了一番Project Astra和GPT-4o的高下。
但橋豆麻袋,說起來,谷歌被OpenAI突然狙擊,可不止這一回。
還記得在春節(jié)期間搶盡谷歌風(fēng)頭的Sora嗎?
谷歌的回應(yīng),雖遲但到——
谷歌最強(qiáng)視頻生成模型Veo來了。
Veo可以生成1080p的高質(zhì)量視頻,生成視頻的長度也看齊Sora:最長超過1分鐘。
谷歌還強(qiáng)調(diào),Veo生成的畫面一致性出色,并且可以hold住各種風(fēng)格。比如“延時(shí)拍攝”和“航拍”這種術(shù)語,直接寫在提示詞里,Veo都能get。
目前,谷歌已經(jīng)和電影制作者展開了合作,在電影項(xiàng)目中探索Veo的應(yīng)用。
與此同時(shí),谷歌的圖片生成模型Imagen也迎來更新,Imagen 3發(fā)布。
官方提到,與此前的模型相比,Imagen 3的視覺偽影更少,生成的圖像細(xì)節(jié)拉滿,并且在生成文字方面效果也很好。
△提示詞:一張莊嚴(yán)的圖書館入口的照片,刻有“中央圖書館”字樣
另外,谷歌此次還推出了音樂生成模型Lyria。
Gemini進(jìn)入全線產(chǎn)品
在這些跟OpenAI叫板的“肌肉”展示之外,谷歌對大模型應(yīng)用的看重,也在此次I/O大會(huì)中盡顯。
英偉達(dá)科學(xué)家Jim Fan就他的I/O觀后感中表示:
谷歌做對的一件事是:他們終于開始努力把AI集成到搜索框中。
還不止是搜索,這一次,谷歌可以說是把Gemini塞進(jìn)了全線產(chǎn)品中,包括谷歌搜索、Android,以及谷歌郵箱、谷歌Photos等。下面我們劃劃重點(diǎn)。
1.谷歌搜索
基于Gemini,谷歌搜索推出AI概述(AI Overview)新功能,徹底化身AI搜索。
用戶在搜索框輸入問題,馬上就能得到一個(gè)AI總結(jié)的答案,包括相關(guān)鏈接。
而且是超長問題都能處理的那種,比如:
查找波士頓最好的瑜伽或普拉提工作室,并提供他們的入門優(yōu)惠詳情以及從燈塔山步行所需時(shí)間。
AI Overview秒秒鐘就會(huì)列出五星好評且距離燈塔山近的店,并附帶課程標(biāo)價(jià),連店在地圖上的位置都標(biāo)記了出來:
對于這種復(fù)雜問題的搜索,谷歌表示采用了多步推理技術(shù),可以將復(fù)雜問題拆解成一個(gè)個(gè)小問題,然后自動(dòng)對問題進(jìn)行排序回答。
多步推理加持下,AI overview已經(jīng)脫離了純粹的搜索——把制定計(jì)劃一并搬進(jìn)了搜索引擎里。
比如直接讓它為一個(gè)團(tuán)體制定一個(gè)為期三天的易于執(zhí)行的餐飲計(jì)劃。
AI overview一鍵給出了方案,每個(gè)方案都可以點(diǎn)擊修改,下方還可以一鍵將食材加入購物車:
還沒完,當(dāng)你沒有想法、問的問題比較籠統(tǒng)時(shí),谷歌搜索還會(huì)AI自動(dòng)將搜索結(jié)果整理成一個(gè)個(gè)“群組”,為你提供建議。
比如問:在達(dá)拉斯找一個(gè)餐廳慶祝周年紀(jì)念日。
搜索出的結(jié)果會(huì)按照音樂餐廳、具有歷史魅力的餐廳等一鍵分組。再往下翻,頁面會(huì)從餐飲逐漸擴(kuò)展到電影、酒店、購物等。
此外,谷歌搜索還支持視頻搜索了。
演示中,唱片機(jī)出故障,只需一邊錄制視頻一邊說出疑問,谷歌AI Overview就會(huì)立刻分析故障原因,并給出處理建議。
谷歌搜索AI Overview功能將在本周開始在美國推出,后面將陸續(xù)推至其他國家。
2.Android 15
谷歌把Gemini也帶到了安卓系統(tǒng)中。
憑借直接內(nèi)置的Circle to Search功能,用戶使用簡單的手勢“圈”一下手機(jī)上看到的任何內(nèi)容,就能進(jìn)行搜索。
比如圈出練習(xí)題,就能一鍵獲取答案。
目前這一功能,已在Pixel和三星的部分設(shè)備上使用。
此外,還可以在一個(gè)應(yīng)用之上隨時(shí)調(diào)出Gemini助手層,隨時(shí)使用。你還可以將Gemini生成的圖片直接拖到Gmail等應(yīng)用中,直接詢問某個(gè)視頻中的具體信息,不用滑動(dòng)翻文檔詢問某個(gè)PDF中的信息……
甚至連電話反詐,都用上Gemini了:聽到關(guān)鍵字“把錢轉(zhuǎn)到安全賬號”,馬上就能給出警報(bào)。
總之,官方強(qiáng)調(diào),現(xiàn)在,Gemini在手機(jī)上現(xiàn)在不止是一個(gè)App,更是安卓體驗(yàn)的基礎(chǔ)。
3.谷歌Photos
谷歌Photos基于Gemini也推出了新功能——Ask Photos,可以一鍵從圖庫中幫你找到想要的照片和視頻。
比如你想知道自己的baby是什么時(shí)候?qū)W會(huì)游泳的,Ask Photos會(huì)從你在谷歌Photos中存儲(chǔ)的成百上千張照片中查找出含游泳、游泳證書等相關(guān)圖片,最后總結(jié)給出回復(fù):
Ask Photos這一功能將在今年夏天推出。
4.谷歌Workspace
Gemini也接入到了谷歌Workspace提供的一套生產(chǎn)力和協(xié)作工具中,包括谷歌郵箱、谷歌Docs、谷歌Calendar等。
這使得在這些工具間進(jìn)行跨應(yīng)用工作變得更加容易。
例如在谷歌郵箱中自動(dòng)分析郵件以及附件,識(shí)別整理好收據(jù),然后一鍵在Drive和Sheets中處理。
5.NotebookLM
谷歌AI筆記應(yīng)用NotebookLM也大升級。
如下圖所示,當(dāng)你提出一個(gè)問題后,背后的Gemini模型就會(huì)結(jié)合NotebookLM中的筆記內(nèi)容,進(jìn)行多模態(tài)的語音對話式回答。
也就是說,所有筆記都可以變成交互式教材。
第六代TPU
最后,在硬件部分,谷歌也帶來了新消息:
第六代TPU Trillium將在今年向云客戶提供。
與TPU v5e,Trillium的峰值計(jì)算性能提高4.7倍,HBM和帶寬增加了1倍,芯片間互聯(lián)(ICI)帶寬也增加了1倍。另外,Trillium的能效比TPU v5e高出了67%以上。
有關(guān)谷歌I/O的更多細(xì)節(jié),可以戳:
https://blog.google/technology/developers/google-io-2024-collection/。
那么今日份的發(fā)布會(huì)筆記,就先做到這里了。
你覺得谷歌這波表現(xiàn)如何?
從美股盤后的情況來看,似乎有點(diǎn)emmm……