自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌I/O大會武庫盡出 劍指OpenAI 原創(chuàng) 精華

發(fā)布于 2024-5-15 10:17
瀏覽
0收藏

5 月 14 日凌晨,OpenAI 在首次「春季新品發(fā)布會」上搬出了新一代旗艦生成模型 GPT-4o、桌面 App,并展示了一系列新能力。這一次,技術(shù)顛覆了產(chǎn)品形態(tài),OpenAI 用行動給全世界的科技公司上了一課。OpenAI 的首席技術(shù)官 Mira Murati主要講三件事:


谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)


  • 第一,以后 OpenAI 做產(chǎn)品就是要免費優(yōu)先,為的就是讓更多的人能使用。?
  • 第二,因此 OpenAI 此次發(fā)布了桌面版本的程序和更新后的 UI,其使用起來更簡單,也更自然。?
  • 第三,GPT-4 之后,新版本的大模型來了,名字叫 GPT-4o。GPT-4o 的特別之處在于它以極為自然的交互方式為每個人帶來了 GPT-4 級別的智能,包括免費用戶。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

ChatGPT 的這次更新以后,大模型可以接收文本、音頻和圖像的任意組合作為輸入,并實時生成文本、音頻和圖像的任意組合輸出 —— 這才是屬于未來的交互方式。

最近,ChatGPT 不用注冊也可以使用了,今天又增加了桌面程序,OpenAI 的目標就是讓人們可以隨時隨地的無感使用它,讓 ChatGPT 集成在你的工作流中, AI 現(xiàn)在就是生產(chǎn)力了。


谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

GPT-4o 是面向未來人機交互范式的全新大模型,具有文本、語音、圖像三種模態(tài)的理解力,反應(yīng)極快還帶有感情,也很通人性。

前一晚 OpenAI 發(fā)布了 ChatGPT-4o 后,壓力就給到了 Google I/O 。如果說2023年的I/O大會是谷歌在AI領(lǐng)域的背水一戰(zhàn),今年的I/O大會上皮查雖然靠著自家的Gemini等產(chǎn)品逐步追上OpenAI,但形勢卻難稱喜人。過去一年里,就算祭出免費兩個月的大殺器,Gemini的用戶量也不過是ChatGPT的1/5,每每有新品上市,必然被OpenAI截胡。

而 Google 則通過近 2 個小時的發(fā)布會,提了 121 次 AI ,推出了十余種新品及升級,可謂火力全面覆蓋,全面對標OpenAI在AI各領(lǐng)域上的發(fā)展,但給人的驚喜卻并不多。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

我們先給大家一次性總結(jié)這場發(fā)布會的亮點,更多功能解析請接著往下看。

發(fā)布會要點:

Google Search AI:發(fā)布了 AI Overviews,加強版 AI 搜索概要功能,多步推理能力上架。

Gemini 大模型:Gemini 1.5 Flash(100 萬上下文);Gemini Pro(200 萬上下文)。

Gemma 大模型:發(fā)布開源多模態(tài)大模型 Pali Gemma 和 Gemma2。

AI in Google Workspace:用 Gemini 的能力和 Side Panel 的形式,將 Google 系列產(chǎn)品串在一起。

Gemini App:手機版的 Gemini 應(yīng)用程序,即將支持和 AI 視頻對話,近幾周發(fā)布。

Project Astra:最新的多模態(tài) AI 項目,包含 Imagen3、 Music AI Sandbox 和 Veo 等針對圖像、音樂、視頻的生成式 AI。

與OpenAI的僅半個小時,集中在產(chǎn)品介紹的發(fā)布會完全不同,谷歌的I/O骨子里就透著一種武庫盡出,拼死一戰(zhàn)的意思。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

很多產(chǎn)品單看Demo還是有著不錯的完成度,但整場發(fā)布會沒有一點像GPT-4o帶來那樣的驚艷感。因為他們發(fā)布的大多數(shù)是追趕那些OpenAI已有的東西,沒人會為一些別人已經(jīng)做到的事情感到驚艷。連帶發(fā)布和新升級的AI相關(guān)產(chǎn)品有14項:

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

首先是模型性能,谷歌通過數(shù)據(jù)和算法改進增強了其代碼生成、邏輯推理和計劃、多回合對話以及音頻和圖像理解能力。最新版本的 1.5 Pro 在多個benchmark中取得了Sota的成績,谷歌揚眉吐氣。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

上下文方面,谷歌還把新Gemini 1.5 Pro 的上下文窗口從業(yè)界最高的100萬token 擴展到合300本書的200萬token。三個月就提升一倍,谷歌的表現(xiàn)證明了上下文的問題在今年看起來已經(jīng)不再是什么門檻了。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

在多模態(tài)支持上,Gemini Pro現(xiàn)在還把語音理解這個過去的短板部分進行了補齊,Gemini 1.5 Pro也進行了一輪更新。后續(xù)宣布的Gemini 1.5 Flash的主要特色——快速反應(yīng)和昨天的GPT-4o完美撞車,本該有的驚艷感被完全破壞了。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

從功能上看,Gemini 1.5 Flash雖然它比 1.5 Pro 輕量化,但它也能夠跨大量信息進行多模態(tài)推理,并且擅長摘要、聊天、圖像和視頻字幕、長文檔和表格的數(shù)據(jù)提取等工作。Flash 通過一種稱為“蒸餾”的過程,從較大的模型中傳遞最重要的知識和技能到較小、更高效的模型,實現(xiàn)了速度的提升。

這里展示的能力是需要Agent支持的,因此谷歌的下一個重磅產(chǎn)品是Project Astra。谷歌將其定義為自己的Agent戰(zhàn)略的核心。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

它是一種Agent 框架:為了真正有用,Agent需要像人類一樣理解和響應(yīng)復(fù)雜多變的世界——并且記住它看到和聽到的內(nèi)容以理解上下文并采取行動。它還需要具有主動性、可教性和個性化,這樣用戶可以自然地與它交流而不會有滯后或延遲。低延遲的要求,讓你可以把Astra理解成Gemini Light 的Agent形式。在谷歌的展示中,它的最佳形態(tài)就是個人助手。

谷歌通過持續(xù)編碼視頻幀、將視頻和語音輸入結(jié)合到事件時間線上,并緩存這些信息以實現(xiàn)高效回憶來更快地處理信息,就是能與視頻交互,還有時間記憶。通過語音模型,谷歌還增強了Astra的聲音,使Agent具有更廣泛的語調(diào),讓這些Agent可以更好地理解它們所處的上下文,并在對話中快速響應(yīng)。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

從演示上看,Astra的視覺理解能力確實讓人似曾見過。除了這兩個核心模型更新外,谷歌還宣布了前一陣大火的開源模型Gemma 的2.0版本,270億參數(shù)。并為它拓展了PaliGemma這個多模態(tài)版本。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

除了文生視頻模型的新公開,谷歌還推出了文生圖像模型Imagen 3。從細節(jié)擬真度來看與Midjourney v6能達到同一級別,比起Dalle-3更勝一籌。而且在對細節(jié)的跟隨上也要更細致。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

音樂生成方面,去年驚艷眾人的期貨Lydia到這場發(fā)布會為止還是期貨。谷歌又給他加了個新拓展 Music AI Sandbox,一套音樂 AI 工具。這些工具旨在為創(chuàng)意打開新的游樂場,讓人們從頭開始創(chuàng)作新的器樂部分,以新的方式轉(zhuǎn)換聲音等等。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

最后,谷歌介紹了自己的視頻生成模型——Veo 。它屬于谷歌之前的一系列視頻生成嘗試的集大成者:融合了WALT、VideoPoet、Lumiere這幾款在Sora之前發(fā)布的明星文生視頻模型的長處。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

Veo可以生成高質(zhì)量的 1080p 分辨率視頻,超過一分鐘,涵蓋廣泛的電影和視覺風格。從示例視頻上看,Veo生成的畫面相當一致且連貫,具有對自然語言和視覺語義的高級理解能力,能夠生成與用戶創(chuàng)意愿景緊密匹配的視頻——準確呈現(xiàn)詳細的長提示并捕捉情感。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

從質(zhì)量上講,谷歌的Veo和Sora足有一戰(zhàn)之力。和Sora一樣,Veo 只會將作為 VideoFX 內(nèi)的私人預(yù)覽版提供給少量創(chuàng)作者,一般用戶可以報名加入候補隊列。不過這也說明,靠著VEo,現(xiàn)在谷歌和OpenAI已經(jīng)進入了誰能首先壓縮成本,把這一技術(shù)推向toC領(lǐng)域的同一場競賽了。

AI搜索可以說是谷歌的必爭之地。從去年一年來看,新興的AI搜索雖然獲得了不少用戶,但基本上沒有動搖到谷歌搜索的根基。谷歌的AI搜索服務(wù)ESG從去年五月到現(xiàn)在,整整公布一年時間后總算從今天起向公眾開放使用了。這個更強的AI搜索引擎被谷歌命名為AI Overview,但僅限美國,其他國家還得排隊等著開。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

從Demo展示來看,谷歌搜索在功能上的創(chuàng)新不算多,主要集中在多模態(tài)。

首先,用戶將能夠通過簡化語言或更詳細地分解來調(diào)整 AI 搜索結(jié)果概述。這個功能并不新,現(xiàn)在主流的AI搜索產(chǎn)品也會區(qū)分快捷回復(fù)和更深入的研究模式。

其次,借助 Gemini 的多步推理能力,AI 搜索可以一次性處理復(fù)雜的多步,乃至多問題。比如說,當用戶尋找一個新的瑜伽或普拉提工作室,用戶希望找到受當?shù)厝藲g迎,方便用戶的通勤,并且還提供新會員折扣的選項。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

同樣構(gòu)建在多步推理能力之上的是AI搜索的計劃能力。通過AI搜索中的計劃功能,你可以直接在搜索里獲得一個完整的計劃。比如搜索類似“為一群人創(chuàng)建一個易于準備的三天餐飲計劃”,您將獲得一個起點,包含來自網(wǎng)絡(luò)各處的各種食譜。這是其他搜索軟件暫時還沒有專精的能力。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

GPT-4o生成的版本

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

谷歌生成的版本

最后是靈感延展功能,就是AI搜索在創(chuàng)建一個 AI 組織的結(jié)果頁面,使您更容易探索。在問了一個問題后,谷歌搜索將會延展到其他可能你感興趣的結(jié)果,按獨特的 AI 生成標題分類,展示廣泛的視角和內(nèi)容類型。

這種聯(lián)想搜索能力也已經(jīng)是AI搜索的某種標配了,但谷歌對這個功能做了更好的結(jié)構(gòu)化。靠Gemini的多模態(tài)功能,谷歌可以做到利用聲音搜歌曲,利用圖片搜產(chǎn)品。甚至可以用Circle to Secarch 功能圈出圖片中的一部分去搜索。

AI還能結(jié)合視頻進行搜索。谷歌舉了個范例,比如用戶在舊貨店買了一臺唱片機,但打開時無法工作,帶有針頭的金屬部件在意外漂移。用視頻搜索能節(jié)省了用戶找到合適詞語來描述這個問題的時間和麻煩。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

模型產(chǎn)品還多少讓人看出谷歌的保守態(tài)勢。

你可以通過 Side Panel功能總結(jié)一系列郵件,可以總結(jié)你的賬單,形成一個Sheet,自動回復(fù)郵件,可以從確認,回絕,擱置三種可能中選。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

其他的更新,包括在聊天軟件里的虛擬員工Chip,能力基本沒超過前幾個月我們在國內(nèi)看到的各種辦公軟件Agent的演示。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

模型產(chǎn)品里最重要的更新就是Gmini Live。這是一個移動對話助理性產(chǎn)品,通過 Gemini Live,用戶可以與 Gemini 對話,并選擇它可以用來回應(yīng)的各種自然聲音。用戶甚至可以按照自己的節(jié)奏說話或在回答中途打斷以提出澄清問題,就像您在任何對話中一樣。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

通過描述希望 Gem 做什么以及希望它如何回應(yīng),例如“你是我的跑步教練,給我一個每日跑步計劃,并保持積極、樂觀和激勵的態(tài)度?!保珿emini 將根據(jù)這些指示進行增強,以創(chuàng)建一個符合您特定需求的 Gem。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

去年上線的API擴展功能將再次擴大,例如正在推出的 YouTube Music 擴展、Tasks 和 Keep。全是谷歌自家的服務(wù)。就算加上這些新拓展,和其他Agent產(chǎn)品支持的API庫也完全無法同日而語。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

本次Android AI重點是介紹了Gemini的手機應(yīng)用,可以和手機上正在展示的內(nèi)容進行互動。比如閱讀打開的PDF,從你正在看的YouTube頻道反饋問題。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

在這次發(fā)布會上,所有的AI模型都是由谷歌最新的TPU——Trillium TPU訓練的。相較于前代,它的進步還是非常明顯的。Trillium實現(xiàn)了每芯片峰值計算性能的 4.7 倍提升,比 TPU v5e 提高了一倍。

Trillium 配備了第三代 SparseCore,這是一種專門用于處理超大嵌入的加速器,常見于先進的排序和推薦工作負載中。Trillium TPU 使訓練下一波基礎(chǔ)模型更快,并以更低的延遲和更低的成本服務(wù)這些模型。Trillium 可以擴展到一個包含 256 個 TPU 的單個高帶寬低延遲 Pod。另外,能耗上Trillium TPU 比 TPU v5e 的能源效率提高了 67% 以上,省電能力一流。

谷歌I/O大會武庫盡出 劍指OpenAI -AI.x社區(qū)

這場發(fā)布會,我們想看新的、有競爭力的產(chǎn)品,谷歌卻在不停的播片。從創(chuàng)作者感受,到體驗演示,就是沒有產(chǎn)品細部的表現(xiàn)。甚至在很多地方是重復(fù)的,很多產(chǎn)品在不同位置被多次提到并展示。

我們更多的從它的搜索產(chǎn)品,模型產(chǎn)品上看到了谷歌的疲態(tài),創(chuàng)新的缺失。本想看巔峰對決,但實際上昨天這場對決就已經(jīng)結(jié)束了。這當然有OpenAI截胡的原因,但25分鐘,三個產(chǎn)品的發(fā)布會,就足夠破壞谷歌這兩個小時里的十多個產(chǎn)品發(fā)布更新所帶來的所有驚喜。

這說明了什么問題?

毫無疑問,谷歌的技術(shù)力還在,那些模型都很能打。但那些讓人贊嘆的技術(shù)突破,讓人興奮的產(chǎn)品演示,都沒有了。有的只是可預(yù)期的表現(xiàn),難超同行的功能。在一個新技術(shù)的時代,一個無比需要去開創(chuàng)可能性的時代中,想象力可能才是最重要的。


本文轉(zhuǎn)載自公眾號數(shù)字化助推器  作者:天涯咫尺TGH

原文鏈接:??https://mp.weixin.qq.com/s/O-zzxcNyMvGcSkkuH9JX_g??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦