自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌反擊:Project Astra正面硬剛GPT-4o、Veo對抗Sora、新版Gemini變革搜索

人工智能 新聞
谷歌在大模型技術(shù)與產(chǎn)品方面與 OpenAI 展開了全面競爭的態(tài)勢。而通過這兩天 OpenAI 與谷歌的發(fā)布,我們也能發(fā)現(xiàn)大模型競爭進(jìn)入了到了一個新的階段:多模態(tài)、更自然地交互體驗(yàn)成為了大模型技術(shù)產(chǎn)品化并為更多人所接受的關(guān)鍵。

通用的 AI,能夠真正日常用的 AI,不做成這樣現(xiàn)在都不好意思開發(fā)布會了。

5 月 15 日凌晨,一年一度的「科技界春晚」Google I/O 開發(fā)者大會正式開幕。長達(dá) 110 分鐘的主 Keynote 提到了幾次人工智能?谷歌自己統(tǒng)計(jì)了一下:

圖片

是的,每一分鐘都在講 AI。

生成式 AI 的競爭,最近又達(dá)到了新的高潮,本次 I/O 大會的內(nèi)容自然全面圍繞人工智能展開。

「一年前在這個舞臺上,我們首次分享了原生多模態(tài)大模型 Gemini 的計(jì)劃。它標(biāo)志著新一代的 I/O,」谷歌首席執(zhí)行官桑達(dá)爾?皮查伊(Sundar Pichai)說道?!附裉?,我們希望每個人都能從 Gemini 的技術(shù)中受益。這些突破性的功能將進(jìn)入搜索、圖片、生產(chǎn)力工具、安卓系統(tǒng)等方方面面?!?/span>

24 小時以前,OpenAI 故意搶先發(fā)布 GPT-4o,通過實(shí)時的語音、視頻和文本交互震撼了全世界。今天,谷歌展示的 Project Astra 和 Veo,直接對標(biāo)了目前 OpenAI 領(lǐng)先的 GPT-4o 與 Sora。

我們正在見證最高端的商戰(zhàn),以最樸實(shí)的方式進(jìn)行著。

最新版 Gemini 革新谷歌生態(tài)

在 I/O 大會上,谷歌展示了最新版 Gemini 加持的搜索能力。

25 年前,谷歌通過搜索引擎推動了第一波信息時代的浪潮?,F(xiàn)在,隨著生成式 AI 技術(shù)的演進(jìn),搜索引擎可以更好地幫你回答問題,它可以更好地利用上下文內(nèi)容、位置感知和實(shí)時信息能力。

基于最新版本的定制化 Gemini 大模型,你可以對搜索引擎提出任何你想到的事情,或任何需要完成的事 —— 從研究到計(jì)劃到想象,谷歌將負(fù)責(zé)所有工作。

圖片

有時你想要快速得到答案,但沒有時間將所有信息拼湊在一起。這個時候,搜索引擎將通過 AI 概述為你完成工作。通過人工智能概述,AI 可以自動訪問大量網(wǎng)站來提供一個復(fù)雜問題的答案。

借助定制 Gemini 的多步推理功能,AI 概述將有助于解決日益復(fù)雜的問題。你無需再將問題分解為多個搜索,現(xiàn)在可以一次性提出最復(fù)雜的問題,以及你想到的所有細(xì)微差別和注意事項(xiàng)。

除了為復(fù)雜問題找到正確的答案或信息之外,搜索引擎還可以與你一起,一步步制定計(jì)劃。

在 I/O 大會上,谷歌重點(diǎn)強(qiáng)調(diào)了大模型的多模態(tài)和長文本能力。技術(shù)的進(jìn)步為 Google Workspace 等生產(chǎn)力工具變得更加智能化。

例如,現(xiàn)在我們可以要求 Gemini 總結(jié)一下學(xué)校最近發(fā)來的所有電子郵件。它會在后臺識別相關(guān)的 Email,甚至分析 PDF 等附件。隨后你就能獲得其中的要點(diǎn)和行動項(xiàng)目的摘要。

圖片

如果你正在旅行,無法參加項(xiàng)目會議,而會議的錄音長達(dá)一個小時。如果是 Google Meet 上開的會,你可以要求 Gemini 給你介紹一下重點(diǎn)。有一個小組在尋找志愿者,那天你有空。Gemini 可以幫你寫一封郵件進(jìn)行申請。

更進(jìn)一步,谷歌在大模型 Agent 上看到了更多的機(jī)會,認(rèn)為它們可作為具有推理、計(jì)劃和記憶能力的智能系統(tǒng)。利用 Agent 的應(yīng)用能夠提前「思考」多個步驟,并跨軟件和系統(tǒng)工作,更加便捷地幫你完成任務(wù)。這種思路已經(jīng)在搜索引擎等產(chǎn)品中得到了體現(xiàn),人們都可以直接看到 AI 能力的提升。

至少在全家桶應(yīng)用方面,谷歌是領(lǐng)先于 OpenAI 的。

Gemini 家族大更新

Project Astra 上線

生態(tài)上谷歌有先天優(yōu)勢,但大模型基礎(chǔ)很重要,谷歌為此整合了自身團(tuán)隊(duì)和 DeepMind 的力量。今天哈薩比斯也首次在 I/O 大會上登臺,親自介紹了神秘的新模型。

圖片

去年 12 月,谷歌推出了首款原生多模態(tài)模型 Gemini 1.0,共有三種尺寸:Ultra、Pro 和 Nano。僅僅幾個月后,谷歌發(fā)布新版本 1.5 Pro,其性能得到了增強(qiáng),并且上下文窗口突破了 100 萬 token。

現(xiàn)在,谷歌宣布在 Gemini 系列模型中引入了一系列更新,包括新的 Gemini 1.5 Flash(這是谷歌追求速度和效率的輕量級模型)以及 Project Astra(這是谷歌對人工智能助手未來的愿景)。

目前,1.5 Pro 和 1.5 Flash 均已提供公共預(yù)覽版,并在 Google AI Studio 和 Vertex AI 中提供 100 萬 token 上下文窗口?,F(xiàn)在,1.5 Pro 還通過候補(bǔ)名單向使用 API 的開發(fā)人員和 Google Cloud 客戶提供了 200 萬 token 上下文窗口。

圖片

此外,Gemini Nano 也從純文本輸入擴(kuò)展到可以圖片輸入。今年晚些時候,從 Pixel 開始,谷歌將推出多模態(tài) Gemini Nano 。這意味著手機(jī)用戶不僅能夠處理文本輸入,還能夠理解更多上下文信息,例如視覺、聲音和口語。

Gemini 家族迎來新成員:Gemini 1.5 Flash

新的 1.5 Flash 針對速度和效率進(jìn)行了優(yōu)化。

圖片

1.5 Flash 是 Gemini 模型系列的最新成員,也是 API 中速度最快的 Gemini 模型。它針對大規(guī)模、大批量、高頻任務(wù)進(jìn)行了優(yōu)化,服務(wù)更具成本效益,并具有突破性的長上下文窗口(100 萬 token )。

圖片

Gemini 1.5 Flash 具有很強(qiáng)的多模態(tài)推理能力,并具有突破性的長上下文窗口。

1.5 Flash 擅長摘要、聊天應(yīng)用程序、圖像和視頻字幕、從長文檔和表格中提取數(shù)據(jù)等。這是因?yàn)?1.5 Pro 通過一個名為「蒸餾」的過程對其進(jìn)行了訓(xùn)練,將較大模型中最基本的知識和技能遷移到較小、更高效的模型中。

圖片

Gemini 1.5 Flash 性能表現(xiàn)。來源 https://deepmind.google/technologies/gemini/#introduction

改進(jìn)的 Gemini 1.5 Pro

上下文窗口擴(kuò)展到 200 萬 token

谷歌提到,如今有超過 150 萬的開發(fā)人員在使用 Gemini 模型,超過 20 億的產(chǎn)品用戶都用到了 Gemini。

圖片

在過去的幾個月里,谷歌除了將 Gemini 1.5 Pro 上下文窗口擴(kuò)展到 200 萬 token 之外,谷歌還通過數(shù)據(jù)和算法的改進(jìn)增強(qiáng)了其代碼生成、邏輯推理和規(guī)劃、多輪對話以及音頻和圖像理解能力。 

圖片

1.5 Pro 現(xiàn)在可以遵循日益復(fù)雜和細(xì)致的指令,包括那些指定涉及角色,格式和風(fēng)格的產(chǎn)品級行為的指令。此外,谷歌還讓用戶能夠通過設(shè)置系統(tǒng)指令來引導(dǎo)模型行為。

現(xiàn)在,谷歌在 Gemini API 和 Google AI Studio 中添加了音頻理解,因此 1.5 Pro 現(xiàn)在可以對 Google AI Studio 中上傳的視頻圖像和音頻進(jìn)行推理。此外,谷歌還將 1.5 Pro 集成到 Google 產(chǎn)品中,包括 Gemini Advanced 和 Workspace 應(yīng)用程序。

Gemini 1.5 Pro 的定價為每 100 萬 token 3.5 美元。

其實(shí),Gemini 最令人興奮的轉(zhuǎn)變之一是 Google 搜索。

在過去的一年里,作為搜索生成體驗(yàn)的一部分,Google 搜索回答了數(shù)十億個查詢。現(xiàn)在,人們可以使用它以全新的方式進(jìn)行搜索,提出新類型的問題、更長、更復(fù)雜的查詢,甚至使用照片進(jìn)行搜索,并獲得網(wǎng)絡(luò)所提供的最佳信息。

圖片

谷歌即將推出 Ask Photos 功能。以 Google Photos 舉例,該功能大約在九年前推出。如今,用戶每天上傳的照片和視頻數(shù)量超過 60 億張。人們喜歡使用照片來搜索他們的生活。Gemini 讓這一切變得更加容易。

假設(shè)你正在停車場付款,但不記得自己的車牌號碼。之前,你可以在照片中搜索關(guān)鍵字,然后滾動瀏覽多年的照片,尋找車牌。現(xiàn)在,你只需詢問照片即可。

圖片

又比如,你回憶女兒露西婭的早期生活?,F(xiàn)在,你可以問照片:露西亞什么時候?qū)W會游泳的?你還可以跟進(jìn)一些更復(fù)雜的事情:告訴我露西婭的游泳進(jìn)展如何。

在這里,Gemini 超越了簡單的搜索,識別了不同的背景 —— 包括游泳池、大海等不同場景,照片將所有內(nèi)容匯總在一起,以便用戶查看。谷歌將于今年夏天推出 Ask Photos 功能,并且還將推出更多功能。

圖片

新一代開源大模型 Gemma 2

今天,谷歌還發(fā)布了開源大模型 Gemma 的一系列更新 ——Gemma 2 來了。 

據(jù)介紹,Gemma 2 采用全新架構(gòu),旨在實(shí)現(xiàn)突破性的性能和效率,新開源的模型參數(shù)為 27B。

圖片

此外,Gemma 家族也在隨著 PaliGemma 的擴(kuò)展而擴(kuò)展,PaliGemma 是谷歌受 PaLI-3 啟發(fā)的第一個視覺語言模型。

通用 AI 智能體 Project Astra

一直以來,智能體都是 Google DeepMind 的重點(diǎn)研究方向。

昨天,我們圍觀了 OpenAI 的 GPT-4o,為其強(qiáng)大的實(shí)時語音、視頻交互能力所震撼。

今天,DeepMind 的視覺與語音交互通用 AI 智能體項(xiàng)目 Project Astra 亮相,這是 Google DeepMind 對未來 AI 助手的一個展望。

谷歌表示,為了真正發(fā)揮作用,智能體需要像人類一樣理解和響應(yīng)復(fù)雜、動態(tài)的真實(shí)世界,也需要吸收并記住所看到和聽到的內(nèi)容,以了解上下文并采取行動。此外,智能體還需要具有主動性、可教育和個性化,以便用戶可以自然地與它交談,沒有滯后或延遲。

在過去的幾年里,谷歌一直致力于改進(jìn)模型的感知、推理和對話方式,以使交互的速度和質(zhì)量更加自然。

在今天的 Keynote 中, Google DeepMind 展示了 Project Astra 的交互能力:

據(jù)介紹,谷歌是在 Gemini 的基礎(chǔ)上開發(fā)了智能體原型,它可以通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時間線中并緩存此信息以進(jìn)行有效調(diào)用,從而更快地處理信息。

通過語音模型,谷歌還強(qiáng)化了智能體的發(fā)音,為智能體提供了更廣泛的語調(diào)。這些智能體可以更好地理解他們所使用的上下文,并在對話中快速做出響應(yīng)。

這里簡單評論一下。機(jī)器之心感覺 Project Astra 項(xiàng)目發(fā)布的 Demo,在交互體驗(yàn)上要比 GPT-4o 實(shí)時演示的能力要差許多。無論是響應(yīng)的時長、語音的情感豐富度、可打斷等方面,GPT-4o 的交互體驗(yàn)似乎更自然。不知道讀者們感覺如何?

反擊 Sora:發(fā)布視頻生成模型 Veo

在 AI 生成視頻方面,谷歌宣布推出視頻生成模型 Veo。Veo 能夠生成各種風(fēng)格的高質(zhì)量 1080p 分辨率視頻,時長可以超過一分鐘。

憑借對自然語言和視覺語義的深入理解,Veo 模型在理解視頻內(nèi)容、渲染高清圖像、模擬物理原理等方面都有所突破。Veo 生成的視頻能夠準(zhǔn)確、細(xì)致地表達(dá)用戶的創(chuàng)作意圖。

例如,輸入文本 prompt:

Many spotted jellyfish pulsating under water. Their bodies are transparent and glowing in deep ocean.

(許多斑點(diǎn)水母在水下搏動。它們的身體透明,在深海中閃閃發(fā)光。)

再比如生成人物視頻,輸入 prompt:

A lone cowboy rides his horse across an open plain at beautiful sunset, soft light, warm colors.

(在美麗的日落、柔和的光線、溫暖的色彩下,一個孤獨(dú)的牛仔騎著馬穿過開闊的平原。)


近景人物視頻,輸入 prompt:


A woman sitting alone in a dimly lit cafe, a half-finished novel open in front of her. Film noir aesthetic, mysterious atmosphere. Black and white.

(一個女人獨(dú)自坐在燈光昏暗的咖啡館里,一本未完成的小說攤在她面前。黑色電影唯美,神秘氣氛。黑白。)


值得注意的是,Veo 模型提供了前所未有的創(chuàng)意控制水平,并理解「延時拍攝」、「航拍」等電影術(shù)語,使視頻連貫、逼真。

例如電影級海岸線航拍鏡頭,輸入 prompt:


Drone shot along the Hawaii jungle coastline, sunny day

(無人機(jī)沿夏威夷叢林海岸線拍攝,陽光明媚的日子)


Veo 還支持以圖像和文本一起作為 prompt,來生成視頻。通過提供參考圖像與文本提示,Veo 生成的視頻會遵循圖像風(fēng)格和用戶文本說明。

有趣的是,谷歌發(fā)布的 demo 是 Veo 生成的「羊駝」視頻,很容易讓人聯(lián)想到 Meta 的開源系列模型 Llama。

圖片

在長視頻方面,Veo 能夠制作 60 秒甚至更長的視頻。它可以通過單個 prompt 來完成此操作,也可以通過提供一系列 prompt 來完成此操作,這些 prompt 一起講述一個故事。這一點(diǎn)對視頻生成模型應(yīng)用于影視制作非常關(guān)鍵。

Veo 以谷歌的視覺內(nèi)容生成工作為基礎(chǔ),包括生成式查詢網(wǎng)絡(luò) (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere 等。

圖片

從今天開始,谷歌會為一些創(chuàng)作者在 VideoFX 中提供預(yù)覽版 Veo,創(chuàng)作者可以加入谷歌的 waitlist。谷歌還將把 Veo 的一些功能引入 YouTube Shorts 等產(chǎn)品。

文生圖新模型 Imagen 3

在文本到圖像生成方面,谷歌再次升級了系列模型 —— 發(fā)布 Imagen 3。

Imagen 3 在生成細(xì)節(jié)、光照、干擾等方面進(jìn)行了優(yōu)化升級,并且理解 prompt 的能力顯著增強(qiáng)。

為了幫助 Imagen 3 從較長的 prompt 中捕捉細(xì)節(jié),例如特定的攝像機(jī)角度或構(gòu)圖,谷歌在訓(xùn)練數(shù)據(jù)中每個圖像的標(biāo)題中添加了更豐富的細(xì)節(jié)。

例如,在輸入 prompt 中添加「在前景中略微虛焦」、「溫暖光線」等,Imagen 3 就可以按照要求生成圖像:

圖片

此外,谷歌特別針對圖像生成中「文字模糊」的問題進(jìn)行了改進(jìn),即優(yōu)化了圖像渲染,使生成圖像中文字清晰并風(fēng)格化。

圖片

為了提高可用性,Imagen 3 將提供多個版本,每個版本都針對不同類型的任務(wù)進(jìn)行了優(yōu)化。

從今天開始,谷歌為一些創(chuàng)作者在 ImageFX 中提供 Imagen 3 預(yù)覽版,用戶可以注冊加入 waitlist。

第六代 TPU 芯片 Trillium

生成式 AI 正在改變?nèi)祟惻c技術(shù)交互的方式,同時為企業(yè)帶來巨大的增效機(jī)會。但這些進(jìn)步需要更多的計(jì)算、內(nèi)存和通信能力,以訓(xùn)練和微調(diào)功能最強(qiáng)大的模型。

為此,谷歌推出第六代 TPU Trillium,這是迄今為止性能最強(qiáng)大、能效最高的 TPU,將于 2024 年底正式上線。

TPU Trillium 是一種高度定制化的 AI 專用硬件,此次 Google I/O 大會上宣布的多項(xiàng)創(chuàng)新,包括 Gemini 1.5 Flash、Imagen 3 和 Gemma 2 等新模型,均在 TPU 上進(jìn)行訓(xùn)練并使用 TPU 提供服務(wù)。

圖片

據(jù)介紹,與 TPU v5e 相比,Trillium TPU 的每芯片峰值計(jì)算性能提高了 4.7 倍,同時它還把高帶寬內(nèi)存(HBM)以及芯片間互連(ICI)帶寬加倍。此外,Trillium 配備了第三代 SparseCore,專門用于處理高級排名和推薦工作負(fù)載中常見的超大型嵌入。

谷歌表示,Trillium 能夠以更快的速度訓(xùn)練新一代 AI 模型,同時減少延遲和降低成本。此外,Trillium 還被稱為迄今為止谷歌最具可持續(xù)性的 TPU,與其前代產(chǎn)品相比,能效提高了超過 67%。

Trillium 可以在單個高帶寬、低延遲的計(jì)算集群(pod)中擴(kuò)展到多達(dá) 256 個 TPU(張量處理單元)。除了這種集群級別的擴(kuò)展能力之外,通過多片技術(shù)(multislice technology)和智能處理單元(Titanium Intelligence Processing Units,IPUs),Trillium TPU 可以擴(kuò)展到數(shù)百個集群,連接成千上萬的芯片,形成一個由每秒數(shù) PB(multi-petabit-per-second)數(shù)據(jù)中心網(wǎng)絡(luò)互聯(lián)的超級計(jì)算機(jī)。

谷歌早在 2013 年就推出了首款 TPU v1,隨后在 2017 年推出了云 TPU,這些 TPU 一直在為實(shí)時語音搜索、照片對象識別、語言翻譯等各種服務(wù)提供支持,甚至為自動駕駛汽車公司 Nuro 等產(chǎn)品提供技術(shù)動力。

Trillium 也是谷歌 AI Hypercomputer 的一部分,這是一種開創(chuàng)性的超級計(jì)算架構(gòu),專為處理尖端的 AI 工作負(fù)載而設(shè)計(jì)。谷歌正在與 Hugging Face 合作,優(yōu)化開源模型訓(xùn)練和服務(wù)的硬件。

圖片

以上,就是今天谷歌 I/O 大會的所有重點(diǎn)內(nèi)容了。可以看出,谷歌在大模型技術(shù)與產(chǎn)品方面與 OpenAI 展開了全面競爭的態(tài)勢。而通過這兩天 OpenAI 與谷歌的發(fā)布,我們也能發(fā)現(xiàn)大模型競爭進(jìn)入了到了一個新的階段:多模態(tài)、更自然地交互體驗(yàn)成為了大模型技術(shù)產(chǎn)品化并為更多人所接受的關(guān)鍵。

期待 2024 年,大模型技術(shù)與產(chǎn)品創(chuàng)新,能為我們帶來更多的驚喜。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-22 12:39:56

2025-04-08 02:26:00

2024-08-02 14:58:00

2024-05-15 07:54:12

GPT-4oAI助手人工智能

2024-11-22 15:00:00

模型數(shù)據(jù)

2024-12-18 13:24:30

谷歌AI大語言模型

2024-12-18 07:15:00

2024-05-20 08:20:00

OpenAI模型

2024-05-21 12:23:17

2024-06-05 08:29:35

2025-02-17 12:24:43

2025-03-10 09:38:00

2021-08-27 15:03:51

PythonC語言數(shù)組

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-05-24 14:04:04

2024-08-02 13:14:51

2024-05-14 08:23:27

GPT-4oAI技術(shù)

2024-06-21 09:51:17

2025-02-17 09:35:00

ChatGPT模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號