自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="vrvuk"><track id="vrvuk"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

谷歌反擊：Project Astra正面硬剛GPT-4o、Veo對抗Sora、新版Gemini變革搜索

作者：機(jī)器之心 2024-05-15 09:58:06

人工智能新聞

谷歌在大模型技術(shù)與產(chǎn)品方面與 OpenAI 展開了全面競爭的態(tài)勢。而通過這兩天 OpenAI 與谷歌的發(fā)布，我們也能發(fā)現(xiàn)大模型競爭進(jìn)入了到了一個新的階段：多模態(tài)、更自然地交互體驗(yàn)成為了大模型技術(shù)產(chǎn)品化并為更多人所接受的關(guān)鍵。

通用的 AI，能夠真正日常用的 AI，不做成這樣現(xiàn)在都不好意思開發(fā)布會了。

5 月 15 日凌晨，一年一度的「科技界春晚」Google I/O 開發(fā)者大會正式開幕。長達(dá) 110 分鐘的主 Keynote 提到了幾次人工智能？谷歌自己統(tǒng)計(jì)了一下：

是的，每一分鐘都在講 AI。

生成式 AI 的競爭，最近又達(dá)到了新的高潮，本次 I/O 大會的內(nèi)容自然全面圍繞人工智能展開。

「一年前在這個舞臺上，我們首次分享了原生多模態(tài)大模型 Gemini 的計(jì)劃。它標(biāo)志著新一代的 I/O，」谷歌首席執(zhí)行官桑達(dá)爾?皮查伊（Sundar Pichai）說道?！附裉?，我們希望每個人都能從 Gemini 的技術(shù)中受益。這些突破性的功能將進(jìn)入搜索、圖片、生產(chǎn)力工具、安卓系統(tǒng)等方方面面?！?/span>

24 小時以前，OpenAI 故意搶先發(fā)布 GPT-4o，通過實(shí)時的語音、視頻和文本交互震撼了全世界。今天，谷歌展示的 Project Astra 和 Veo，直接對標(biāo)了目前 OpenAI 領(lǐng)先的 GPT-4o 與 Sora。

我們正在見證最高端的商戰(zhàn)，以最樸實(shí)的方式進(jìn)行著。

最新版 Gemini 革新谷歌生態(tài)

在 I/O 大會上，谷歌展示了最新版 Gemini 加持的搜索能力。

25 年前，谷歌通過搜索引擎推動了第一波信息時代的浪潮?，F(xiàn)在，隨著生成式 AI 技術(shù)的演進(jìn)，搜索引擎可以更好地幫你回答問題，它可以更好地利用上下文內(nèi)容、位置感知和實(shí)時信息能力。

基于最新版本的定制化 Gemini 大模型，你可以對搜索引擎提出任何你想到的事情，或任何需要完成的事 —— 從研究到計(jì)劃到想象，谷歌將負(fù)責(zé)所有工作。

有時你想要快速得到答案，但沒有時間將所有信息拼湊在一起。這個時候，搜索引擎將通過 AI 概述為你完成工作。通過人工智能概述，AI 可以自動訪問大量網(wǎng)站來提供一個復(fù)雜問題的答案。

借助定制 Gemini 的多步推理功能，AI 概述將有助于解決日益復(fù)雜的問題。你無需再將問題分解為多個搜索，現(xiàn)在可以一次性提出最復(fù)雜的問題，以及你想到的所有細(xì)微差別和注意事項(xiàng)。

除了為復(fù)雜問題找到正確的答案或信息之外，搜索引擎還可以與你一起，一步步制定計(jì)劃。

在 I/O 大會上，谷歌重點(diǎn)強(qiáng)調(diào)了大模型的多模態(tài)和長文本能力。技術(shù)的進(jìn)步為 Google Workspace 等生產(chǎn)力工具變得更加智能化。

例如，現(xiàn)在我們可以要求 Gemini 總結(jié)一下學(xué)校最近發(fā)來的所有電子郵件。它會在后臺識別相關(guān)的 Email，甚至分析 PDF 等附件。隨后你就能獲得其中的要點(diǎn)和行動項(xiàng)目的摘要。

如果你正在旅行，無法參加項(xiàng)目會議，而會議的錄音長達(dá)一個小時。如果是 Google Meet 上開的會，你可以要求 Gemini 給你介紹一下重點(diǎn)。有一個小組在尋找志愿者，那天你有空。Gemini 可以幫你寫一封郵件進(jìn)行申請。

更進(jìn)一步，谷歌在大模型 Agent 上看到了更多的機(jī)會，認(rèn)為它們可作為具有推理、計(jì)劃和記憶能力的智能系統(tǒng)。利用 Agent 的應(yīng)用能夠提前「思考」多個步驟，并跨軟件和系統(tǒng)工作，更加便捷地幫你完成任務(wù)。這種思路已經(jīng)在搜索引擎等產(chǎn)品中得到了體現(xiàn)，人們都可以直接看到 AI 能力的提升。

至少在全家桶應(yīng)用方面，谷歌是領(lǐng)先于 OpenAI 的。

Gemini 家族大更新

Project Astra 上線

生態(tài)上谷歌有先天優(yōu)勢，但大模型基礎(chǔ)很重要，谷歌為此整合了自身團(tuán)隊(duì)和 DeepMind 的力量。今天哈薩比斯也首次在 I/O 大會上登臺，親自介紹了神秘的新模型。

去年 12 月，谷歌推出了首款原生多模態(tài)模型 Gemini 1.0，共有三種尺寸：Ultra、Pro 和 Nano。僅僅幾個月后，谷歌發(fā)布新版本 1.5 Pro，其性能得到了增強(qiáng)，并且上下文窗口突破了 100 萬 token。

現(xiàn)在，谷歌宣布在 Gemini 系列模型中引入了一系列更新，包括新的 Gemini 1.5 Flash（這是谷歌追求速度和效率的輕量級模型）以及 Project Astra（這是谷歌對人工智能助手未來的愿景）。

目前，1.5 Pro 和 1.5 Flash 均已提供公共預(yù)覽版，并在 Google AI Studio 和 Vertex AI 中提供 100 萬 token 上下文窗口?，F(xiàn)在，1.5 Pro 還通過候補(bǔ)名單向使用 API 的開發(fā)人員和 Google Cloud 客戶提供了 200 萬 token 上下文窗口。

此外，Gemini Nano 也從純文本輸入擴(kuò)展到可以圖片輸入。今年晚些時候，從 Pixel 開始，谷歌將推出多模態(tài) Gemini Nano 。這意味著手機(jī)用戶不僅能夠處理文本輸入，還能夠理解更多上下文信息，例如視覺、聲音和口語。

Gemini 家族迎來新成員：Gemini 1.5 Flash

新的 1.5 Flash 針對速度和效率進(jìn)行了優(yōu)化。

1.5 Flash 是 Gemini 模型系列的最新成員，也是 API 中速度最快的 Gemini 模型。它針對大規(guī)模、大批量、高頻任務(wù)進(jìn)行了優(yōu)化，服務(wù)更具成本效益，并具有突破性的長上下文窗口（100 萬 token ）。

Gemini 1.5 Flash 具有很強(qiáng)的多模態(tài)推理能力，并具有突破性的長上下文窗口。

1.5 Flash 擅長摘要、聊天應(yīng)用程序、圖像和視頻字幕、從長文檔和表格中提取數(shù)據(jù)等。這是因?yàn)?1.5 Pro 通過一個名為「蒸餾」的過程對其進(jìn)行了訓(xùn)練，將較大模型中最基本的知識和技能遷移到較小、更高效的模型中。

Gemini 1.5 Flash 性能表現(xiàn)。來源 https://deepmind.google/technologies/gemini/#introduction

改進(jìn)的 Gemini 1.5 Pro

上下文窗口擴(kuò)展到 200 萬 token

谷歌提到，如今有超過 150 萬的開發(fā)人員在使用 Gemini 模型，超過 20 億的產(chǎn)品用戶都用到了 Gemini。

在過去的幾個月里，谷歌除了將 Gemini 1.5 Pro 上下文窗口擴(kuò)展到 200 萬 token 之外，谷歌還通過數(shù)據(jù)和算法的改進(jìn)增強(qiáng)了其代碼生成、邏輯推理和規(guī)劃、多輪對話以及音頻和圖像理解能力。

1.5 Pro 現(xiàn)在可以遵循日益復(fù)雜和細(xì)致的指令，包括那些指定涉及角色，格式和風(fēng)格的產(chǎn)品級行為的指令。此外，谷歌還讓用戶能夠通過設(shè)置系統(tǒng)指令來引導(dǎo)模型行為。

現(xiàn)在，谷歌在 Gemini API 和 Google AI Studio 中添加了音頻理解，因此 1.5 Pro 現(xiàn)在可以對 Google AI Studio 中上傳的視頻圖像和音頻進(jìn)行推理。此外，谷歌還將 1.5 Pro 集成到 Google 產(chǎn)品中，包括 Gemini Advanced 和 Workspace 應(yīng)用程序。

Gemini 1.5 Pro 的定價為每 100 萬 token 3.5 美元。

其實(shí)，Gemini 最令人興奮的轉(zhuǎn)變之一是 Google 搜索。

在過去的一年里，作為搜索生成體驗(yàn)的一部分，Google 搜索回答了數(shù)十億個查詢。現(xiàn)在，人們可以使用它以全新的方式進(jìn)行搜索，提出新類型的問題、更長、更復(fù)雜的查詢，甚至使用照片進(jìn)行搜索，并獲得網(wǎng)絡(luò)所提供的最佳信息。

谷歌即將推出 Ask Photos 功能。以 Google Photos 舉例，該功能大約在九年前推出。如今，用戶每天上傳的照片和視頻數(shù)量超過 60 億張。人們喜歡使用照片來搜索他們的生活。Gemini 讓這一切變得更加容易。

假設(shè)你正在停車場付款，但不記得自己的車牌號碼。之前，你可以在照片中搜索關(guān)鍵字，然后滾動瀏覽多年的照片，尋找車牌。現(xiàn)在，你只需詢問照片即可。

又比如，你回憶女兒露西婭的早期生活?，F(xiàn)在，你可以問照片：露西亞什么時候?qū)W會游泳的？你還可以跟進(jìn)一些更復(fù)雜的事情：告訴我露西婭的游泳進(jìn)展如何。

在這里，Gemini 超越了簡單的搜索，識別了不同的背景 —— 包括游泳池、大海等不同場景，照片將所有內(nèi)容匯總在一起，以便用戶查看。谷歌將于今年夏天推出 Ask Photos 功能，并且還將推出更多功能。

新一代開源大模型 Gemma 2

今天，谷歌還發(fā)布了開源大模型 Gemma 的一系列更新 ——Gemma 2 來了。

據(jù)介紹，Gemma 2 采用全新架構(gòu)，旨在實(shí)現(xiàn)突破性的性能和效率，新開源的模型參數(shù)為 27B。

此外，Gemma 家族也在隨著 PaliGemma 的擴(kuò)展而擴(kuò)展，PaliGemma 是谷歌受 PaLI-3 啟發(fā)的第一個視覺語言模型。

通用 AI 智能體 Project Astra

一直以來，智能體都是 Google DeepMind 的重點(diǎn)研究方向。

昨天，我們圍觀了 OpenAI 的 GPT-4o，為其強(qiáng)大的實(shí)時語音、視頻交互能力所震撼。

今天，DeepMind 的視覺與語音交互通用 AI 智能體項(xiàng)目 Project Astra 亮相，這是 Google DeepMind 對未來 AI 助手的一個展望。

谷歌表示，為了真正發(fā)揮作用，智能體需要像人類一樣理解和響應(yīng)復(fù)雜、動態(tài)的真實(shí)世界，也需要吸收并記住所看到和聽到的內(nèi)容，以了解上下文并采取行動。此外，智能體還需要具有主動性、可教育和個性化，以便用戶可以自然地與它交談，沒有滯后或延遲。

在過去的幾年里，谷歌一直致力于改進(jìn)模型的感知、推理和對話方式，以使交互的速度和質(zhì)量更加自然。

在今天的 Keynote 中， Google DeepMind 展示了 Project Astra 的交互能力：

據(jù)介紹，谷歌是在 Gemini 的基礎(chǔ)上開發(fā)了智能體原型，它可以通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時間線中并緩存此信息以進(jìn)行有效調(diào)用，從而更快地處理信息。

通過語音模型，谷歌還強(qiáng)化了智能體的發(fā)音，為智能體提供了更廣泛的語調(diào)。這些智能體可以更好地理解他們所使用的上下文，并在對話中快速做出響應(yīng)。

這里簡單評論一下。機(jī)器之心感覺 Project Astra 項(xiàng)目發(fā)布的 Demo，在交互體驗(yàn)上要比 GPT-4o 實(shí)時演示的能力要差許多。無論是響應(yīng)的時長、語音的情感豐富度、可打斷等方面，GPT-4o 的交互體驗(yàn)似乎更自然。不知道讀者們感覺如何？

反擊 Sora：發(fā)布視頻生成模型 Veo

在 AI 生成視頻方面，谷歌宣布推出視頻生成模型 Veo。Veo 能夠生成各種風(fēng)格的高質(zhì)量 1080p 分辨率視頻，時長可以超過一分鐘。

憑借對自然語言和視覺語義的深入理解，Veo 模型在理解視頻內(nèi)容、渲染高清圖像、模擬物理原理等方面都有所突破。Veo 生成的視頻能夠準(zhǔn)確、細(xì)致地表達(dá)用戶的創(chuàng)作意圖。

例如，輸入文本 prompt：

Many spotted jellyfish pulsating under water. Their bodies are transparent and glowing in deep ocean.

（許多斑點(diǎn)水母在水下搏動。它們的身體透明，在深海中閃閃發(fā)光。）

再比如生成人物視頻，輸入 prompt：

A lone cowboy rides his horse across an open plain at beautiful sunset, soft light, warm colors.
（在美麗的日落、柔和的光線、溫暖的色彩下，一個孤獨(dú)的牛仔騎著馬穿過開闊的平原。）

近景人物視頻，輸入 prompt：

A woman sitting alone in a dimly lit cafe, a half-finished novel open in front of her. Film noir aesthetic, mysterious atmosphere. Black and white.
（一個女人獨(dú)自坐在燈光昏暗的咖啡館里，一本未完成的小說攤在她面前。黑色電影唯美，神秘氣氛。黑白。）

值得注意的是，Veo 模型提供了前所未有的創(chuàng)意控制水平，并理解「延時拍攝」、「航拍」等電影術(shù)語，使視頻連貫、逼真。

例如電影級海岸線航拍鏡頭，輸入 prompt：

Drone shot along the Hawaii jungle coastline, sunny day
（無人機(jī)沿夏威夷叢林海岸線拍攝，陽光明媚的日子）

Veo 還支持以圖像和文本一起作為 prompt，來生成視頻。通過提供參考圖像與文本提示，Veo 生成的視頻會遵循圖像風(fēng)格和用戶文本說明。

有趣的是，谷歌發(fā)布的 demo 是 Veo 生成的「羊駝」視頻，很容易讓人聯(lián)想到 Meta 的開源系列模型 Llama。

在長視頻方面，Veo 能夠制作 60 秒甚至更長的視頻。它可以通過單個 prompt 來完成此操作，也可以通過提供一系列 prompt 來完成此操作，這些 prompt 一起講述一個故事。這一點(diǎn)對視頻生成模型應(yīng)用于影視制作非常關(guān)鍵。

Veo 以谷歌的視覺內(nèi)容生成工作為基礎(chǔ)，包括生成式查詢網(wǎng)絡(luò) (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere 等。

從今天開始，谷歌會為一些創(chuàng)作者在 VideoFX 中提供預(yù)覽版 Veo，創(chuàng)作者可以加入谷歌的 waitlist。谷歌還將把 Veo 的一些功能引入 YouTube Shorts 等產(chǎn)品。

文生圖新模型 Imagen 3

在文本到圖像生成方面，谷歌再次升級了系列模型 —— 發(fā)布 Imagen 3。

Imagen 3 在生成細(xì)節(jié)、光照、干擾等方面進(jìn)行了優(yōu)化升級，并且理解 prompt 的能力顯著增強(qiáng)。

為了幫助 Imagen 3 從較長的 prompt 中捕捉細(xì)節(jié)，例如特定的攝像機(jī)角度或構(gòu)圖，谷歌在訓(xùn)練數(shù)據(jù)中每個圖像的標(biāo)題中添加了更豐富的細(xì)節(jié)。

例如，在輸入 prompt 中添加「在前景中略微虛焦」、「溫暖光線」等，Imagen 3 就可以按照要求生成圖像：

此外，谷歌特別針對圖像生成中「文字模糊」的問題進(jìn)行了改進(jìn)，即優(yōu)化了圖像渲染，使生成圖像中文字清晰并風(fēng)格化。

為了提高可用性，Imagen 3 將提供多個版本，每個版本都針對不同類型的任務(wù)進(jìn)行了優(yōu)化。

從今天開始，谷歌為一些創(chuàng)作者在 ImageFX 中提供 Imagen 3 預(yù)覽版，用戶可以注冊加入 waitlist。

第六代 TPU 芯片 Trillium

生成式 AI 正在改變?nèi)祟惻c技術(shù)交互的方式，同時為企業(yè)帶來巨大的增效機(jī)會。但這些進(jìn)步需要更多的計(jì)算、內(nèi)存和通信能力，以訓(xùn)練和微調(diào)功能最強(qiáng)大的模型。

為此，谷歌推出第六代 TPU Trillium，這是迄今為止性能最強(qiáng)大、能效最高的 TPU，將于 2024 年底正式上線。

TPU Trillium 是一種高度定制化的 AI 專用硬件，此次 Google I/O 大會上宣布的多項(xiàng)創(chuàng)新，包括 Gemini 1.5 Flash、Imagen 3 和 Gemma 2 等新模型，均在 TPU 上進(jìn)行訓(xùn)練并使用 TPU 提供服務(wù)。

據(jù)介紹，與 TPU v5e 相比，Trillium TPU 的每芯片峰值計(jì)算性能提高了 4.7 倍，同時它還把高帶寬內(nèi)存（HBM）以及芯片間互連（ICI）帶寬加倍。此外，Trillium 配備了第三代 SparseCore，專門用于處理高級排名和推薦工作負(fù)載中常見的超大型嵌入。

谷歌表示，Trillium 能夠以更快的速度訓(xùn)練新一代 AI 模型，同時減少延遲和降低成本。此外，Trillium 還被稱為迄今為止谷歌最具可持續(xù)性的 TPU，與其前代產(chǎn)品相比，能效提高了超過 67%。

Trillium 可以在單個高帶寬、低延遲的計(jì)算集群（pod）中擴(kuò)展到多達(dá) 256 個 TPU（張量處理單元）。除了這種集群級別的擴(kuò)展能力之外，通過多片技術(shù)（multislice technology）和智能處理單元（Titanium Intelligence Processing Units，IPUs），Trillium TPU 可以擴(kuò)展到數(shù)百個集群，連接成千上萬的芯片，形成一個由每秒數(shù) PB（multi-petabit-per-second）數(shù)據(jù)中心網(wǎng)絡(luò)互聯(lián)的超級計(jì)算機(jī)。

谷歌早在 2013 年就推出了首款 TPU v1，隨后在 2017 年推出了云 TPU，這些 TPU 一直在為實(shí)時語音搜索、照片對象識別、語言翻譯等各種服務(wù)提供支持，甚至為自動駕駛汽車公司 Nuro 等產(chǎn)品提供技術(shù)動力。

Trillium 也是谷歌 AI Hypercomputer 的一部分，這是一種開創(chuàng)性的超級計(jì)算架構(gòu)，專為處理尖端的 AI 工作負(fù)載而設(shè)計(jì)。谷歌正在與 Hugging Face 合作，優(yōu)化開源模型訓(xùn)練和服務(wù)的硬件。

以上，就是今天谷歌 I/O 大會的所有重點(diǎn)內(nèi)容了。可以看出，谷歌在大模型技術(shù)與產(chǎn)品方面與 OpenAI 展開了全面競爭的態(tài)勢。而通過這兩天 OpenAI 與谷歌的發(fā)布，我們也能發(fā)現(xiàn)大模型競爭進(jìn)入了到了一個新的階段：多模態(tài)、更自然地交互體驗(yàn)成為了大模型技術(shù)產(chǎn)品化并為更多人所接受的關(guān)鍵。

期待 2024 年，大模型技術(shù)與產(chǎn)品創(chuàng)新，能為我們帶來更多的驚喜。

責(zé)任編輯：張燕妮來源：機(jī)器之心

谷歌大模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="vszpv"><p id="vszpv"></p></sub>

<sub id="vszpv"><i id="vszpv"></i></sub>