“全家桶”戰(zhàn)士歸來,谷歌自我革命! 原創(chuàng)
編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
5月與6月,舊金山硅谷各大新貴舊王正在激烈角逐,主戰(zhàn)場無疑則是AI。
就在昨天凌晨GPT-4o發(fā)布的24小時后,Google I/O大會也交卷了。
有意思的是,谷歌掌舵人皮查伊,好像很清楚觀眾們所想,一開始就安排AI在后臺統(tǒng)計了整場提及的AI次數(shù):121,但隨后又不自禁地提了3次。這124次的提及,為什么會這么多?
圖片
因為這次主題演講,實在太全面了,脈絡(luò)清晰,而又讓人眼花繚亂,簡直讓我們重新認識了一遍谷歌。
為什么說脈絡(luò)清晰?很簡單,AI就是這場keynote的脈絡(luò),從芯片到模型到重構(gòu)應(yīng)用,為什么說眼花撩亂,因為從吸睛程度上看,一系列發(fā)布都在證明谷歌在找到一個屬于巨頭的AI打法:少些高大上,多些接地氣。
在宣傳片中,我們可以聽到許多場景下,用戶們唱著講出提示詞,AI給出答案。有趣又貼和大眾的喜好。
圖片
大膽的創(chuàng)新應(yīng)用對于谷歌而言或許不是最優(yōu)解,漸進式/逐步增強現(xiàn)有產(chǎn)品,也許對于習(xí)慣于使用谷歌的大眾來說,未嘗不是一種通往生成式AI世界的舒適解。
整場看下來,小編感嘆道:谷歌一改急追OpenAI的姿態(tài),而是用接地氣的新產(chǎn)品/新功能的發(fā)布,征服每一個谷歌產(chǎn)品用戶。
一、十一年鑄劍:谷歌史上最強大的TPU發(fā)布為AI加速
Sundar 會上宣布了谷歌第六代TPU Trillium,它是迄今為止性能最強、能效最高的 TPU,距離2013年,推出第一代TPU,已經(jīng)過去11年。
令人印象深刻之處在于,與上一代的 TPU v5e 相比,Trillium TPU 的每芯片峰值計算性能提高了 4.7 倍,高帶寬內(nèi)存 (HBM) 容量和帶寬增加了一倍,并將 TPU v5e 的芯片間互連 (ICI) 帶寬增加了一倍。此外,Trillium還配備了一種專用加速器:第三代SparseCore,來用于處理高級排名和推薦工作負載中常見的超大嵌入。
圖片
這就可以更快地訓(xùn)練下一波基礎(chǔ)模型,并以更少的延遲和更低的成本為這些模型提供服務(wù)。
更難能可貴的是,在可持續(xù)性方面,Trillium TPU 的能效比 TPU v5e 高出 67% 以上。
Trillium 可以在單個高帶寬、低延遲 Pod 中擴展到多達 256 個 TPU。除了這種 Pod 級可擴展性之外,借助多切片技術(shù)和Titanium 智能處理單元 (IPU ),Trillium TPU 還可以擴展到數(shù)百個 Pod,從而連接建筑物級超級計算機中的數(shù)萬個芯片,這些芯片通過每秒數(shù) PB 的速度互連數(shù)據(jù)中心網(wǎng)絡(luò)。
據(jù)介紹,Trillium TPU 將為下一波人工智能模型和代理提供動力。例如,自動駕駛汽車公司Nuro致力于通過機器人技術(shù)通過使用 Cloud TPU 訓(xùn)練模型;谷歌云年度人工智能合作伙伴德勤將提供 Trillium,通過生成式人工智能實現(xiàn)業(yè)務(wù)轉(zhuǎn)型。接下來,對 Trillium TPU 上長上下文、多模式模型的訓(xùn)練和服務(wù)的支持也將使Google DeepMind能夠比以往更快、更高效、延遲更低地訓(xùn)練和服務(wù)未來幾代 Gemini 模型。
二、視頻生成模型Veo:長場景中的突破
這是一款非常驚艷的AI視頻生成器,輸出分辨率1080p,時長在一分鐘以上,效果堪比Sora。
圖片
據(jù)介紹,Veo 接受了大量鏡頭的訓(xùn)練。這就是生成式 AI 模型的工作原理:輸入某種形式數(shù)據(jù)的一個又一個示例,模型會拾取數(shù)據(jù)中的模式,使它們能夠生成新數(shù)據(jù)——在 Veo 的例子中是視頻。
谷歌 AI 研發(fā)實驗室 DeepMind 負責(zé)人 Demis Hassabis 在虛擬圓桌會議上對記者表示:“我們正在探索故事板和生成更長場景等功能,以了解 Veo 的功能。我們在視頻方面取得了令人難以置信的進步?!?/p>
三、新模型
I/O大會上,谷歌一口氣宣布了很多重磅級的模型更新,可以看出聚焦解決大家在落地大模型過程中經(jīng)常要遇到的問題上,比如文本模型,聚焦在解決私有化部署的成本和延遲問題上,視覺模型方面,大家在聚焦提示詞中的意圖理解和圖像細節(jié)的捕捉方面,當(dāng)然還有較小規(guī)模的模型。
1.Gemini 1.5 Flash:專為成本和延遲敏感、大批量任務(wù)而設(shè)計
谷歌今天發(fā)布了的Gemini 1.5 Flash進一步增強了這些功能。它具有與 1.5 Pro 相同的 100 萬個令牌上下文窗口,但專為成本和延遲很重要的大批量任務(wù)而設(shè)計,例如聊天應(yīng)用程序、字幕、詳細的視頻和圖像分析、從長格式文檔中提取內(nèi)容和數(shù)據(jù)、和更多。
對于需要更大上下文窗口的用例(例如分析任務(wù)非常重的代碼庫或廣泛的文檔庫),客戶將能夠嘗試具有多達 200 萬個令牌上下文窗口的Gemini 1.5 Pro 。
圖片
目前該模型嘗鮮,尚需要大家提交waitinglist。
2.PaliGemma:Vertex AI 的開發(fā)人員多了一種選擇
PaliGemma是 Gemma 家族(Gemini輕量版)的第一個視覺語言開放模型。 PaliGemma 針對圖像字幕、視覺問答、理解圖像中的文本、對象檢測和對象分割等用例進行了優(yōu)化。 PaliGemma 增加了開發(fā)人員可以在 Vertex AI 上訪問的模型選擇,以將正確的模型與正確的任務(wù)和預(yù)算要求配對。
3.Imagen 3 和 Gemma 2 模型將帶來更多模型創(chuàng)新
除了今天提供的模型和工具外,Vertex AI 用戶很快就能開始使用 Imagen 3 和 Gemma 2 模型進行創(chuàng)新。
Imagen 3將于今年夏天向 Vertex AI 客戶推出,提供谷歌迄今為止最復(fù)雜的圖像生成功能。 Imagen 3 能夠理解自然語言,從而更好地理解提示背后的意圖,整合較長提示中的小細節(jié),并提高在圖像中渲染文本的能力。
同時在夏天推出的還有Gemma 2,其中包括一個 27B 模型,其性能可與更大的模型相媲美,為開發(fā)人員需要開放模型的用例提供更強大的選擇。
四、大模型全面走向谷歌產(chǎn)品你需要的只是ask
當(dāng)然 Gemini 1.5pro也將走出單一的網(wǎng)站訪問形式,可以在許多原有的谷歌產(chǎn)品中刷到它,出現(xiàn)在Google Workspace的側(cè)面板上,出現(xiàn)在Gmail中,出現(xiàn)在Doc中。
借助新的側(cè)面板體驗(首先是 Gmail、文檔、表格、幻燈片和云端硬盤),Gemini將成為用戶跨多個應(yīng)用的紐帶,不僅能夠與與其聊天,更能直接將來自電子郵件、文檔等的所聞所見來總結(jié)、分析和生成內(nèi)容 ,而無需離開你所在的應(yīng)用程序即可完成所有操作。
圖片
同時,界面會自動提供用戶正在處理的對話或內(nèi)容的摘要,以及上下文相關(guān)的提示來幫助新手入門。
這對于從事重復(fù)性任務(wù)和工作流程,比如總結(jié)/審查/批準/提交報告的人來說,將會成為不錯的省時神器。你需要做的就是懂得如何提問。
五、谷歌布局Agent Builder
谷歌也推出了Agent Builder,思路當(dāng)然也在于生態(tài)加速,即新的開源集成有助于快速跟蹤代理構(gòu)建。
Vertex AI Agent Builder在 Next '24 上發(fā)布,使開發(fā)人員能夠通過一系列滿足不同開發(fā)人員需求和專業(yè)知識水平的工具輕松構(gòu)建和部署企業(yè)就緒的一代 AI 體驗 ,從使用自然語言構(gòu)建 AI 代理的無代碼控制臺,到Vertex AI 上的 LangChain等代碼優(yōu)先的開源編排框架。這些功能可幫助客戶平衡快速實驗和迭代與成本、治理和性能要求。
六、谷歌搜索:王牌中的底牌
皮查伊在主題演講會上,提及搜索時,異常激動。
谷歌搜索是具有人類好奇心規(guī)模的生成式AI,“這是谷歌迄今為止最為激動人心的篇章”。
如果你也熬夜看了整場keynote,相信你也有這種感覺——最厲害的狠角色,還要數(shù)谷歌搜索的大革新。谷歌發(fā)布了 AI Overviews,加強版 AI 搜索概要功能,多步推理能力上架。
Google 在發(fā)布會上介紹,新面目的 Google Search,主要有三個獨特的優(yōu)勢:
第一,Google 的實時信息包括超過一萬億個關(guān)于人、地點和事物的事實;第二,名列前茅的產(chǎn)品,和最好的網(wǎng)絡(luò)服務(wù)之一;第三,Gemini 的力量。
把將這三件事結(jié)合在一起,就解鎖了 Google 在搜索領(lǐng)域的全新能力。
比如: AI Review這樣一種新功能,用戶可以通過在搜索結(jié)果的頂部,獲取由 AI 大模型生成的摘要,以此簡化整個搜索過程,讓復(fù)雜問題的檢索過程,變得簡單。
圖片
再比如:Multi-step reasoning ,多步推理,比如你可以通過搜索欄來找到「附近最好的瑜伽館」,隨后附近所有關(guān)于瑜伽館的評價評分、課程推薦、距離等重要信息,都會被分類成塊,十分清楚地在搜索結(jié)果中顯示。
圖片
憑借Google自有的龐大數(shù)據(jù)庫,AI 在搜索過程當(dāng)中可以調(diào)用最新、最全的高質(zhì)量信息,所以搜索結(jié)果的準確性和可信性也就有了更多的保障。
第三個比較貼心的功能就是planning規(guī)劃能力,比如幫你重新調(diào)整膳食結(jié)構(gòu)、不想在早餐、午餐和晚餐時吃通心粉和奶酪。就可以直接把需求拋給搜索框,Google Search 就能還給你一份按照要求,且合理安排的全新一周食譜。
如果你實在難以描述碰到的一些故障問題,還可以使用ask with video 的功能,諸如唱片的零部件不起作用了/相機的快門突然失靈等等,現(xiàn)在不用大費周折地寄回廠家售后。
圖片
七、谷歌做對了一件事:讓AI實用
在大模型時代,沒有完美的產(chǎn)品,即便是谷歌和Open AI,但真并不影響大家在這個時代各盡其才,各顯神通。
正如英偉達高級AI經(jīng)理JimFan所評論的,昨天的OpenAI找對了方法,而今天的谷歌做對了一件事:他們終于開始認真努力將人工智能融入搜索框。我感受到了代理流程:規(guī)劃、實時瀏覽和多模式輸入,所有這些都來自著陸頁。谷歌最強大的護城河是分銷。
Gemini 不必是最好的模型,就可以成為世界上使用最廣泛的模型。
來源:?? 51CTO技術(shù)棧??作者:言征
