谷歌版Her搶跑!一鍵召喚Gemini,全球52億終端被顛覆
OpenAI,剛被截胡了?
緊追著OpenAI的「Her」,谷歌也正式官宣:發(fā)布AI語音功能!
就在剛剛「谷歌制造」的主題演講中,谷歌宣布推出語音模式Gemini Live。不久后,Gemini Live就會在Gemini移動應(yīng)用程序中上線。
谷歌和OpenAI的軍備競賽,再一次打響。
看看OpenAI那邊,三個月前石破天驚的「Her」如今依舊沒個聲響,這是妥妥要被谷歌截胡的節(jié)奏啊。
在場的谷歌領(lǐng)導(dǎo)Rick Osterloh也意味深長地表示:「我們聽到太多關(guān)于AI的承諾,和即將推出的口號了。今天,我們要展示的是真實的進展!」
此外,在這次演講中,谷歌還詳細展示了Gemini會如何更深入地集成到安卓、應(yīng)用程序和新的Pixel設(shè)備中。
在一口氣發(fā)布的Pixel 9系列手機中,谷歌也探索了「AI+手機」的新樣態(tài):Gemini、安卓、Pixel的融合,會孵化出怎樣的端側(cè)AI產(chǎn)品形態(tài)。
現(xiàn)在,憑借AI加持的安卓,谷歌能擊敗蘋果嗎?
谷歌的「Her」,也來了
根據(jù)谷歌介紹,Gemini Live是一款全新的移動對話體驗。
如果我們想要頭腦風(fēng)暴一下,根據(jù)自己的技能和學(xué)歷能找到什么樣的工作,Gemini可以立刻跟我們實時對話。
這個感覺,就仿佛口袋里有了一個隨時可以聊天的貼心助手。
而且同OpenAI一樣,谷歌的語音功能,同樣可以讓用戶以自然的對話語言和它交流,它的回應(yīng)也用的是真人般的聲音和節(jié)奏。
請聽下面這個音頻,幾種男聲和女聲的音色都很自然。
為了讓我們擁有最自然的體驗,谷歌一口氣推出了10種聲音,我們可以隨心選擇自己最喜歡的語調(diào)和風(fēng)格。
另外,Gemini Live還支持免提功能。即使Gemini應(yīng)用程序在后臺,或者手機正在鎖定,我們依然可以和它對話,就仿佛在普通的電話中一樣。
還有,我們可以隨時打斷它、更改話題——看著很眼熟對吧?沒錯,OpenAI的語音能做的,它都有。
五月份OpenAI驚艷全場的高級語音功能「Her」,如今依舊在鴿,上個月底也只是選擇性地向一小部分Alpha測試參與者開放。
在速度上,谷歌明顯吊打了OpenAI。
現(xiàn)在只要花每月19.99美元,就可以在安卓設(shè)備上使用Gemini Live了,只要進入谷歌Gemini應(yīng)用程序即可。
目前開放的是英語版本,而iOS版本和更多語言的支持,還會在未來幾周內(nèi)推出。
另一方面,在用戶規(guī)模上,谷歌的高級語音模式也會接觸比OpenAI更廣泛的潛在用戶。
要知道,如今全世界有超過30億的安卓用戶,和22億的iOS用戶。
而OpenAI的語音功能鴿了的部分原因,恐怕是跟紅隊測試中AI的異常表現(xiàn)有關(guān)。
它的行為令人不安,甚至存在潛在的危險。而未經(jīng)同意模仿用戶的聲音,還有可能被用于欺詐等惡意目的。
這些安全問題,谷歌就完全解決了嗎?目前沒人知道,但很明顯——不想屈居人后的谷歌,決定這次也豁出去一把。
但翻了兩次車
唯一不足的是,Gemini Live現(xiàn)場演示,出現(xiàn)了一些小插曲。
谷歌高管Dave Citron在展示Gemini在安卓新機連接谷歌日歷、任務(wù)和Keep的新功能時,沒想到接連翻車兩次。
他先用手機拍攝了一張Sabrina Carpenter在舊金山舉行時裝秀宣傳海報,然后問道Gemini,「查看我的日程,看看是否有空參加Sabrina Carpenter的時裝秀」。
Gemini第一次回復(fù)中,卻說這里出錯了,再嘗試一次。
第二次重復(fù)嘗試剛剛步驟時,Gemini依舊沒有答復(fù)。
直到第三次(換了一個設(shè)備),終于給出了結(jié)果,現(xiàn)場一陣歡呼。
重新定義AI助手
在這次演講中,谷歌表示:通過Gemini,他們重新構(gòu)想了個人助手對人類真正有用的意義——更自然、對話式、更直觀。
連接更多應(yīng)用程序
一個好的AI助手,最重要的關(guān)鍵詞是什么?
連接。
Gemini就是如此,它會跟我們使用的所有谷歌應(yīng)用程序和工具集成,完成大大小小的任務(wù)。
而跟其他助手不同的是,我們無需耗費功夫,在應(yīng)用程序和服務(wù)之間切換。
而在未來幾周,谷歌還會推出全新的擴展功能,包括Keep、Tasks、Utilities和YouTube Music。
圖中有什么食物?問一嘴Gemini,它全給你列出來
假設(shè)現(xiàn)在我們要辦一場晚宴,Gemini就可以發(fā)揮它的百般武藝了——
從Gmail中,它可以找出某人發(fā)給我們的千層面食譜,然后把配料添加到Keep的購物清單中;然后,在讓Gemini為我們攢一份歌單,要求是「讓我想起90年代末」。
在谷歌即將推出的日歷擴展功能中,我們可以直接拍一張音樂會的海報,問Gemini:我當天有空不?如果答案是yes,還可以讓Gemini幫我們設(shè)置提醒,準備搶票。
讓Gemini給教授寫個郵件請個假,請求deadline再延期幾天,動動嘴就行了
一鍵召喚Gemini
現(xiàn)在,Gemini已經(jīng)完全融入了安卓的用戶體驗。
只有在安卓系統(tǒng)中,我們才能體會到如此絲滑的上下文感知功能。
只要拿著一部安卓手機,無論我們想要做什么,Gemini都能在需要時應(yīng)聲出現(xiàn)。
長按電源按鈕,或者說一聲「Hey Google」,就能召喚出Gemini了!
點擊「詢問此屏幕」,就可以獲取有關(guān)屏幕內(nèi)容的幫助。
如果正在使用YouTube,可以向Gemini詢問有關(guān)視頻的問題。
比如,假設(shè)我們正在為出國旅行做攻略,剛看完一個旅游視頻博客,點擊「詢問此視頻」,讓它列出視頻中出現(xiàn)的所有餐館、添加到谷歌地圖中,Gemini就會一一照做。
再看下圖,Gemini生成的圖像,可以直接拖放到Gmail和Google Messages中。
相信你已經(jīng)體會到,這套操作中的妙處了——
因為Gemini為安卓構(gòu)建了深度集成,AI能做的就不僅僅是讀取屏幕內(nèi)容,還能與我們已經(jīng)在使用的許多應(yīng)用進行交互。
Gemini 1.5 Flash,加持AI助手
不過,還有兩個問題:能更好地解釋自然語言和處理任務(wù)的LLM,往往意味著即使完成簡單任務(wù),也需要更多的時間。
而AI如果表現(xiàn)出意想不到的行為,或提供不準確的信息,也很讓人頭疼。
為此,谷歌特意引入了新模型——Gemini 1.5 Flash。
它的響應(yīng)更快,回答的質(zhì)量也更高。
在未來幾個月內(nèi),谷歌還會把模型與Google Home、Phone和Messages進行更深層的集成。
谷歌表示,今天我們正式到達了一個拐點,AI助手的有用性,遠遠超過了它們的挑戰(zhàn)。
基于Imagen 3打造,2秒生圖
會上,谷歌還推出了一款全新的AI生圖應(yīng)用——Pixel Studio。
僅需要幾個提示詞,就能生成一幅精美的圖片。
最重要的是,它是一個本地生圖APP,基于Imagen 3打造,2秒之內(nèi)便可生成各種圖像。
同在今天,Imagen 3的技術(shù)報告也出爐了,技術(shù)細節(jié)可參見32頁論文。
論文地址:https://arxiv.org/pdf/2408.07009
首款A(yù)I手機,每月要氪20刀
所有這些AI能力,谷歌全都植入到了最新手機硬件之中。
現(xiàn)場,谷歌一共發(fā)布了四款A(yù)I手機——Pixel 9、Pixel9 Pro、Pixel9 Pro XL,以及二代折疊屏Pixel 9 Pro Fold。
在Pixel 9系列新機上,你一定不能錯過的,就是AI加持的拍照能力。
谷歌表示,圖像處理算法——HDR+pipeline,已完全重建,可以讓拍攝的照片有更好的對比度、陰影、曝光、銳化、色彩等。
以下是Pixel 9系手機新增的AI圖像編輯能力:
Add Me
你是否常常遇到,家庭聚會、團建、家人旅行時,擔(dān)起了拍照的重擔(dān),然而照片中唯獨少了自己。
不過,以后就不用擔(dān)心了。
谷歌「加我一個」(Add Me)功能,就能彌補你的遺憾。
首先,需要拍攝一張團體照。然后,負責(zé)拍照的人與照片中的人交互位置,拍攝一張「攝影師」在內(nèi)的照片。
這時,Pixel使用實時AR技術(shù),引導(dǎo)第二個拍照的人去構(gòu)圖,讓其與第一張照片構(gòu)圖相匹配。
最后,然后,Pixel將兩張圖像合并,確保每個人都出現(xiàn)在同一張照片中,包括「攝影師」在內(nèi)。
Reimagine
另一個Reimagine功能,便很好理解了。
這時Magic Editor編輯器中的一項能力,直接在文本框中描述你想要的效果。
AI即可讓你的想法變成現(xiàn)實。
比如,修改照片中的背景,火山、日落、極光各種場景,隨意發(fā)揮。
Auto Frame
自動構(gòu)圖是Magic Editor中的一項新功能,可以為已拍攝好的照片重新構(gòu)圖。
甚至,它可以為你的照片擴圖,通過AI生成空白區(qū)域的背景。
Zoom Enhance
Zoom Enhance可以自動填充像素之間空隙,并精準預(yù)測細節(jié),實現(xiàn)高質(zhì)量的拍攝放大效果。
AI能力的實現(xiàn),離不開Pixel 9系列背后強大的芯片。
最強AI處理器:Google Tensor G4
新款手機采用了谷歌全新設(shè)計的處理器——Google Tensor G4。
谷歌稱,「Tensor G4芯片是我們迄今速度最快、功能最強大的芯片」。
在去年Tensor G3的基礎(chǔ)上,谷歌聯(lián)手三星打造了基于4nm工藝的半定制處理器Tensor G4,利用了Arm提供的CPU和GPU核心。
同時,它還用上了谷歌自家的模塊,來增強AI、攝影和安全功能。
據(jù)悉,相比于前兩代,G4在網(wǎng)頁瀏覽速度提高了20%,APP啟動提速17%,應(yīng)用日常使用電池功耗提升多達20%。
CPU方面,G4配備了1個運行在3.1GHz的Cortex-X4核心、3個運行在2.6GHz的Cortex-A720核心,以及4個運行在 1.95GHz 的 Cortex-A520核心。
相比之下,Tensor G3則是1個2.91GHz的Cortex-X3核心,4個2.37GHz的Cortex-A715核心,以及4個1.70GHz的Cortex-A510核心。
盡管Tensor G4少了一個核心,但所有核心的時鐘頻率都提高了200MHz到300MHz。
根據(jù)泄露的Geekbench跑分,Tensor G4在單核測試中得分為2,005,多核測試為4,835。相比之下,Tensor G3在單核測試中的得分為1,751,多核測試為4,208。均有14%的性能差異。
至于GPU,Tensor G4采用了與去年Tensor G3相同的ARM Mali-G715 GPU,但頻率從890MHz提升到了940MHz。這意味著Tensor G4的GPU性能應(yīng)該略優(yōu)于Tensor G3。
加持全新AI功能
AI當然是Tensor項目背后的主要推動力之一。
重新設(shè)計的Tensor G4,便是為了賦能最新Gemini和計算攝影功能。
可以本地運行的Gemini Nano模型(最大版本為35億參數(shù)),能夠以45 token/s的速度輸出內(nèi)容。
雖然,谷歌的TPU已經(jīng)很快,但在token處理方面,并沒有領(lǐng)先于競爭對手。
相較之下,高通Snapdragon 8 Gen 3運行100億參數(shù)時,每秒可輸出15個token;聯(lián)發(fā)科Dimensity 9300能以每秒 20個token運行70億參數(shù)。
不過,Pixel 9系列的獨特AI功能可能不完全依賴于新芯片,而是其他因素的結(jié)果。
AI還需要大量的內(nèi)存,并且需要訪問快速且龐大的內(nèi)存池來運行更復(fù)雜的模型。
Pixel 9配備12GB RAM,Pro系列升級到16GB。
谷歌表示,為了獲得更流暢的AI體驗,這是它首次劃分出「一部分專用RAM來在設(shè)備上運行Gemini」,防止其他應(yīng)用使用該內(nèi)存。
不過,谷歌沒有透露具體劃分了多少,給AI任務(wù)使用。
盡管芯片本身在AI方面沒有重大升級,但通過RAM管理的優(yōu)化,仍可能帶來更好的AI體驗和新功能。