編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
AI手機還能怎么卷?
今天vivo在開發(fā)者大會上公布的答案,絕對能讓人眼前一亮!
通過融合用戶記憶、端側(cè)模型、和主動執(zhí)行能力,vivo搞出了PhoneGPT,聲稱要做AI助理界的自動駕駛!
就是說PhoneGPT,不再滿足于簡單的任務(wù)執(zhí)行,而是可以自己決策,進行任務(wù)的拆解,并通過屏幕識別等技術(shù),最終做出動作、完成任務(wù)。
這么說可能還是有點抽象,還是來看vivo的藍心小V訂餐視頻更直觀!
在用戶給小V發(fā)出用餐需求之后,小V自動地調(diào)起相關(guān)APP,搜索到了餐廳的電話,還自己撥出電話和店員完成了預(yù)訂!整個執(zhí)行過程,包括和真人的對話都非常絲滑。
除了手機智能,藍廠家的硬科技也絲毫不輸,自研的藍心大模型性能在線。在端側(cè)方面,提出“30億參數(shù)量級是端側(cè)黃金尺寸”的論斷,發(fā)布了新的藍心3B,在排行榜擊敗了Gemma-2和Phi-3-mini等小模型中的佼佼者。
讓人不得不感嘆一句,原來vivo還是模型界的隱藏大佬。
一個溫知識,vivo在國產(chǎn)手機銷量王座上已經(jīng)穩(wěn)坐三年之久,而使用vivo AI的用戶也在全球突破了5億。
圖片
想了解AI手機的未來,vivo和藍心智能的AI戰(zhàn)略,絕對值得一看。
一、PhoneGPT:AI不僅要“執(zhí)行”更要“懂你”
vivo藍心智能的核心看點,就是他們把大模型與操作系統(tǒng)實現(xiàn)了深度融合。
vivo副總裁周圍說,這樣的實現(xiàn)效果,是大模型可以理解用戶個人的情景和偏好,進而讓系統(tǒng)主動提供個性化的服務(wù)。
圖片
具體來說,AI重構(gòu)后的手機系統(tǒng),帶來了三個體驗的革命,分別是交互體驗、服務(wù)體驗和鏈接體驗。
1.交互體驗
不少人抱怨過蘋果Siri的僵化和機械,在AI 2.0之前,我們的手機助手只能做一些簡單的執(zhí)行工作。
而有了大模型,AI助手可以真正在文字、語音、圖像甚至行為層面,全方面多角度的做意圖理解,實現(xiàn)所謂的“執(zhí)行且懂你”。
在交互體驗方面,周圍舉的例子就是語音交互!作為我們?nèi)粘W疃嗍褂玫?、也是最直觀的交互形式,vivo能做出什么花樣呢?
圖片
小V的方言對話,讓用戶不再需要切換“川普”、“粵普”,而小V也會用方言來回答,AI和用戶的距離,這么一下就拉近了。
2.服務(wù)體驗
在服務(wù)的提升上,我覺得vivo真是做到了那句被說爛了的話,“所有的功能都值得用AI重做一遍”。
vivo針對電話、短信等基礎(chǔ)功能都做了翻新,例如,電話的內(nèi)容可以轉(zhuǎn)文字也可以進行翻譯,筆記功能可以直接用AI潤色,拍照直接掃描識別等等。
小編覺得,這些設(shè)計好在并不是偽需求,而是實在的用AI幫用戶解決了一些問題。
圖片
既然是開發(fā)者大會,vivo大方宣布將開放平臺化能力,使得第三方應(yīng)用也能接入這些AI黑科技。
圖片
3.鏈接體驗
周圍所說的鏈接體驗,主要講AI時代中,用戶與服務(wù)的關(guān)系變化。
AI確實給服務(wù)注入了活力,現(xiàn)在人和服務(wù)可以雙向奔赴了!在面向開發(fā)者的方面,vivo做了努力,讓APP提供的服務(wù)更好地做分發(fā),找到需要Ta的用戶。
圖片
尤其是針對輕量化、原子化的服務(wù),vivo構(gòu)建了系統(tǒng)級的感知和意圖識別,實現(xiàn)系統(tǒng)主動分發(fā)服務(wù)。
圖片
在面向用戶的方面,vivo提出了一個有趣的概念是“人與設(shè)備的共同記憶”。
聽起來AI更像是一個一直陪伴我們的朋友了,隨著手機使用,AI會不斷擴展對我們的知識圖譜,相當(dāng)于手機系統(tǒng)會“越用越好用”。
這個能實現(xiàn)啥具體功能呢?
圖片
用這個現(xiàn)場的例子,我們一下就悟了。
例如用戶喚起小V說,“幫我找找,去年和小貝在環(huán)球影城的照片,發(fā)給他并祝他生日快樂”。這個例子就很考驗AI,需要智能助手記住用戶的社會關(guān)系以及對方的樣子,還能在相冊找到符合人物、時間、地點條件的照片,并能跨應(yīng)用找到備注為“小貝”的人發(fā)送信息,最后還可以再提供專屬服務(wù)如推薦生日餐廳。
圖片
不過這些東西都交給AI又覺得心里毛毛的,感覺就像有人把我的相冊都翻了一遍。
不過,vivo也很重視安全問題。甚至抗下了巨大的技術(shù)挑戰(zhàn),不僅把通話總結(jié)、文檔概要、本地知識圖譜這種你不想被別人看到的隱私搬進了端側(cè),還貼心地把審核功能也實現(xiàn)端側(cè)完成了。這下可以稍微舒一口氣,放心用AI了。
圖片
然后,既然有了多個智能體,最好就是讓他們配合起來,實現(xiàn)1+1大于2的效果。如果再配上意圖理解,讓這個負(fù)責(zé)調(diào)度的中心也由AI來完成部分工作,在懂人的基礎(chǔ)上,可以進行自主決策。
這一綜合,就實現(xiàn)了我們文章開頭,能提供智能駕駛體驗的phoneGPT!
視頻中的餐廳訂餐,就基于藍心大模型的多模態(tài)功能,在用戶意圖識能主動完成任務(wù),通過屏幕識別,AI自己去操作控件,執(zhí)行每步的操作。
圖片
根據(jù)周圍的透露,phoneGPT的每一步執(zhí)行精確度達到了94%,每一步執(zhí)行只需要極短的2s時間。為了安全,這個功能也會向端側(cè)發(fā)展,并且執(zhí)行效果上還會再進化。
好家伙,AI真·私人助理的時代來了!
二、全新藍心大模型矩陣發(fā)布,藍心3B超Phi-3-mini
從GPT-4o發(fā)布以后,模型的多模態(tài)能力就成為了一個重點。
在新的模型矩陣中,藍心的語音、圖像和多模態(tài)大模型是第一次進行亮相的選手。
圖片
既然是手機廠商,端側(cè)模型肯定是開發(fā)的重中之重。
在此前開發(fā)的1B、7B 、13B端側(cè)模型的基礎(chǔ)上,vivo不斷地去做測試,在綜合考慮了模型效果、性能、內(nèi)存、功耗后,試圖尋找最優(yōu)方案,提出了30億參數(shù)量級是端側(cè)黃金尺寸的論斷。
圖片
在研究指導(dǎo)下,vivo的30億藍心端側(cè)大模型——藍心3B正式推出。相比于去年所推出的7B大模型,藍心3B做到了300%的性能提升,還降低了46%的功耗和63%的內(nèi)存占用。藍心3B的性能強的可怕,做到了每秒80字的極致出詞速度,并且實現(xiàn)450mA的極致低能耗,且只占用1.4GB的內(nèi)存。
圖片
周圍說,藍心3B突破了端側(cè)模型“能力強-消耗低-模型小”的不可能三角,并且在多份榜單上做到行業(yè)領(lǐng)先水平。
圖片
vivo追求做“最懂中國人的大模型”,具體到多模態(tài)大模型方面,他們做了生圖功能的水墨風(fēng)格以及漢字相關(guān)創(chuàng)作的性能提升。
圖片
看這張榜單,能看出vivo在模型能力上是有過硬積累的。就語音那張榜單來看,語音一直是豆包過硬的核心技術(shù),能在語音交互上超過豆包,說明日常的對話任務(wù)基本不在話下了。
圖片
三、寫在最后:最好的AI技術(shù),要在應(yīng)用里跑起來
vivo秀完AI硬實力的“肌肉”后,開始了對自研系統(tǒng)OriginOS 5 的介紹。
就像他們自己所說的那樣:不止要有好的技術(shù),還要能落地到產(chǎn)品的層面上。
于是,我們就看到了vivo在對界面和用戶操作深度思考之上的作品——原子島。
在意圖識別的基礎(chǔ)上,用戶只需要將文本等內(nèi)容復(fù)制或拖動到原子島上,就會自動推薦你想要打開的APP,真正做到解放雙手,讓科技快人一步。
在最初看到原子島三個字的時候,可能很容易認(rèn)為這是對蘋果靈動島的模仿之作。但是坦白的說,前者帶給我的意料之外的驚喜,能看到vivo對AI如何改變交互形態(tài)的思考之深。
vivo的開發(fā)者大會,讓人重新認(rèn)識了這位國產(chǎn)手機的銷量王者,對于AI的戰(zhàn)略構(gòu)想,我們不只有術(shù),還有道。