安卓手機上跑15億參數(shù)大模型,12秒不到就推理完了
早晚會有這一天,但它還是比想象來得早了一些:大模型在手機上運行的預(yù)言被實現(xiàn)了。
圖片
上個月的計算機視覺學(xué)術(shù)頂會 CVPR 上,生成式 AI 成了重要方向,高通會議中展示了一把未來有望成為「主流」的 AI 應(yīng)用:用手機跑大模型 AI 畫圖。
CVPR 是 AI 領(lǐng)域最負盛名的重要會議,我們曾在其中見證過人工智能的幾次重要突破,今年在獲獎和入圍的論文中,既有通用大模型,也有 AI 畫圖的研究,可謂一下進入了生成式 AI 的新時代。
圖片
在 CVPR 2023 上,高通共有八篇論文被主會議收錄,并行的展示覆蓋生成式 AI、計算機視覺、XR 和自動駕駛汽車等領(lǐng)域的理論創(chuàng)新,以及應(yīng)用方向。
在這場最先進技術(shù)的碰撞中,有不少令人期待的未來圖景。
15 億大模型,手機 12 秒跑完
幾個月前,高通就曾在巴塞羅那 MWC 通信展上玩了一把手機跑 Stable Diffusion。此次對于終端側(cè)生成式 AI,高通首先展示了完全在安卓手機上運行 ControlNet 圖像生成圖像模型,并實現(xiàn)了速度「全球最快」。
用時是多少呢?不到 12 秒。要知道,ControlNet 擁有 15 億參數(shù),而二月份高通演示在手機上運行 10 億參數(shù)的 Stable Diffusion,當(dāng)時還花了 15 秒左右。
這讓人不得不感嘆,終端側(cè)的生成式 AI 能力又進化了。
作為一種生成式 AI 繪畫解決方案,ControlNet 被認為是擴散模型中的大殺器,它通過額外輸入控制預(yù)訓(xùn)練大模型如 Stable Diffusion,可以精細地設(shè)定生成圖像的各種細節(jié)。先輸入一張參考圖,然后根據(jù)輸入的 prompt 進行預(yù)處理,就能對生成的圖像進行精準(zhǔn)控制。
此次在高通 AI Research 的展示中,普通安卓手機僅用 11.26 秒便可以運行 ControlNet 生成一張圖片,并且無需訪問任何云端,完全本地化,交互式體驗良好且運行非常高效。下面是一個動圖演示:
圖片
我們知道,AI 畫圖的教程里通常會有對計算機配置的建議,在 ControlNet 上訓(xùn)練需要 16G 顯存的 GPU,而推理用 M1 芯片需要 5 到 10 分鐘,高通卻能讓手機做到效率更高,這是如何實現(xiàn)的呢?
高通此次對 ControlNet 模型架構(gòu)進行了軟硬件全棧式 AI 優(yōu)化,以低功耗、低延遲地實現(xiàn)高質(zhì)量圖像生成。其中用到的關(guān)鍵 AI 工具和軟硬件包括了高通 AI 模型增效工具包(AIMET)、高通 AI 引擎和高通 AI 軟件棧。我們一一來看。
圖片
首先是 AIMET,它是高通創(chuàng)新中心推出的端側(cè) AI 模型效率工具包,能夠提供模型量化和壓縮服務(wù),通過量化感知訓(xùn)練,將浮點運算模型轉(zhuǎn)化為整數(shù)運算模型。此處高通利用 AIMET 及 Qualcomm AI Studio 完成 ControlNet 模型的 INT8 量化壓縮,節(jié)省更多功耗,提升運行效率。
其次是高通 AI 引擎,它是高通終端側(cè) AI 優(yōu)勢的核心,采用異構(gòu)計算機構(gòu),包括高通 Hexagon 處理器、Adreno GPU 和 Kryo CPU。目前高通第二代驍龍 8 搭載了迄今最快、最先進的高通 AI 引擎。ControlNet 正是在第二代驍龍 8 的高通 Hexagon 處理器上,完成了 AI 加速。
還有高通 AI 軟件棧負責(zé)應(yīng)用的構(gòu)建、優(yōu)化和部署。在跑 ControlNet 時,高通 AI 引擎 Direct 框架基于 Hexagon 處理器的硬件架構(gòu)和內(nèi)存層級進行運算排序,提升性能并最小化內(nèi)存溢出,降低運行時延和功耗。
圖片
這么一套集 AI 模型壓縮工具、硬件和軟件框架于一體的全棧式優(yōu)化下來,在手機上十幾秒跑大模型的不可能變成了可能。
接近落地,可以展示
除了給 AI 繪畫做移動版優(yōu)化,高通還在數(shù)字人、神經(jīng)網(wǎng)絡(luò)視頻編解碼等其他技術(shù)方向進一步探索 AI 能力的延展。
在 CVPR 上,利用基于視覺的大語言模型(LLM),高通打造了一個「數(shù)字健身教練」,它能夠與用戶實時互動,像真人教練一樣給予鼓勵,還能糾正并幫助達成自己的健身目標(biāo)。既然是大模型驅(qū)動,AI 教練實現(xiàn)了極強的互動性,看起來健身私教要開始焦慮了。
圖片
在技術(shù)上,數(shù)字健身教練將用戶的運動視頻流交給動作識別模型進行處理,根據(jù)識別的動作提供提示并反饋給大模型。然后健身教練通過一個文本生成語音的數(shù)字化身,將 AI 的答復(fù)反饋回用戶。
得益于大模型的能力,數(shù)字化身能夠?qū)崟r、不間斷地為用戶提供相關(guān)的健身反饋,比如「你的形體看起來棒極了」、「你的雙臂應(yīng)與肩膀同寬」。
現(xiàn)在看起來和 AI 訓(xùn)練就不能偷懶了,它會對用戶的健身互動進行評估,給出你的耐力、強度和形體分?jǐn)?shù),還告訴完成了多少組動作。同時也會給用戶提出相關(guān)建議。
圖片
與此同時,在神經(jīng)網(wǎng)絡(luò)視頻編碼這一技術(shù)方向,高通又實現(xiàn)一個「全球首次」。同樣是在手機端,高通首創(chuàng)了 1080p 的視頻編碼和解碼過程。
對于神經(jīng)網(wǎng)絡(luò)編解碼而言,它可以針對特定視頻需求進行定制,并運行在通用 AI 硬件上。在計算能力有限的終端設(shè)備上實現(xiàn)高分辨率(如 1080p、2k 等),則要借助 AI 算法的創(chuàng)新。
高通全新設(shè)計了高效的神經(jīng)網(wǎng)絡(luò)視頻幀間壓縮架構(gòu),在搭載驍龍芯片的手機設(shè)備上,實現(xiàn)了 1080p 的視頻編解碼,視頻解碼速率也來到了每秒 35 幀上下,并且能夠保留豐富的視覺結(jié)構(gòu)和復(fù)雜動作。
圖片
看起來,移動端生成式 AI、神經(jīng)視覺編碼領(lǐng)域的很多技術(shù)已接近應(yīng)用層,落地的速度追上了 GPT 系列更新的速度。高通在做的事,解決了生成式 AI 面臨的大問題。
生成式 AI 的未來在端側(cè)
我們知道,生成式 AI 有重塑所有行業(yè)的潛力,人工智能正在經(jīng)歷自己的閃耀時刻,問題在于:生成式 AI 雖然更聰明,但也更耗費算力。
有研究表示,每次基于生成式 AI 的網(wǎng)絡(luò)搜索查詢(query),其成本是傳統(tǒng)搜索的 10 倍。全球每天都有超過 100 億次搜索請求,而且,移動端的搜索占比超過了 60%。
除了要買更多 GPU,我們更要考慮的是如何能讓大模型跑在手機上 —— 畢竟大家每天在用的都是端側(cè)設(shè)備。
對此,高通已有一個整體的規(guī)劃。今年 4 月,高通通過介紹「混合 AI」的概念,提出了大模型等 AI 任務(wù)處理在云端和終端共同進行的范式。
所謂混合 AI,是指充分利用邊緣側(cè)終端算力支持生成式 AI 應(yīng)用的方式,相比僅在云端運行的 AI,前者能夠帶來高性能、個性化且更安全的體驗。
在其愿景下,我們根據(jù) AI 模型和查詢需求的復(fù)雜度等因素,選擇不同方式在云端和終端側(cè)之間分配負載:如果模型、提示或生成內(nèi)容的長度小于某個限定值,且精度足夠,推理就可以完全在終端側(cè)進行;如果任務(wù)相對復(fù)雜,則可以部分依靠云端模型;如果需要更多實時內(nèi)容,模型也可以接入互聯(lián)網(wǎng)獲取信息。
圖片
在未來,不同的生成式 AI 用不同分流方式的混合 AI 架構(gòu),AI 也能在此基礎(chǔ)上持續(xù)演進:
- 大量生成式 AI 的應(yīng)用,比如圖像生成或文本創(chuàng)作,需求 AI 能夠進行實時響應(yīng)。在這種任務(wù)上,終端可通過運行不太復(fù)雜的推理完成大部分任務(wù)。
- 在終端設(shè)備充當(dāng)「感知器官」的任務(wù)中,終端負責(zé)初步處理任務(wù),云端運行大模型將生成的內(nèi)容發(fā)回端側(cè),這種操作節(jié)省了算力需求和帶寬。
- 終端和云端的 AI 計算也可以協(xié)同工作來處理 AI 負載。在大模型的工作過程中,每次推理生成的標(biāo)記(token)都需要讀取全部參數(shù)才能完成,使用閑置算力通過共享參數(shù)來推測性并行運行大語言模型,可以提升性能并降低能耗。
最后,混合 AI 還支持模型在終端側(cè)和云端同時運行,也就是在終端側(cè)運行輕量版模型時,在云端并行處理完整模型的多個 token,并在需要時更正終端側(cè)的處理結(jié)果。
混合 AI 覆蓋的邊緣終端包括智能手機、汽車、個人電腦和物聯(lián)網(wǎng)終端設(shè)備,或許會成為未來生成式 AI 應(yīng)用的標(biāo)準(zhǔn)。
但如何做到混合 AI ?對此,必須對 AI 的全棧進行優(yōu)化。在生成式 AI 出現(xiàn)以前,高通就在推動 AI 處理向邊緣進行轉(zhuǎn)移。很多的日常功能,都是利用終端側(cè) AI 進行支持的,如暗光拍攝、降噪和人臉解鎖。
如今,高通已構(gòu)建起業(yè)界領(lǐng)先的硬件和軟件解決方案,從端側(cè)芯片上的高通 AI 引擎,云端專用芯片,到將其統(tǒng)一在一起的異構(gòu)計算機制,在運行 AI 負載時,高通現(xiàn)在已可以充分利用硬件和軟件來加速終端側(cè) AI 的推理速度。
而在部署時,利用高通 AI 軟件棧,開發(fā)者可以充分發(fā)揮高通 AI 引擎性能,并實現(xiàn)多端部署,模型構(gòu)建一次,就可以應(yīng)用到多種不同硬件上。
圖片
在高通的業(yè)務(wù)中,低功耗、高性能的 AI 已經(jīng)形成了橫跨智能手機、汽車、XR、PC 和企業(yè)級 AI 等領(lǐng)域的龐大終端 AI 生態(tài)系統(tǒng)。從拍照,語音助手,到增強 5G 信號的黑科技,持續(xù)利用先進 AI 技術(shù),讓這家公司保持了市場領(lǐng)先的地位。
在這背后,是高通 AI Research 對 AI 研究超過 15 年的持續(xù)投入。高通一直致力于 AI 基礎(chǔ)技術(shù)的研究,從感知、推理再到認知,我們見證了終端 AI 技術(shù)的不斷拓展。而在這個過程中,由高通發(fā)表的 AI 論文也逐漸影響了整個行業(yè)。
圖片
僅在生成式 AI 上,最初高通探索了生成式模型的壓縮方式,并進一步提升了生成痕跡(Artifact)的感知效果,其利用 VAE 技術(shù)創(chuàng)建的視頻和語音編解碼器,將模型規(guī)??刂圃诹?1 億參數(shù)以下。高通還將生成式 AI 理念延伸到無線領(lǐng)域來替代信道模型,提高了手機通信的效率。
CVPR 2023 上展示的技術(shù),是高通生成式 AI 布局的重要一環(huán)。隨著端側(cè) AI 計算能力的持續(xù)優(yōu)化,混合 AI 的潛力將會進一步被釋放。預(yù)計在未來幾個月,高通還要在手機上部署超過 100 億參數(shù)的大模型。
生成式 AI 可以打造全新體驗,變革生產(chǎn)力水平,高通在邊緣側(cè)以低功耗運行生成式 AI 的獨特專長,讓生成式 AI 具有了融入人們?nèi)粘I畹目尚行浴_@些能力將會跟隨全球出貨的數(shù)十億塊芯片,很快進入到人們的手中。
在本周上海舉行的世界人工智能大會 WAIC 上,高通將會有多位高管參與演講,并有望在現(xiàn)場展示移動端運行 Stable Diffusion、ControlNet 等能力,讓來看展的人可以近距離接觸一下未來。