十年市場(chǎng)規(guī)模1.3萬(wàn)億美元,「模力時(shí)代」已來(lái)
大模型風(fēng)暴刮了大半年,AIGC市場(chǎng)開(kāi)始起了新的變化:
酷炫的技術(shù)Demo,正在被完整的產(chǎn)品體驗(yàn)所取代。
比如,OpenAI最新AI繪畫模型DALL· E 3剛一登場(chǎng),就跟ChatGPT強(qiáng)強(qiáng)聯(lián)合,成為ChatGPT Plus里最令人期待的新生產(chǎn)力工具。
△DALL·E3準(zhǔn)確還原文字輸入的每一處細(xì)節(jié)
又比如,微軟基于GPT-4打造的Copilot,已經(jīng)全線入駐Win11,正式取代Cortana成為操作系統(tǒng)里的新一代AI助手。
△使用Copilot一鍵總結(jié)博客文章
再比如,國(guó)產(chǎn)汽車如極越01,已經(jīng)在座艙中正式搭載大模型,而且是完全離線的那種……
如果說(shuō),「大模型重塑一切」在2023年的3月份還只是一句技術(shù)先行者的樂(lè)觀預(yù)言,到了今天,仍舊激烈的百模大戰(zhàn)、以及實(shí)際的應(yīng)用進(jìn)展,已經(jīng)讓這一觀點(diǎn)在行業(yè)內(nèi)外激發(fā)越來(lái)越多的共鳴。
換言之,大到整個(gè)互聯(lián)網(wǎng)的生產(chǎn)方式,小到每一輛汽車中的智能座艙,一個(gè)以大模型為技術(shù)力底座、驅(qū)動(dòng)千行百業(yè)自我革新的時(shí)代正在來(lái)臨。
按照蒸汽時(shí)代、電力時(shí)代的命名方式,或許能將之命名為「模力時(shí)代」。
而在「模力時(shí)代」中,最受關(guān)注的場(chǎng)景之一,就是智能終端。
原因很簡(jiǎn)單:以智能手機(jī)、PC、智能汽車甚至XR設(shè)備等為代表的智能終端產(chǎn)業(yè),是與當(dāng)代人生活最緊密相關(guān)的科技產(chǎn)業(yè)之一,自然也就成為了檢驗(yàn)前沿技術(shù)成熟度的一個(gè)金標(biāo)準(zhǔn)。
所以,當(dāng)技術(shù)熱潮帶來(lái)的第一波炒作逐漸冷靜,以智能終端場(chǎng)景為一個(gè)錨點(diǎn),「模力時(shí)代」新的機(jī)遇和挑戰(zhàn)應(yīng)該如何去看待和解讀?
現(xiàn)在,是時(shí)候掰開(kāi)揉碎,好好梳理一番了。
智能終端,大模型新戰(zhàn)場(chǎng)
在具體分析挑戰(zhàn)和機(jī)遇之前,還是先回到一個(gè)本質(zhì)的問(wèn)題上:大模型為代表的生成式AI為何會(huì)如此火爆,甚至被認(rèn)為是“第四次工業(yè)革命”?
針對(duì)這一現(xiàn)象,已經(jīng)有不少機(jī)構(gòu)在進(jìn)行研究,試圖預(yù)測(cè)或總結(jié)生成式AI在不同場(chǎng)景下的發(fā)展規(guī)律,如紅杉資本的《Generative AI: A Creative New World》。
在這其中,也有不少行業(yè)頭部公司,基于自身經(jīng)驗(yàn)分析了生成式AI在特定行業(yè)中的落地場(chǎng)景和潛在變革方向。
如終端側(cè)AI代表玩家高通,就在前段時(shí)間發(fā)布了關(guān)于生成式AI發(fā)展現(xiàn)狀和趨勢(shì)的白皮書《混合AI是AI的未來(lái)》。
從中,或許能解讀出生成式AI在行業(yè)中火爆的三大原因。
首先,是技術(shù)本身足夠硬核。
無(wú)論是智能涌現(xiàn)的大模型,還是生成質(zhì)量以假亂真的AI繪畫,無(wú)不是用效果說(shuō)話,實(shí)打?qū)嵲趲缀跛信c文字、圖像、視頻和自動(dòng)化相關(guān)的工作領(lǐng)域,展現(xiàn)出了顛覆傳統(tǒng)工作流的驚人能力。
其次,是潛在落地場(chǎng)景豐富。大模型所帶來(lái)的AI代際式的突破,從一開(kāi)始就帶給了人們無(wú)窮的想象空間:最早的一批體驗(yàn)者,很快就感知到了生成式AI給工作帶來(lái)的助益。
用戶側(cè)龐大的需求,從ChatGPT等代表性應(yīng)用的用戶增速,就可見(jiàn)一斑。
△ChatGPT打破熱門應(yīng)用注冊(cè)用戶破億速度紀(jì)錄,圖源紅杉資本
從最開(kāi)始互聯(lián)網(wǎng)的搜索、編程、辦公,到現(xiàn)在涌現(xiàn)的文旅、法律、醫(yī)藥、工業(yè)、交通等等場(chǎng)景應(yīng)用,乘生成式AI之風(fēng)而起的,遠(yuǎn)不止能夠提供基礎(chǔ)大模型的公司,更是有一大批初創(chuàng)企業(yè)正順勢(shì)繁榮生長(zhǎng)。
有不少業(yè)內(nèi)專家認(rèn)為:對(duì)于創(chuàng)業(yè)者而言,大模型所帶來(lái)的應(yīng)用層的機(jī)會(huì)更大。
底層有技術(shù)的代際式突破,上層有應(yīng)用需求的蓬勃爆發(fā),生態(tài)效應(yīng)由此被激發(fā)。
根據(jù)Bloomberg Intelligence預(yù)測(cè),到2032年生成式AI市場(chǎng)規(guī)模將從400億美元爆炸式增到1.3萬(wàn)億美元,廣泛覆蓋生態(tài)鏈的各個(gè)參與方,包括基礎(chǔ)設(shè)施、基礎(chǔ)模型、開(kāi)發(fā)者工具、應(yīng)用產(chǎn)品、終端產(chǎn)品等等。
這種生態(tài)鏈的形成,推動(dòng)了行業(yè)新的變革,有望讓AI進(jìn)一步成為底層核心生產(chǎn)力。
基于這樣的背景,我們?cè)賮?lái)看智能產(chǎn)業(yè)當(dāng)下正在發(fā)生的事情。
一方面,以大模型為代表的AIGC應(yīng)用風(fēng)暴,正在以天為單位的迭代節(jié)奏中迅速從云端走向終端。
ChatGPT就率先在移動(dòng)端更新了“視聽(tīng)說(shuō)”的多模態(tài)功能,用戶們拍照上傳,就能針對(duì)照片內(nèi)容與ChatGPT進(jìn)行對(duì)話。
比如,“如何調(diào)整自行車座椅高度”:
△和GPT-4圖文對(duì)話,秒給5點(diǎn)建議
高通也快速實(shí)現(xiàn)了在終端側(cè)運(yùn)行十幾億參數(shù)的Stable Diffusion和ControlNet大模型,在手機(jī)上生成高質(zhì)量AI圖像只需十幾秒。
不少手機(jī)廠商也已經(jīng)宣布,要為自家語(yǔ)音助手裝上大模型這個(gè)“大腦”。
還不僅僅是手機(jī)。
在上海車展、成都車展、慕尼黑車展等等國(guó)內(nèi)外大型展會(huì)上,基礎(chǔ)模型廠商和車廠的合作越來(lái)越常見(jiàn),大模型“上車”已然成為智能座艙領(lǐng)域新的競(jìng)爭(zhēng)點(diǎn)。
△一句話就能讓車載大模型在APP里加購(gòu)食材,回家就能做上飯
另一方面,應(yīng)用的爆發(fā)加劇了算力供不應(yīng)求的情況。
可以預(yù)見(jiàn)的是,模型的推理成本將會(huì)隨著日活用戶數(shù)量及其使用頻率的增加而增加,僅僅只依靠云端算力,是不足以快速推進(jìn)生成式AI規(guī)?;?。
從各行各業(yè)都在提升對(duì)終端側(cè)AI算力的重視程度,也能看出這一點(diǎn)。
例如終端側(cè)AI玩家高通,針對(duì)PC端芯片性能提升發(fā)布了新一代PC計(jì)算平臺(tái),采用高通自研的Oryon CPU,尤其搭載的NPU將面向生成式AI提供更強(qiáng)大的性能,被命名為驍龍X系列平臺(tái)。
預(yù)計(jì)會(huì)在2023驍龍峰會(huì)上,這一新的計(jì)算平臺(tái)就會(huì)發(fā)布。
顯然,無(wú)論從應(yīng)用還是算力來(lái)看,智能終端都已經(jīng)成為AIGC落地潛力最大的場(chǎng)景之一。
AIGC潮涌下的暗礁
事物通常具有兩面性,大模型從快速發(fā)展到落地亦是如此。
當(dāng)生成式AI一路狂飆到今天,智能終端產(chǎn)業(yè)巨大潛力下的現(xiàn)實(shí)瓶頸,已經(jīng)浮出水面。
最大的掣肘之一,是最底層的硬件。
正如紅杉兩位投資人Sonya Huang和Pat Grady最新一篇生成式AI分析文章《Generative AI’s Act Two》中所提到的,AIGC發(fā)展得很快,然而預(yù)料之中的瓶頸不在于客戶需求,而在于供應(yīng)端的算力。
這里的算力,主要指AI和機(jī)器學(xué)習(xí)硬件加速器,從部署場(chǎng)景來(lái)看又可以被分為五大類:
數(shù)據(jù)中心級(jí)系統(tǒng)、服務(wù)器級(jí)加速器、輔助駕駛&自動(dòng)駕駛場(chǎng)景下的加速器、邊緣計(jì)算和超低功耗加速器。
△5類AI加速器,圖源MIT論文「AI and ML Accelerator Survey and Trends」
隨著ChatGPT爆火,大模型帶動(dòng)AIGC現(xiàn)象級(jí)出圈,使得數(shù)據(jù)中心、服務(wù)器級(jí)處理器等“云端算力”短期受到大量關(guān)注,甚至出現(xiàn)供不應(yīng)求的情況。
然而,隨著生成式AI迎來(lái)第二階段,關(guān)于算力的一些問(wèn)題也日漸凸顯。
首先也是最大的問(wèn)題,在于成本。如高通《混合AI是AI的未來(lái)》白皮書所言,如今大半年過(guò)去,隨著大模型從技術(shù)追逐轉(zhuǎn)向應(yīng)用落地,各公司的基礎(chǔ)模型訓(xùn)練逐漸塵埃落定,算力的大部頭落到大模型的推理上。
短期內(nèi)推理成本還可以接受,但隨著大模型的APP越來(lái)越多、應(yīng)用場(chǎng)景越來(lái)越廣泛,在服務(wù)器等加速器上推理的成本也會(huì)急劇增加,最終導(dǎo)致調(diào)用大模型的成本比訓(xùn)練大模型本身還高。
換言之,大模型進(jìn)入第二階段后,推理對(duì)算力的長(zhǎng)期需求將會(huì)遠(yuǎn)遠(yuǎn)高于單次訓(xùn)練,僅僅依靠數(shù)據(jù)中心和服務(wù)器級(jí)處理器組成的“云端算力”,完全不足以將推理打到用戶能夠接受的成本。
據(jù)高通在白皮書中統(tǒng)計(jì),以加持大模型的搜索引擎為例,每一次搜索查詢的成本,可以達(dá)到傳統(tǒng)方法的10倍,每年光是在這方面的開(kāi)銷就可能增加數(shù)十億美元。
這注定會(huì)成為大模型落地的關(guān)鍵掣肘。
隨之而來(lái)的,還有時(shí)延、隱私和個(gè)性化問(wèn)題。高通在《混合AI是AI的未來(lái)》中也提到,大模型直接部署在云端,除了用戶量激增帶來(lái)的服務(wù)器計(jì)算量不夠,需要“排隊(duì)使用”等bug,還勢(shì)必需要解決用戶隱私和個(gè)性化問(wèn)題。
如果用戶不希望上傳數(shù)據(jù)到云端,大模型的使用場(chǎng)景如辦公、智能助手等,就會(huì)受到不少限制,而這些場(chǎng)景多數(shù)分布在終端側(cè);而如果需要進(jìn)一步追求更好的效果,如定制大模型為己用,更是需要直接將個(gè)人信息用于大模型訓(xùn)練。
種種因素之下,在推理上能發(fā)揮作用的“終端算力”,也就是包括自動(dòng)駕駛&輔助駕駛、邊緣計(jì)算(嵌入式)和超低功耗加速器在內(nèi)的幾大類處理器,開(kāi)始進(jìn)入人們的視野。
終端潛藏著巨大的計(jì)算能力。據(jù)IDC預(yù)測(cè),2025年全球物聯(lián)網(wǎng)設(shè)備數(shù)將超過(guò)400億臺(tái),產(chǎn)生數(shù)據(jù)量接近80ZB,超過(guò)一半的數(shù)據(jù)需要依賴終端或者邊緣的計(jì)算能力進(jìn)行處理。
但終端同樣存在功耗散熱受限導(dǎo)致算力受限等問(wèn)題。
這種情況下,如何利用潛藏在終端的巨大算力,來(lái)突破云端算力發(fā)展面臨的瓶頸,正在成為「模力時(shí)代」下的最普遍的技術(shù)難題之一。
更別提除了算力以外,大模型落地還面臨著算法、數(shù)據(jù)和市場(chǎng)競(jìng)爭(zhēng)等挑戰(zhàn)。
對(duì)于算法而言,基礎(chǔ)模型的架構(gòu)依舊未知。ChatGPT固然已經(jīng)取得了很好的成果,但其堅(jiān)持的技術(shù)路線并非就是下一代模型的架構(gòu)方向。
對(duì)于數(shù)據(jù)而言,其他公司要想取得ChatGPT一般的大模型成果,高質(zhì)量數(shù)據(jù)不可或缺,但《Generative AI’s Act Two》同樣指出,目前應(yīng)用公司生成的數(shù)據(jù)并沒(méi)有創(chuàng)造一個(gè)真正的壁壘。
靠數(shù)據(jù)建立起來(lái)的優(yōu)勢(shì)是脆弱且無(wú)法持續(xù)的,下一代基礎(chǔ)模型很可能就能直接摧毀這堵“城墻”,相比之下,持續(xù)而穩(wěn)定的用戶才能真正構(gòu)建數(shù)據(jù)來(lái)源。
對(duì)于市場(chǎng)而言,目前大模型產(chǎn)品尚未出現(xiàn)多個(gè)殺手級(jí)應(yīng)用,它究竟適配于何種場(chǎng)景仍舊未可知。
在這個(gè)時(shí)代將它用于哪類產(chǎn)品之中、做出哪種應(yīng)用能發(fā)揮它最大的價(jià)值,目前市場(chǎng)還沒(méi)能給出一套能夠沿襲的方法論或標(biāo)準(zhǔn)答案。
針對(duì)這一系列問(wèn)題,業(yè)界目前主要有兩種解題方向。
一種是改善大模型本身的算法,在不改變模型“精華”的基礎(chǔ)上,更好地改進(jìn)它的大小,提升它在更多設(shè)備上的部署能力;
以Transformer算法為例,這類參數(shù)量龐大的模型要想運(yùn)行在端側(cè),勢(shì)必要在結(jié)構(gòu)上做出調(diào)整,因此,這段時(shí)間來(lái)也誕生了不少M(fèi)obileViT等輕量級(jí)算法。
這類算法力圖在結(jié)構(gòu)和參數(shù)量上進(jìn)行不影響輸出效果的改進(jìn),從而以更小的模型在更多設(shè)備上運(yùn)行。
另一種是提升硬件本身的AI算力,讓大模型能更好地在端側(cè)落地。
這類方法又包括硬件上的多核設(shè)計(jì)、以及開(kāi)發(fā)軟件棧等,分別用于提升硬件計(jì)算性能和模型在不同設(shè)備上的通用性,以增強(qiáng)大模型在端側(cè)落地的可能性。
前一種可以稱之為軟件對(duì)硬件的適配,后一種則是硬件廠商順應(yīng)時(shí)代浪潮的改變。但無(wú)論哪個(gè)方向,單獨(dú)押注都存在著被趕超的風(fēng)險(xiǎn)。
「模力時(shí)代」下,技術(shù)日新月異,新的突破可能從軟硬件任何一方出現(xiàn),一旦缺少必要的技術(shù)儲(chǔ)備,就可能落于人后。
所以是否就應(yīng)該盲目跟進(jìn)、或是干脆錯(cuò)過(guò)這波技術(shù)浪潮的發(fā)展?并非如此。
對(duì)于已經(jīng)在互聯(lián)網(wǎng)和AI時(shí)代發(fā)掘出自身價(jià)值的公司而言,或許同樣能基于自身所處場(chǎng)景和技術(shù)積淀,在AIGC時(shí)代開(kāi)掘出第三種解題思路。
以軟硬件技術(shù)兼?zhèn)涞腁I公司高通為例。
面對(duì)大模型技術(shù)在不同場(chǎng)景下的挑戰(zhàn),高通已經(jīng)跳脫出一家芯片公司的身份,早早擁抱了AIGC的浪潮。
除了不斷提升終端側(cè)芯片AI算力的同時(shí),高通也在布局基礎(chǔ)的AI技術(shù),力圖作為一家賦能型企業(yè),加快整個(gè)智能終端產(chǎn)業(yè)擁抱AIGC的速度。
然而,這樣的思路同樣也存在種種可預(yù)見(jiàn)的難點(diǎn):
針對(duì)更大更復(fù)雜的AI模型,如何在確保性能的同時(shí),讓它也能在終端上順利運(yùn)行?
何時(shí)使用不同的模型,才能最好地分配終端與云端的算力?
即使解決了大模型部署在終端側(cè)的問(wèn)題,又應(yīng)該讓哪一部分部署在云端、哪一部分部署在終端,以及如何確保大模型不同部分之間的連接和功能不受影響?
終端側(cè)性能優(yōu)勢(shì)不足的話,又要如何解決?
……
這些問(wèn)題并非出現(xiàn)在某個(gè)單獨(dú)案例中,而是已經(jīng)切實(shí)存在于每個(gè)受AIGC影響的行業(yè)或場(chǎng)景。
無(wú)論是破局方法還是實(shí)際落地經(jīng)驗(yàn),都要從具體的場(chǎng)景和行業(yè)案例中才能摸索出答案。
如何破局「模力時(shí)代」的迷霧?
AIGC進(jìn)入第二階段,大模型日漸普及,行業(yè)也開(kāi)始探尋落地之道。
高通《混合AI是AI的未來(lái)》白皮書中提到,以智能手機(jī)和PC為例,新戰(zhàn)場(chǎng)智能終端產(chǎn)業(yè),已經(jīng)有不少AIGC的落地場(chǎng)景的案例。
目前,已經(jīng)有公司將較小的大模型部署到終端側(cè),用于處理更加個(gè)性化的問(wèn)題,包括查找郵件、生成回復(fù)消息、修改日歷事件和一鍵導(dǎo)航等。
像是“預(yù)定喜歡的餐廳座位”,就可以基于大模型,根據(jù)用戶數(shù)據(jù)分析喜歡的餐廳和空閑的日程表,給出安排推薦,并將結(jié)果加入日歷中。
高通認(rèn)為,由于終端部署的大模型參數(shù)量受限、且不聯(lián)網(wǎng),因此回答時(shí)可能出現(xiàn)“AI幻覺(jué)”,這時(shí)候就能基于編排器(orchestrator)技術(shù),在大模型缺乏信息時(shí)設(shè)置護(hù)欄,防止上述問(wèn)題出現(xiàn)。
如果對(duì)于大模型生成的內(nèi)容不滿意,還能一鍵將問(wèn)題發(fā)送到云端執(zhí)行,再將回答效果更好的大模型生成結(jié)果回饋到終端側(cè)。
這樣一來(lái),既能降低大模型在云端運(yùn)行的算力壓力,又能確保大模型在最大程度上保障用戶隱私的同時(shí),實(shí)現(xiàn)個(gè)性化使用。
至于終端側(cè)算力、算法等本身需要突破的技術(shù)瓶頸,也已經(jīng)有玩家研究出了一些“破局之道”。
高通在白皮書中以前段時(shí)間大火的投機(jī)采樣(Speculative Decoding)為例,介紹了一類當(dāng)前已被廣泛應(yīng)用的新技術(shù)。
這是谷歌和DeepMind同時(shí)發(fā)現(xiàn)的一種加速大模型推理的方法,可以應(yīng)用一個(gè)較小的大模型,來(lái)加速大模型的生成速度。
簡(jiǎn)單來(lái)說(shuō),就是訓(xùn)練一個(gè)更小的模型,給大模型提前生成一批“候選詞”,相比于讓大模型自己“思考”生成,直接做“選擇”就好。
由于小模型生成速度比大模型快好幾倍,一旦大模型覺(jué)得小模型已有的詞可用,就直接拿來(lái),不用自己再緩慢生成一遍。
這種方法,主要利用了相比計(jì)算量的增加,大模型推理速度更容易受到內(nèi)存帶寬影響的特性。
大模型由于參數(shù)量巨大、遠(yuǎn)超緩存容量,推理時(shí)相比計(jì)算硬件性能,更容易受內(nèi)存帶寬限制。例如GPT-3每生成一個(gè)單詞,都需要讀取一次全部1750億參數(shù),這個(gè)過(guò)程中在等待來(lái)自DRAM的內(nèi)存數(shù)據(jù)時(shí),計(jì)算硬件往往處于閑置狀態(tài)。
換言之,模型做批量推理(batch inference)時(shí),一次處理100個(gè)tokens和一個(gè)tokens時(shí)間上區(qū)別不大。
因此,利用投機(jī)采樣,不僅能輕松跑幾百億參數(shù)的大模型,還能將部分算力放到終端側(cè)進(jìn)行,在確保推理速度的同時(shí)也能保留大模型的生成效果。
……
但無(wú)論是場(chǎng)景還是技術(shù),最終都要找到彼此的適配點(diǎn),才能產(chǎn)生實(shí)質(zhì)的應(yīng)用價(jià)值,正如軟件和硬件的關(guān)系密不可分一樣:
像生成式AI這樣的軟件算法突破,在尋找智能終端落地場(chǎng)景時(shí),終究必然會(huì)面臨與高通等移動(dòng)端AI硬件結(jié)合的技術(shù)需求。
包括智能手機(jī)、PC、XR、汽車和物聯(lián)網(wǎng)在內(nèi),智能終端產(chǎn)業(yè)下的各細(xì)分領(lǐng)域,如何基于AIGC熱點(diǎn)找到自身的打法和價(jià)值?
各企業(yè)又要如何抓住這一次時(shí)代浪潮,來(lái)激發(fā)出這一類技術(shù)的應(yīng)用價(jià)值,不錯(cuò)過(guò)全行業(yè)的生產(chǎn)力變革機(jī)遇?
量子位將基于長(zhǎng)期的行業(yè)觀察和對(duì)未來(lái)技術(shù)發(fā)展方向的深入思考,在「模力時(shí)代」這個(gè)專欄中,以當(dāng)下大模型引領(lǐng)的行業(yè)熱點(diǎn)為話題,從底層技術(shù)到上層應(yīng)用,系統(tǒng)地解答行業(yè)內(nèi)外人士心中對(duì)大語(yǔ)言模型、生成式AI的問(wèn)題或疑惑。
由新熱點(diǎn)引發(fā)的這一系列新問(wèn)題,將在這個(gè)專欄接下來(lái)的更多內(nèi)容中得到更加具體的解答。