嘉賓丨繆旭
采訪(fǎng)/撰稿丨張潔
編輯丨諾亞
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
有人說(shuō),現(xiàn)在大模型卷不動(dòng)了,要卷就卷AI Agent。那么,事實(shí)真的如此嗎?
AI Agent,顧名思義即智能代理,是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動(dòng)作的智能體。而它作為一個(gè)概念真正走紅,要從去年3月發(fā)布的AutoGPT說(shuō)起。
彼時(shí),AutoGPT項(xiàng)目讓人們發(fā)現(xiàn)——這種技術(shù)可以利用大語(yǔ)言模型,自動(dòng)把一個(gè)大任務(wù)拆分成若干個(gè)小任務(wù),并使用工具完成它們。
區(qū)別于被動(dòng)響應(yīng)用戶(hù)指令的大模型,AI Agent具備自主規(guī)劃和執(zhí)行的能力。于是,自AutoGPT之后,GPT-Engineer、ChatDev、XAgent等項(xiàng)目次第爆發(fā),將大模型推入了新的敘事階段。原本作為“超級(jí)大腦”的大模型有了落地為“全能助手”的潛力。
隨后的一年間,AI創(chuàng)投圈密切關(guān)注相關(guān)創(chuàng)業(yè)公司。國(guó)內(nèi)外大廠(chǎng)也紛紛開(kāi)始聚焦AI Agent的框架、平臺(tái)和應(yīng)用開(kāi)發(fā)。
到目前為止,AI Agent無(wú)疑是火了,但圈里圈外也多多少少都陷入了一種焦灼情緒:大模型還沒(méi)整明白,AI Agent又開(kāi)始了…...
事實(shí)上,Agent目前尚處在在起步階段。一定程度上,AI Agent能力其實(shí)是和大模型相生的,大模型的能力邊界決定了AI Agent的能力邊界。
那么,AI Agent到底有何神奇之處?企業(yè)如果要部署AI Agent,需要做好哪些準(zhǔn)備?它會(huì)成為大模型商業(yè)化的鑰匙嗎?
本期A(yíng)IGC實(shí)戰(zhàn)派特別邀請(qǐng)九章云極DataCanvas AI首席科學(xué)家繆旭,結(jié)合其對(duì)于智能體的行業(yè)觀(guān)察和實(shí)踐總結(jié),就上述議題進(jìn)行逐一探討。
(為了行文表達(dá)的流暢,在不改變?cè)獾那闆r下,對(duì)采訪(fǎng)內(nèi)容做了適當(dāng)?shù)奈谋臼崂恚?/p>
1.AI Agent洞察:飛躍傳統(tǒng)AI,乘大模型東風(fēng)而起
AIGC實(shí)戰(zhàn)派:相較傳統(tǒng)AI,AI Agent有何特別之處?
繆旭:這里的傳統(tǒng)AI,我理解為是針對(duì)特定任務(wù)的人工智能模型、系統(tǒng)或理論,比如計(jì)算機(jī)視覺(jué)中的分類(lèi)任務(wù),回歸模型中的時(shí)間序列預(yù)測(cè),自然語(yǔ)言處理中的命名實(shí)體識(shí)別(NER)等等??梢钥吹剑@類(lèi)AI明顯的特點(diǎn)是專(zhuān)注于特定任務(wù):用途比較專(zhuān)一,訓(xùn)練過(guò)程相對(duì)獨(dú)立。就像一個(gè)一個(gè)煙囪,彼此之間也沒(méi)有什么通用性。這是傳統(tǒng)的任務(wù)導(dǎo)向的AI系統(tǒng)。
而如今AI Agent(或者說(shuō)智能體)的概念,更多強(qiáng)調(diào)的是通用能力??梢哉f(shuō),Agent是隸屬于A(yíng)GI的應(yīng)用體系,其發(fā)展得益于大模型。其一,隨著大語(yǔ)言模型的通用泛化能力的提升,AI Agent也因此進(jìn)入了一個(gè)完全不一樣的發(fā)展圖景。
其二,在多模態(tài)大模型的能力加持下,AI Agent能夠理解視覺(jué)、聽(tīng)覺(jué)和文本信息,獲得更全面的環(huán)境感知能力。有了這些信息之后,Agent的“角色”才會(huì)更加精準(zhǔn)。
其三,Agent其實(shí)有很強(qiáng)的自主性,像人一樣,能夠試錯(cuò)、學(xué)習(xí)和適應(yīng)。犯了錯(cuò)也會(huì)從中學(xué)習(xí),進(jìn)而改進(jìn)其策略。這就是通用人工智能帶來(lái)的好處和變化。
在有了這些能力之后,Agent就可以處理一些更為復(fù)雜的任務(wù),這就在某種程度上超越了單一任務(wù)導(dǎo)向的傳統(tǒng)AI。而且傳統(tǒng)AI系統(tǒng)的“煙囪式”架構(gòu)需要大量代碼集成才能實(shí)現(xiàn)其落地,實(shí)現(xiàn)過(guò)程非常漫長(zhǎng)。如今交由大模型或者Agent框架來(lái)做的話(huà),極大地簡(jiǎn)化了這一過(guò)程,減少了對(duì)編程能力的依賴(lài),使用戶(hù)可以更專(zhuān)注于業(yè)務(wù)本身的落地。所以這也是這波AI Agent帶來(lái)的好處。
AIGC實(shí)戰(zhàn)派:從本質(zhì)上講,AI Agent 與大模型的關(guān)系是什么?其本質(zhì)區(qū)別是什么?
繆旭:本質(zhì)區(qū)別的話(huà),大模型在預(yù)訓(xùn)練階段通常使用自回歸方法,這意味著模型依賴(lài)于已有數(shù)據(jù)的分布來(lái)預(yù)測(cè)下一個(gè)token。這種方法涉及到使用大量的數(shù)據(jù)樣本,這些數(shù)據(jù)樣本來(lái)源于前人的經(jīng)驗(yàn)和實(shí)踐。在自回歸訓(xùn)練中,數(shù)據(jù)被轉(zhuǎn)換成語(yǔ)料,然后分割成token。模型的任務(wù)是預(yù)測(cè)下一個(gè)token。自回歸模型的能力受限于它所訓(xùn)練的數(shù)據(jù)。如果訓(xùn)練數(shù)據(jù)只包含了前人的經(jīng)驗(yàn),那么模型的能力也可能僅限于此,難以超越既有的知識(shí)。
而AI Agent則強(qiáng)調(diào)自主性和適應(yīng)性,它能夠通過(guò)嘗試不同的方法來(lái)探索、試錯(cuò)和學(xué)習(xí),并根據(jù)不同的評(píng)價(jià)(獲得獎(jiǎng)勵(lì)或懲罰)來(lái)優(yōu)化自己的策略。也就是說(shuō),AI Agent通過(guò)結(jié)合強(qiáng)化學(xué)習(xí)等技術(shù)可以實(shí)現(xiàn)自我進(jìn)化,有潛力實(shí)現(xiàn)更加復(fù)雜和高級(jí)的認(rèn)知任務(wù)。
如果從OpenAI的角度來(lái)看,他們實(shí)際上是希望整個(gè)Agent都可以用大模型來(lái)實(shí)現(xiàn)的。我覺(jué)得像GPT 4o即omni版本已經(jīng)非常像Agent的框架了。之前OpenAI 的坊間傳說(shuō)中有關(guān)于Q*算法的種種揣測(cè),實(shí)質(zhì)上它就反映了OpenAI正試圖通過(guò)Q*算法讓大模型本身具備Agent的能力。
AIGC實(shí)戰(zhàn)派:AI Agent會(huì)是實(shí)現(xiàn)AGI的關(guān)鍵鑰匙嗎?
繆旭:(AI Agent如Q*)會(huì)是非常重要的改進(jìn)。就像知名 AI 學(xué)者、圖靈獎(jiǎng)得主 Yann LeCun所說(shuō),他不看好自回歸LLM,自回歸 LLM 受限于前人經(jīng)驗(yàn),對(duì)潛在現(xiàn)實(shí)的了解有限,缺乏常識(shí),沒(méi)有記憶,而且無(wú)法規(guī)劃答案。從這個(gè)層面來(lái)說(shuō),AI Agent憑借其自主決策和自我進(jìn)化的特性的確是更上了一層樓,但它究竟是不是實(shí)現(xiàn)AGI的關(guān)鍵,還有待商榷。
事實(shí)上,從AlphaGo開(kāi)始就遵循了這一學(xué)習(xí)路徑。一開(kāi)始AlphaGo學(xué)習(xí)專(zhuān)業(yè)棋譜,就像自回歸一樣,學(xué)習(xí)前人積累的經(jīng)驗(yàn),后來(lái)開(kāi)始用強(qiáng)化學(xué)習(xí)的方法生成新棋路,通過(guò)自我對(duì)弈來(lái)超越專(zhuān)業(yè)棋手。實(shí)際上這種訓(xùn)練方法也取得了成功。但是本身這個(gè)任務(wù)還是比較像傳統(tǒng)AI,是一個(gè)非常專(zhuān)一的任務(wù)。它的評(píng)價(jià)系統(tǒng)很簡(jiǎn)單,你明確地知道它的輸贏(yíng)規(guī)則。評(píng)判標(biāo)準(zhǔn)是沒(méi)有任何歧義的。
但是放眼AGI的話(huà),它其實(shí)是非常開(kāi)放的。你很難去評(píng)判的原因在于:第一,有很多未知領(lǐng)域,人的知識(shí)邊界實(shí)際上是有很大局限的。在很多事情上無(wú)法判斷最終結(jié)果是好是壞;第二,評(píng)判受主觀(guān)因素影響較大。評(píng)判標(biāo)準(zhǔn)的主觀(guān)性容易導(dǎo)致不同價(jià)值觀(guān)之間的沖突,如果一個(gè)智能體在訓(xùn)練時(shí)無(wú)法兼顧價(jià)值觀(guān)的多樣性,其學(xué)習(xí)結(jié)果往往可能不盡如人意,從而影響其在實(shí)際場(chǎng)景中的應(yīng)用;第三,目前的AI智能體,盡管在某些領(lǐng)域比自回歸方法強(qiáng),但并未完全實(shí)現(xiàn)自主脫離人進(jìn)行自我進(jìn)化的目標(biāo)。因此,從整體來(lái)看,要以智能體作為實(shí)現(xiàn)AGI的必由之路還有相當(dāng)?shù)木嚯x。
2.應(yīng)用與挑戰(zhàn):大模型場(chǎng)景落地,如何掌握關(guān)鍵之鑰
AIGC實(shí)戰(zhàn)派:有人說(shuō),AI Agent可能是大模型在To B場(chǎng)景落地的一個(gè)主要方式,它將會(huì)開(kāi)啟大模型的下半場(chǎng)。您認(rèn)同這一判斷嗎?
繆旭:我不太確定“下半場(chǎng)”的定義。但是我覺(jué)得,下一步,AI Agent會(huì)是比較現(xiàn)實(shí)的一個(gè)爆發(fā)點(diǎn)。正如吳恩達(dá)教授所說(shuō),某些特定問(wèn)題,用Agent的方法去開(kāi)發(fā)比用大語(yǔ)言模型本身得出的結(jié)果要好得多,AI智能體工作流可能比下一代基礎(chǔ)模型帶來(lái)更大的AI進(jìn)展。因?yàn)橛袝r(shí)候你使用的大語(yǔ)言模型可能不是那么強(qiáng),要用這樣的大模型直接出結(jié)果難度會(huì)比較大,但通過(guò)Agent的方法,基于它的適應(yīng)性和試錯(cuò)能力,通過(guò)微調(diào)和不斷學(xué)習(xí),很可能獲得比大語(yǔ)言模型更優(yōu)的解決方案。
比如,要訓(xùn)練一個(gè)像Sora一樣的視頻生成大模型會(huì)非常昂貴,但我之前讀過(guò)關(guān)于Mora的論文,Mora不是一個(gè)單獨(dú)的模型,而是一個(gè)多Agents視頻生成框架,結(jié)合多個(gè)高級(jí)視覺(jué)AI代理,復(fù)現(xiàn)了Sora的通用視頻生成能力。從這個(gè)角度來(lái)說(shuō),我覺(jué)得,落地AI Agent比較現(xiàn)實(shí),也比較經(jīng)濟(jì),有時(shí)候會(huì)更貼合落地場(chǎng)景的需求。
AIGC實(shí)戰(zhàn)派:目前AI Agent發(fā)展現(xiàn)狀如何,有哪些主要的應(yīng)用場(chǎng)景呢?
繆旭:首先,純文本的Agent現(xiàn)在是處于比較卷的狀態(tài)。再者,隨著GPT-4o的出現(xiàn),多模態(tài)大模型越發(fā)受到關(guān)注。尤其是結(jié)合視覺(jué)信息,AI Agent將具備更強(qiáng)的多模態(tài)理解和決策能力,可能觸發(fā)新的應(yīng)用場(chǎng)景。
具體到應(yīng)用領(lǐng)域的話(huà),Tesla的自動(dòng)駕駛是很強(qiáng)且具有未來(lái)感的AI Agent應(yīng)用案例,因?yàn)樗钦嬲诙说蕉说亩嗄B(tài)大模型,從視覺(jué)入口,加之其他傳感器,直接去驅(qū)動(dòng)其駕駛的效應(yīng)器。這與當(dāng)前的基于大語(yǔ)言模型構(gòu)建的智能代理具有相當(dāng)?shù)牟罹唷?/p>
自動(dòng)駕駛要求其Agent具備實(shí)時(shí)決策能力,還要有極強(qiáng)的泛化能力以應(yīng)對(duì)各種復(fù)雜情況。其任務(wù)通常是mission critical,任何小錯(cuò)誤都可能付出巨大代價(jià)。所以Agent必須能夠處理大量corner case,適應(yīng)各種極端狀況。因此,難度很大,挑戰(zhàn)很多,可以說(shuō)Agent在自動(dòng)駕駛乃至駕駛領(lǐng)域有很多落地的想象空間。
另外,還有應(yīng)用較多的領(lǐng)域主要包括知識(shí)管家類(lèi)、智能客服類(lèi)、數(shù)據(jù)分析類(lèi),還有辦公自動(dòng)化等,都有AI Agent發(fā)揮的空間。
AIGC實(shí)戰(zhàn)派:在構(gòu)建AI Agent的過(guò)程中,可能會(huì)遇到哪些方面的挑戰(zhàn)?
繆旭:一方面,AI Agent需要能夠理解和適應(yīng)特定行業(yè)的專(zhuān)業(yè)知識(shí)和業(yè)務(wù)邏輯,這可能需要額外的微調(diào)和訓(xùn)練;另一方面,AI Agent需要提供自然和直觀(guān)的交互方式,以及滿(mǎn)足用戶(hù)需求的體驗(yàn),這可能需要深入理解用戶(hù)行為和偏好。
如果是通用的辦公類(lèi)Agent,那可能會(huì)幫你省下不少時(shí)間,但是并不會(huì)帶給你特別多的其他信息。但如果是構(gòu)建非通用的、專(zhuān)業(yè)化的AI Agent,比如法律類(lèi)的Agent,那你就必須具備非常強(qiáng)的法律知識(shí)。這里實(shí)際上會(huì)涉及到很多專(zhuān)業(yè)領(lǐng)域的問(wèn)題。如何結(jié)合你的專(zhuān)業(yè)知識(shí),并最終獲得較好的落地效果,我認(rèn)為是一個(gè)非常大的挑戰(zhàn)。
還有比較重要的一點(diǎn)是,要明白:人工智能去解決專(zhuān)業(yè)問(wèn)題,跟人去解決專(zhuān)業(yè)問(wèn)題有很大區(qū)別。雖然說(shuō)AI可以替代一部分的專(zhuān)業(yè)能力,但是你要讓一個(gè)專(zhuān)業(yè)人員去理解人工智能做的決策的話(huà),必須盡可能預(yù)判到可能存在的交流障礙。所以你做的這個(gè)智能體一定要讓專(zhuān)業(yè)人員能夠理解其角色,能夠進(jìn)行有效交互,進(jìn)而幫助專(zhuān)業(yè)人員來(lái)完成他的最終任務(wù)。
AIGC實(shí)戰(zhàn)派:大模型本身迭代周期較長(zhǎng)。如果在大模型本身能力不提升的情況下,為了讓AI Agent取得比較好的落地效果,可以考慮采取哪些策略?
繆旭:首先,需要對(duì)專(zhuān)業(yè)的內(nèi)在有深刻的洞察,能夠?qū)⑷蝿?wù)分解為可由大模型跟隨執(zhí)行的部分,做好規(guī)劃(planning)工作;其次,精確的評(píng)價(jià)至關(guān)重要,只有好的反饋才能找到優(yōu)化的路徑;此外,需要提供沙盒環(huán)境允許智能體快速試錯(cuò),從而得到更優(yōu)的結(jié)果。
3.部署與安全:企業(yè)抉擇,從沒(méi)有萬(wàn)能公式
AIGC實(shí)戰(zhàn)派:企業(yè)如何評(píng)估當(dāng)前階段需不需要使用AI Agent?確定部署的話(huà),需要做好哪些準(zhǔn)備?
繆旭:當(dāng)前無(wú)論是大模型廠(chǎng)商,還是AI基礎(chǔ)設(shè)施廠(chǎng)商都在力推AI Agent,但實(shí)際上落地核心還是在于用戶(hù)。企業(yè)在決定是否使用Agent時(shí),需考慮其能否幫助提高生產(chǎn)效率和開(kāi)拓商業(yè)價(jià)值。
具體來(lái)說(shuō),首先需要深入挖掘痛點(diǎn),尋找可以通過(guò)AI Agent解決的問(wèn)題。比如,企業(yè)老板觀(guān)察到員工每天都要撰寫(xiě)大量冗長(zhǎng)重復(fù)的報(bào)告。通過(guò)使用 Agent來(lái)輔助寫(xiě)報(bào)告,可以節(jié)省大量人力資源。而且Agent能夠24小時(shí)工作不會(huì)疲勞。從這個(gè)角度來(lái)看,在類(lèi)似場(chǎng)景下,AI Agent的落地對(duì)企業(yè)的投入產(chǎn)出比是有增益的。同時(shí),長(zhǎng)期來(lái)看,應(yīng)考慮產(chǎn)業(yè)升級(jí)目標(biāo),布局AI Agent對(duì)于加速智能化進(jìn)程,獲得長(zhǎng)遠(yuǎn)效益是有幫助的。
確定部署Agent之后,在前期準(zhǔn)備方面,企業(yè)需要收集足夠多的歷史數(shù)據(jù),尤其是在垂直行業(yè),需要構(gòu)建針對(duì)專(zhuān)業(yè)需求的Agent時(shí),這一點(diǎn)非常重要。只有做好數(shù)據(jù)方面的準(zhǔn)備,才能避免后期收集數(shù)據(jù)與部署Agent的時(shí)間沖突,更好更快地實(shí)現(xiàn)Agent的效果。
AIGC實(shí)戰(zhàn)派:AI Agent的企業(yè)部署成本如何,對(duì)中小公司是否友好?
繆旭:目前來(lái)說(shuō),基建成本和訓(xùn)練成本較高,耗時(shí)也長(zhǎng)。但是相信隨著實(shí)踐的深入,硬件的改善,以及算法的優(yōu)化,它的成本會(huì)快速地下降。
不過(guò)對(duì)于中小企業(yè)來(lái)說(shuō),現(xiàn)階段可能還是無(wú)法承擔(dān)部署AI Agent的成本,這種情況下可以考慮使用通用的大模型服務(wù)。因?yàn)椴还苋绾?,大模型廠(chǎng)商會(huì)分?jǐn)偝杀?,但風(fēng)險(xiǎn)就是你需要把數(shù)據(jù)交由大模型廠(chǎng)商來(lái)保護(hù),當(dāng)你真正收獲AI Agent的成果,商業(yè)價(jià)值開(kāi)始顯現(xiàn)時(shí),再考慮私有化部署也是一條出路。
AIGC實(shí)戰(zhàn)派:在部署AI Agent時(shí)如何保障安全性?
繆旭:安全其實(shí)是一個(gè)比較復(fù)雜的問(wèn)題。部署AI Agent時(shí),首先要注意的是大模型本身的安全性。為了盡可能提升可靠性,需要使用RAG、一些特定驗(yàn)證、后期測(cè)試等種種手段來(lái)降低大模型“幻覺(jué)”的影響。再者,要注意合規(guī)要求,部署時(shí)要符合法律與政策規(guī)定。此外,還涉及業(yè)務(wù)安全問(wèn)題,例如缺乏對(duì)專(zhuān)業(yè)流程的深入理解可能導(dǎo)致意外操作。用戶(hù)或開(kāi)發(fā)者需要從業(yè)務(wù)角度出發(fā),測(cè)試并保護(hù)AI Agent的安全特性,防止出現(xiàn)潛在的安全漏洞。
四.評(píng)估與前景:普通人入局,需深耕細(xì)分領(lǐng)域精準(zhǔn)發(fā)力
AIGC實(shí)戰(zhàn)派:如何評(píng)估一個(gè)AI Agent的成功?
繆旭:用戶(hù)參與度(Engagement)實(shí)際上是一個(gè)非常重要的指標(biāo)。簡(jiǎn)單來(lái)說(shuō),就是用戶(hù)是否頻繁地使用AI Agent,以及他們與Agent的交互頻率和深度。如果用戶(hù)定期返回使用Agent,這通常意味著Agent提供了價(jià)值。當(dāng)然這一點(diǎn)通常與業(yè)務(wù)強(qiáng)相關(guān),不同業(yè)務(wù)需求有不同的評(píng)價(jià)標(biāo)準(zhǔn)。
通常對(duì)于一般性的Agent,我們會(huì)有一些通用指標(biāo),這些指標(biāo)有助于判斷一個(gè)AI Agent是否成功達(dá)到實(shí)際生產(chǎn)標(biāo)準(zhǔn)。比如:
- 性能:如果Agent能夠快速完成任務(wù),且錯(cuò)誤率低,則表明性能良好。
- 容錯(cuò)性:如果用戶(hù)在提示詞中犯了小錯(cuò)誤,Agent仍能夠正確理解并給出有用的響應(yīng),這表示Agent對(duì)錯(cuò)誤輸入的容忍度高,有良好的容錯(cuò)性。
- 隱私和安全性:如果Agent能夠確保用戶(hù)信息的安全,不泄露給未授權(quán)的第三方,這將是一個(gè)重要的成功指標(biāo)。
AIGC實(shí)戰(zhàn)派:如果普通人想進(jìn)入AI Agent賽道,您有哪些建議?
繆旭:我覺(jué)得問(wèn)題關(guān)鍵在于深入挖掘某一專(zhuān)業(yè)領(lǐng)域的知識(shí)。我并不推薦你嘗試通用工具,因?yàn)槿绻麤](méi)有強(qiáng)大的基礎(chǔ)設(shè)施支持,提供服務(wù)將變得十分困難。大企業(yè)突如其來(lái)的一次革新就有可能把你籌謀許久的商業(yè)模式給顛覆了,所以我建議聚焦于某個(gè)專(zhuān)業(yè)領(lǐng)域,哪怕是一個(gè)非常細(xì)分的垂直市場(chǎng),你也可以用AI Agent+something的方式來(lái)構(gòu)建自己的“護(hù)城河”。