終結(jié)落地焦慮:突然火了的AI Agent,會成為破局的關(guān)鍵嗎? 原創(chuàng)
嘉賓丨繆旭
采訪/撰稿丨張潔
編輯丨諾亞
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
有人說,現(xiàn)在大模型卷不動了,要卷就卷AI Agent。那么,事實(shí)真的如此嗎?
AI Agent,顧名思義即智能代理,是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動作的智能體。而它作為一個概念真正走紅,要從去年3月發(fā)布的AutoGPT說起。
彼時,AutoGPT項目讓人們發(fā)現(xiàn)——這種技術(shù)可以利用大語言模型,自動把一個大任務(wù)拆分成若干個小任務(wù),并使用工具完成它們。
區(qū)別于被動響應(yīng)用戶指令的大模型,AI Agent具備自主規(guī)劃和執(zhí)行的能力。于是,自AutoGPT之后,GPT-Engineer、ChatDev、XAgent等項目次第爆發(fā),將大模型推入了新的敘事階段。原本作為“超級大腦”的大模型有了落地為“全能助手”的潛力。
隨后的一年間,AI創(chuàng)投圈密切關(guān)注相關(guān)創(chuàng)業(yè)公司。國內(nèi)外大廠也紛紛開始聚焦AI Agent的框架、平臺和應(yīng)用開發(fā)。
到目前為止,AI Agent無疑是火了,但圈里圈外也多多少少都陷入了一種焦灼情緒:大模型還沒整明白,AI Agent又開始了…...
事實(shí)上,Agent目前尚處在在起步階段。一定程度上,AI Agent能力其實(shí)是和大模型相生的,大模型的能力邊界決定了AI Agent的能力邊界。
那么,AI Agent到底有何神奇之處?企業(yè)如果要部署AI Agent,需要做好哪些準(zhǔn)備?它會成為大模型商業(yè)化的鑰匙嗎?
本期AIGC實(shí)戰(zhàn)派特別邀請九章云極DataCanvas AI首席科學(xué)家繆旭,結(jié)合其對于智能體的行業(yè)觀察和實(shí)踐總結(jié),就上述議題進(jìn)行逐一探討。
(為了行文表達(dá)的流暢,在不改變原意的情況下,對采訪內(nèi)容做了適當(dāng)?shù)奈谋臼崂恚?/p>
1.AI Agent洞察:飛躍傳統(tǒng)AI,乘大模型東風(fēng)而起
AIGC實(shí)戰(zhàn)派:相較傳統(tǒng)AI,AI Agent有何特別之處?
繆旭:這里的傳統(tǒng)AI,我理解為是針對特定任務(wù)的人工智能模型、系統(tǒng)或理論,比如計算機(jī)視覺中的分類任務(wù),回歸模型中的時間序列預(yù)測,自然語言處理中的命名實(shí)體識別(NER)等等??梢钥吹?,這類AI明顯的特點(diǎn)是專注于特定任務(wù):用途比較專一,訓(xùn)練過程相對獨(dú)立。就像一個一個煙囪,彼此之間也沒有什么通用性。這是傳統(tǒng)的任務(wù)導(dǎo)向的AI系統(tǒng)。
而如今AI Agent(或者說智能體)的概念,更多強(qiáng)調(diào)的是通用能力??梢哉f,Agent是隸屬于AGI的應(yīng)用體系,其發(fā)展得益于大模型。其一,隨著大語言模型的通用泛化能力的提升,AI Agent也因此進(jìn)入了一個完全不一樣的發(fā)展圖景。
其二,在多模態(tài)大模型的能力加持下,AI Agent能夠理解視覺、聽覺和文本信息,獲得更全面的環(huán)境感知能力。有了這些信息之后,Agent的“角色”才會更加精準(zhǔn)。
其三,Agent其實(shí)有很強(qiáng)的自主性,像人一樣,能夠試錯、學(xué)習(xí)和適應(yīng)。犯了錯也會從中學(xué)習(xí),進(jìn)而改進(jìn)其策略。這就是通用人工智能帶來的好處和變化。
在有了這些能力之后,Agent就可以處理一些更為復(fù)雜的任務(wù),這就在某種程度上超越了單一任務(wù)導(dǎo)向的傳統(tǒng)AI。而且傳統(tǒng)AI系統(tǒng)的“煙囪式”架構(gòu)需要大量代碼集成才能實(shí)現(xiàn)其落地,實(shí)現(xiàn)過程非常漫長。如今交由大模型或者Agent框架來做的話,極大地簡化了這一過程,減少了對編程能力的依賴,使用戶可以更專注于業(yè)務(wù)本身的落地。所以這也是這波AI Agent帶來的好處。
AIGC實(shí)戰(zhàn)派:從本質(zhì)上講,AI Agent 與大模型的關(guān)系是什么?其本質(zhì)區(qū)別是什么?
繆旭:本質(zhì)區(qū)別的話,大模型在預(yù)訓(xùn)練階段通常使用自回歸方法,這意味著模型依賴于已有數(shù)據(jù)的分布來預(yù)測下一個token。這種方法涉及到使用大量的數(shù)據(jù)樣本,這些數(shù)據(jù)樣本來源于前人的經(jīng)驗(yàn)和實(shí)踐。在自回歸訓(xùn)練中,數(shù)據(jù)被轉(zhuǎn)換成語料,然后分割成token。模型的任務(wù)是預(yù)測下一個token。自回歸模型的能力受限于它所訓(xùn)練的數(shù)據(jù)。如果訓(xùn)練數(shù)據(jù)只包含了前人的經(jīng)驗(yàn),那么模型的能力也可能僅限于此,難以超越既有的知識。
而AI Agent則強(qiáng)調(diào)自主性和適應(yīng)性,它能夠通過嘗試不同的方法來探索、試錯和學(xué)習(xí),并根據(jù)不同的評價(獲得獎勵或懲罰)來優(yōu)化自己的策略。也就是說,AI Agent通過結(jié)合強(qiáng)化學(xué)習(xí)等技術(shù)可以實(shí)現(xiàn)自我進(jìn)化,有潛力實(shí)現(xiàn)更加復(fù)雜和高級的認(rèn)知任務(wù)。
如果從OpenAI的角度來看,他們實(shí)際上是希望整個Agent都可以用大模型來實(shí)現(xiàn)的。我覺得像GPT 4o即omni版本已經(jīng)非常像Agent的框架了。之前OpenAI 的坊間傳說中有關(guān)于Q*算法的種種揣測,實(shí)質(zhì)上它就反映了OpenAI正試圖通過Q*算法讓大模型本身具備Agent的能力。
AIGC實(shí)戰(zhàn)派:AI Agent會是實(shí)現(xiàn)AGI的關(guān)鍵鑰匙嗎?
繆旭:(AI Agent如Q*)會是非常重要的改進(jìn)。就像知名 AI 學(xué)者、圖靈獎得主 Yann LeCun所說,他不看好自回歸LLM,自回歸 LLM 受限于前人經(jīng)驗(yàn),對潛在現(xiàn)實(shí)的了解有限,缺乏常識,沒有記憶,而且無法規(guī)劃答案。從這個層面來說,AI Agent憑借其自主決策和自我進(jìn)化的特性的確是更上了一層樓,但它究竟是不是實(shí)現(xiàn)AGI的關(guān)鍵,還有待商榷。
事實(shí)上,從AlphaGo開始就遵循了這一學(xué)習(xí)路徑。一開始AlphaGo學(xué)習(xí)專業(yè)棋譜,就像自回歸一樣,學(xué)習(xí)前人積累的經(jīng)驗(yàn),后來開始用強(qiáng)化學(xué)習(xí)的方法生成新棋路,通過自我對弈來超越專業(yè)棋手。實(shí)際上這種訓(xùn)練方法也取得了成功。但是本身這個任務(wù)還是比較像傳統(tǒng)AI,是一個非常專一的任務(wù)。它的評價系統(tǒng)很簡單,你明確地知道它的輸贏規(guī)則。評判標(biāo)準(zhǔn)是沒有任何歧義的。
但是放眼AGI的話,它其實(shí)是非常開放的。你很難去評判的原因在于:第一,有很多未知領(lǐng)域,人的知識邊界實(shí)際上是有很大局限的。在很多事情上無法判斷最終結(jié)果是好是壞;第二,評判受主觀因素影響較大。評判標(biāo)準(zhǔn)的主觀性容易導(dǎo)致不同價值觀之間的沖突,如果一個智能體在訓(xùn)練時無法兼顧價值觀的多樣性,其學(xué)習(xí)結(jié)果往往可能不盡如人意,從而影響其在實(shí)際場景中的應(yīng)用;第三,目前的AI智能體,盡管在某些領(lǐng)域比自回歸方法強(qiáng),但并未完全實(shí)現(xiàn)自主脫離人進(jìn)行自我進(jìn)化的目標(biāo)。因此,從整體來看,要以智能體作為實(shí)現(xiàn)AGI的必由之路還有相當(dāng)?shù)木嚯x。
2.應(yīng)用與挑戰(zhàn):大模型場景落地,如何掌握關(guān)鍵之鑰
AIGC實(shí)戰(zhàn)派:有人說,AI Agent可能是大模型在To B場景落地的一個主要方式,它將會開啟大模型的下半場。您認(rèn)同這一判斷嗎?
繆旭:我不太確定“下半場”的定義。但是我覺得,下一步,AI Agent會是比較現(xiàn)實(shí)的一個爆發(fā)點(diǎn)。正如吳恩達(dá)教授所說,某些特定問題,用Agent的方法去開發(fā)比用大語言模型本身得出的結(jié)果要好得多,AI智能體工作流可能比下一代基礎(chǔ)模型帶來更大的AI進(jìn)展。因?yàn)橛袝r候你使用的大語言模型可能不是那么強(qiáng),要用這樣的大模型直接出結(jié)果難度會比較大,但通過Agent的方法,基于它的適應(yīng)性和試錯能力,通過微調(diào)和不斷學(xué)習(xí),很可能獲得比大語言模型更優(yōu)的解決方案。
比如,要訓(xùn)練一個像Sora一樣的視頻生成大模型會非常昂貴,但我之前讀過關(guān)于Mora的論文,Mora不是一個單獨(dú)的模型,而是一個多Agents視頻生成框架,結(jié)合多個高級視覺AI代理,復(fù)現(xiàn)了Sora的通用視頻生成能力。從這個角度來說,我覺得,落地AI Agent比較現(xiàn)實(shí),也比較經(jīng)濟(jì),有時候會更貼合落地場景的需求。
AIGC實(shí)戰(zhàn)派:目前AI Agent發(fā)展現(xiàn)狀如何,有哪些主要的應(yīng)用場景呢?
繆旭:首先,純文本的Agent現(xiàn)在是處于比較卷的狀態(tài)。再者,隨著GPT-4o的出現(xiàn),多模態(tài)大模型越發(fā)受到關(guān)注。尤其是結(jié)合視覺信息,AI Agent將具備更強(qiáng)的多模態(tài)理解和決策能力,可能觸發(fā)新的應(yīng)用場景。
具體到應(yīng)用領(lǐng)域的話,Tesla的自動駕駛是很強(qiáng)且具有未來感的AI Agent應(yīng)用案例,因?yàn)樗钦嬲诙说蕉说亩嗄B(tài)大模型,從視覺入口,加之其他傳感器,直接去驅(qū)動其駕駛的效應(yīng)器。這與當(dāng)前的基于大語言模型構(gòu)建的智能代理具有相當(dāng)?shù)牟罹唷?/p>
自動駕駛要求其Agent具備實(shí)時決策能力,還要有極強(qiáng)的泛化能力以應(yīng)對各種復(fù)雜情況。其任務(wù)通常是mission critical,任何小錯誤都可能付出巨大代價。所以Agent必須能夠處理大量corner case,適應(yīng)各種極端狀況。因此,難度很大,挑戰(zhàn)很多,可以說Agent在自動駕駛乃至駕駛領(lǐng)域有很多落地的想象空間。
另外,還有應(yīng)用較多的領(lǐng)域主要包括知識管家類、智能客服類、數(shù)據(jù)分析類,還有辦公自動化等,都有AI Agent發(fā)揮的空間。
AIGC實(shí)戰(zhàn)派:在構(gòu)建AI Agent的過程中,可能會遇到哪些方面的挑戰(zhàn)?
繆旭:一方面,AI Agent需要能夠理解和適應(yīng)特定行業(yè)的專業(yè)知識和業(yè)務(wù)邏輯,這可能需要額外的微調(diào)和訓(xùn)練;另一方面,AI Agent需要提供自然和直觀的交互方式,以及滿足用戶需求的體驗(yàn),這可能需要深入理解用戶行為和偏好。
如果是通用的辦公類Agent,那可能會幫你省下不少時間,但是并不會帶給你特別多的其他信息。但如果是構(gòu)建非通用的、專業(yè)化的AI Agent,比如法律類的Agent,那你就必須具備非常強(qiáng)的法律知識。這里實(shí)際上會涉及到很多專業(yè)領(lǐng)域的問題。如何結(jié)合你的專業(yè)知識,并最終獲得較好的落地效果,我認(rèn)為是一個非常大的挑戰(zhàn)。
還有比較重要的一點(diǎn)是,要明白:人工智能去解決專業(yè)問題,跟人去解決專業(yè)問題有很大區(qū)別。雖然說AI可以替代一部分的專業(yè)能力,但是你要讓一個專業(yè)人員去理解人工智能做的決策的話,必須盡可能預(yù)判到可能存在的交流障礙。所以你做的這個智能體一定要讓專業(yè)人員能夠理解其角色,能夠進(jìn)行有效交互,進(jìn)而幫助專業(yè)人員來完成他的最終任務(wù)。
AIGC實(shí)戰(zhàn)派:大模型本身迭代周期較長。如果在大模型本身能力不提升的情況下,為了讓AI Agent取得比較好的落地效果,可以考慮采取哪些策略?
繆旭:首先,需要對專業(yè)的內(nèi)在有深刻的洞察,能夠?qū)⑷蝿?wù)分解為可由大模型跟隨執(zhí)行的部分,做好規(guī)劃(planning)工作;其次,精確的評價至關(guān)重要,只有好的反饋才能找到優(yōu)化的路徑;此外,需要提供沙盒環(huán)境允許智能體快速試錯,從而得到更優(yōu)的結(jié)果。
3.部署與安全:企業(yè)抉擇,從沒有萬能公式
AIGC實(shí)戰(zhàn)派:企業(yè)如何評估當(dāng)前階段需不需要使用AI Agent?確定部署的話,需要做好哪些準(zhǔn)備?
繆旭:當(dāng)前無論是大模型廠商,還是AI基礎(chǔ)設(shè)施廠商都在力推AI Agent,但實(shí)際上落地核心還是在于用戶。企業(yè)在決定是否使用Agent時,需考慮其能否幫助提高生產(chǎn)效率和開拓商業(yè)價值。
具體來說,首先需要深入挖掘痛點(diǎn),尋找可以通過AI Agent解決的問題。比如,企業(yè)老板觀察到員工每天都要撰寫大量冗長重復(fù)的報告。通過使用 Agent來輔助寫報告,可以節(jié)省大量人力資源。而且Agent能夠24小時工作不會疲勞。從這個角度來看,在類似場景下,AI Agent的落地對企業(yè)的投入產(chǎn)出比是有增益的。同時,長期來看,應(yīng)考慮產(chǎn)業(yè)升級目標(biāo),布局AI Agent對于加速智能化進(jìn)程,獲得長遠(yuǎn)效益是有幫助的。
確定部署Agent之后,在前期準(zhǔn)備方面,企業(yè)需要收集足夠多的歷史數(shù)據(jù),尤其是在垂直行業(yè),需要構(gòu)建針對專業(yè)需求的Agent時,這一點(diǎn)非常重要。只有做好數(shù)據(jù)方面的準(zhǔn)備,才能避免后期收集數(shù)據(jù)與部署Agent的時間沖突,更好更快地實(shí)現(xiàn)Agent的效果。
AIGC實(shí)戰(zhàn)派:AI Agent的企業(yè)部署成本如何,對中小公司是否友好?
繆旭:目前來說,基建成本和訓(xùn)練成本較高,耗時也長。但是相信隨著實(shí)踐的深入,硬件的改善,以及算法的優(yōu)化,它的成本會快速地下降。
不過對于中小企業(yè)來說,現(xiàn)階段可能還是無法承擔(dān)部署AI Agent的成本,這種情況下可以考慮使用通用的大模型服務(wù)。因?yàn)椴还苋绾?,大模型廠商會分?jǐn)偝杀?,但風(fēng)險就是你需要把數(shù)據(jù)交由大模型廠商來保護(hù),當(dāng)你真正收獲AI Agent的成果,商業(yè)價值開始顯現(xiàn)時,再考慮私有化部署也是一條出路。
AIGC實(shí)戰(zhàn)派:在部署AI Agent時如何保障安全性?
繆旭:安全其實(shí)是一個比較復(fù)雜的問題。部署AI Agent時,首先要注意的是大模型本身的安全性。為了盡可能提升可靠性,需要使用RAG、一些特定驗(yàn)證、后期測試等種種手段來降低大模型“幻覺”的影響。再者,要注意合規(guī)要求,部署時要符合法律與政策規(guī)定。此外,還涉及業(yè)務(wù)安全問題,例如缺乏對專業(yè)流程的深入理解可能導(dǎo)致意外操作。用戶或開發(fā)者需要從業(yè)務(wù)角度出發(fā),測試并保護(hù)AI Agent的安全特性,防止出現(xiàn)潛在的安全漏洞。
四.評估與前景:普通人入局,需深耕細(xì)分領(lǐng)域精準(zhǔn)發(fā)力
AIGC實(shí)戰(zhàn)派:如何評估一個AI Agent的成功?
繆旭:用戶參與度(Engagement)實(shí)際上是一個非常重要的指標(biāo)。簡單來說,就是用戶是否頻繁地使用AI Agent,以及他們與Agent的交互頻率和深度。如果用戶定期返回使用Agent,這通常意味著Agent提供了價值。當(dāng)然這一點(diǎn)通常與業(yè)務(wù)強(qiáng)相關(guān),不同業(yè)務(wù)需求有不同的評價標(biāo)準(zhǔn)。
通常對于一般性的Agent,我們會有一些通用指標(biāo),這些指標(biāo)有助于判斷一個AI Agent是否成功達(dá)到實(shí)際生產(chǎn)標(biāo)準(zhǔn)。比如:
- 性能:如果Agent能夠快速完成任務(wù),且錯誤率低,則表明性能良好。
- 容錯性:如果用戶在提示詞中犯了小錯誤,Agent仍能夠正確理解并給出有用的響應(yīng),這表示Agent對錯誤輸入的容忍度高,有良好的容錯性。
- 隱私和安全性:如果Agent能夠確保用戶信息的安全,不泄露給未授權(quán)的第三方,這將是一個重要的成功指標(biāo)。
AIGC實(shí)戰(zhàn)派:如果普通人想進(jìn)入AI Agent賽道,您有哪些建議?
繆旭:我覺得問題關(guān)鍵在于深入挖掘某一專業(yè)領(lǐng)域的知識。我并不推薦你嘗試通用工具,因?yàn)槿绻麤]有強(qiáng)大的基礎(chǔ)設(shè)施支持,提供服務(wù)將變得十分困難。大企業(yè)突如其來的一次革新就有可能把你籌謀許久的商業(yè)模式給顛覆了,所以我建議聚焦于某個專業(yè)領(lǐng)域,哪怕是一個非常細(xì)分的垂直市場,你也可以用AI Agent+something的方式來構(gòu)建自己的“護(hù)城河”。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??
