體驗實在Agent,這才是當(dāng)前形成生產(chǎn)力的企業(yè)級通用智能體
- 實在Agent或是現(xiàn)階段企業(yè)級通用智能體的最優(yōu)解
- 3個實操案例,帶你體驗真正流暢可用的企業(yè)級通用智能體
- 什么是真正的企業(yè)級通用智能體?實在Agent立了一個行業(yè)標桿
- 體驗實在Agent,這才是當(dāng)前形成生產(chǎn)力的企業(yè)級通用智能體
- 幾個實操案例,告訴你什么是真正可用的企業(yè)級通用智能體
- Manus曇花一現(xiàn),實在Agent或會帶來一場企業(yè)級通用智能體颶風(fēng)
Manus的火爆,不僅帶火了一批開源項目,也帶來了一場通用智能體之辨。
至今大家還拿不到邀請碼的Manus,以官網(wǎng)多個案例視頻和有數(shù)的體驗視頻,讓大家感受到了通用智能體的魅力。很多人在看完那些視頻后,直言不諱那就是他們需要的智能體。另一方面,很多人在體驗Manus同類項目之后非常失望,它們距離成為企業(yè)生產(chǎn)力還有不小的距離。
在技術(shù)圈和學(xué)術(shù)界,目前通用AI Agent(General AI Agent)被看作是一種能夠自主執(zhí)行任務(wù)、進行復(fù)雜決策并適應(yīng)多種環(huán)境的高級人工智能系統(tǒng)。能夠響應(yīng)用戶指令,主動規(guī)劃和執(zhí)行任務(wù)而無需頻繁的人類干預(yù)。這種系統(tǒng)通常基于多個大型語言模型(LLM)和其他獨立運行的軟件組件,以實現(xiàn)更廣泛的任務(wù)處理能力。
需要說明的是,目前不同公司對AI Agent的定義差異很大,從完全自主系統(tǒng)到預(yù)定義工作流的實現(xiàn)都有。因此通用AI Agent的“通用”程度,尚未有統(tǒng)一標準。
而真實的體驗與應(yīng)用反饋是,如果通用智能體是現(xiàn)在這種產(chǎn)品形態(tài),還不如直接用RPA等工具去實現(xiàn)各種電腦應(yīng)用自動化的操作。大模型與AI Agent技術(shù)架構(gòu)比比皆是的當(dāng)前,企業(yè)對于應(yīng)用引入大模型和應(yīng)用智能體的渴望是熾烈的,對于適合當(dāng)前階段的企業(yè)級智能體解決方案的需求自然也是強烈的。
面對通用智能體的熱潮和企業(yè)級應(yīng)用的需求,廣大企業(yè)與組織對于真正可用的技術(shù)、產(chǎn)品及解決方案可以說是翹首以盼。
那么,在當(dāng)前AI Agent應(yīng)用早期階段,到底什么樣的智能體才算通用智能體?廣大企業(yè)需要的企業(yè)級智能體又應(yīng)該是怎樣的?有沒有體驗更好、執(zhí)行能力同時運行穩(wěn)定的企業(yè)級智能體能勝任企業(yè)大量的復(fù)雜業(yè)務(wù)流程?
從通用智能體說起
從當(dāng)前智能體產(chǎn)品形態(tài)來看,王吉偉頻道把當(dāng)前的通用智能體分為兩類:
一類是被稱為computer use Agent的類似Manus的產(chǎn)品,采用大模型(推理模型+多模態(tài)模型)+API模式,通過屏幕截圖來識別屏幕元素,以API接口調(diào)用各種工具執(zhí)行任務(wù)。
另一類是在RPA等流程自動化工具基礎(chǔ)上融合AI Agent架構(gòu)并把RPA當(dāng)作超級工具的Agent,這類產(chǎn)品基于原有業(yè)務(wù)流程自動化技術(shù)的沉淀,適配大模型、RAG、屏幕識別等技術(shù),實現(xiàn)智能體流暢操作電腦上各種應(yīng)用。
受大模型能力、技術(shù)架構(gòu)、工作模式等因素的影響,目前第一類通用AI Agent在體驗上并不是很好,等待時間長,任務(wù)執(zhí)行能力差,效果不可控。第二類通用AI Agent因為RPA本身就已經(jīng)與PC、手機等終端有了很好的融合與適配,體驗上比前者要好很多。
顯然實在智能剛發(fā)布的新版實在Agent屬于后者。實在智能CEO孫林君認為,一個面向各種場景、具備良好泛化能力且無所不能的通用智能體,至少應(yīng)該具備兩點:
首先應(yīng)該突破基礎(chǔ)模型所不具備的一些能力,在任務(wù)理解上要掌握足夠多的知識;其次智能體在基礎(chǔ)模型上所結(jié)合的工具,在底層能力上要具有完備性,對于操作系統(tǒng)內(nèi)部應(yīng)該是一個“無所不能”的狀態(tài)。
為了讓大家看懂兩種Agent的區(qū)別,這里以實在Agent為例做了一個對比表格。
另一個角度,通用智能體的一大特點是能夠自由操作電腦上的各種應(yīng)用去執(zhí)行各種任務(wù)。
其實從computer use或者GUI智能體的角度來看,實在 Agent脫胎于能夠完美操作電腦端或者手機端的采用成熟技術(shù)的RPA,本身與電腦有著天然的親和力。在當(dāng)前智能體應(yīng)用的初級階段,這類智能體可以算是真正形成生產(chǎn)力的通用智能體。
來看幾個真實案例
光說不練假把式。接下來實操幾個實在Agent應(yīng)用案例,讓大家感受下第二類通用智能體的能力。
想要體驗實在Agent,首先需要到實在官網(wǎng)下載客戶端,網(wǎng)址如下:??https://www.ai-indeed.com/downloadCenter??
安裝以后打開軟件,默認軟件界面非常簡單,只有一個指令輸入框,可以按CTRL+SPACE組合快捷鍵隨時關(guān)閉和打開。
點擊左邊的logo,打開軟件完整界面。
先來試兩個官方應(yīng)用案例模版。
案例1:豆瓣電影數(shù)據(jù)獲取
點擊 數(shù)據(jù)分析 這個模版,指令“獲取豆瓣電影排行榜數(shù)據(jù)(電影名、評分)”會出現(xiàn)在指令輸入框。
點擊輸入框右邊的右箭頭或者按回車鍵,短暫的等待后,軟件會把這個指令拆解為4個主要分析步驟步驟,點擊 執(zhí)行 按鈕 或者按回車鍵,軟件開始執(zhí)行任務(wù),默認使用內(nèi)置的實在瀏覽器。
這里說一句,直接使用內(nèi)置web程序這一步迭代非常好。不需要用戶再去Chrome等瀏覽器安裝插件,單是這個過程就困擾了很多小白用戶。
執(zhí)行任務(wù)過程中,鼠標會自動點擊相應(yīng)的網(wǎng)頁元素,最終提取豆瓣電影相關(guān)的數(shù)據(jù)展示在軟件內(nèi),可以自由到處表格為Excel表格。
全部任務(wù)執(zhí)行過程,見下面的視頻動圖。
案例2:多平臺輿情分析
實在Agent不僅支持流程創(chuàng)建,還支持調(diào)用智能體。點擊關(guān)于雅詩蘭黛市場反饋的 “數(shù)據(jù)分析”模版,指令會自動輸入到指令輸入框,可以看到這個案例實在與智能體 “輿情分析及時助理”對話。該智能體會在百度、知乎、微博等3個平臺提取數(shù)據(jù)并匯總分析,使用這個模版前記得先登錄知乎和微博。
回車進入任務(wù)執(zhí)行頁面,短暫的任務(wù)拆解之后,點擊執(zhí)行按鈕,“輿情分析及時助理”就進入了它的工作流程,電腦會自動打開瀏覽器在3個平臺進行數(shù)據(jù)提取,最后通過大語言模型生成輿情報告。下面,是全部操作流程的視頻動圖。
對于這樣在多平臺提取數(shù)據(jù)的應(yīng)用,底層為RPA的實在Agent可以說是信手拈來。整個執(zhí)行流程大概用了3分鐘,如果用純視覺靠屏幕截圖識別定位GUI元素的CUA智能體,這個時間延長一倍,任務(wù)也執(zhí)行不完。
這里尤其推薦它的“小窗執(zhí)行”功能,可以在獨立桌面環(huán)境運行,不干擾用戶在電腦上的其他操作。在它執(zhí)行任務(wù)的同時,你還可以做另外的事情,工作效率倍增。
這個案例調(diào)用的智能體是官方發(fā)布的。目前實在Agent已經(jīng)上線了8個常用智能體,用戶可以隨時與這些智能體對話布置想要的任務(wù)。如果這些智能體無法滿足你的個性化需求,還可以自己創(chuàng)建面向你業(yè)務(wù)應(yīng)用的智能體。
實在Agent的智能體構(gòu)建方面,“自由畫布”比較有親和感,拖拉拽都很流暢。與其他Agent構(gòu)建平臺不同的是,這里多了一個自動化板塊,在構(gòu)建智能體時可以直接調(diào)用已經(jīng)構(gòu)建好的流程和智能體,并支持接口調(diào)用和功能代碼。
這個板塊的增加,可以大大增強智能體與企業(yè)內(nèi)部已有自動化流程的銜接,便于企業(yè)快速進行智能體的部署與應(yīng)用。目前他們也上線了DeepSeek大模型,用戶可以在構(gòu)建基于DeepSeek構(gòu)建推理能力更強的智能體。
案例3:剪映圖文成片自動化
體驗完官方案例模版,再來試試實際操作。
通用智能體其中的一個表現(xiàn)是可以操作流暢操作電腦上的各種應(yīng)用。我們可以試著讓實在Agent操作剪映,把一段文字剪成圖文視頻。
實現(xiàn)方式:首先在實在Agent調(diào)用DeepSeek,生成短視頻腳本。新建對話,輸入@ 在智能體列表中找到DeepSeek,輸入指令:生成一段關(guān)于AI Agent的短視頻腳本
然后需要把這段腳本放在剪映中自動生成視頻。新建對話,輸入指令:
打開剪映的 圖文成片 功能,使用其中的 自由編輯文案 功能,把下面這段內(nèi)容輸入文本框,點擊 生成視頻 中的 智能匹配素材 ,生成視頻
AI Agent,不僅是工具,更是你的智慧延伸。它能理解你的需求,學(xué)會你的習(xí)慣,幫助你高效完成任務(wù)。從日常生活到復(fù)雜工作,AI Agent都能成為你的得力助手。
實在Agent把任務(wù)拆解為5步,在具體執(zhí)行中輸入內(nèi)容以及點擊按鈕有點錯誤,只需要把輸入內(nèi)容修改正確,重新拾取下按鈕元素就可以正常運行了。具體操作視頻如下。
這個流程,以后是可以復(fù)用的,也可以用于AI Agent的構(gòu)建。比如這個案例,就可以把這兩步結(jié)合起來構(gòu)架一個用于剪映自動成片的智能體。
雖然這種自建流程還沒有經(jīng)過官方的強化訓(xùn)練,卻證明了通過詳細指令編寫和簡單的人工輔助,就能實現(xiàn)需要的功能,基本就是小白級的操作。沒有經(jīng)過強化訓(xùn)練就能做到這種程度,可見此類產(chǎn)品的巨大潛力。
實在Agent的不同之處
以上幾個案例,主要還是個人使用體驗。在B端企業(yè)應(yīng)用上,RPA與AI Agent的融合,會因業(yè)務(wù)、客戶、生態(tài)、技術(shù)路徑等方面的不同,在產(chǎn)品形態(tài)上也會有所差異。比如實在Agent與Manus等產(chǎn)品就有了明顯的差異化。
兩者的主要區(qū)別,可以體現(xiàn)在技術(shù)架構(gòu)、任務(wù)閉環(huán)能力、商業(yè)化成熟度、準確性、穩(wěn)定性、操作體驗、擴展能力以及用戶認知門檻等多個方面,具體可以見下圖。
通過以上幾個案例,大家應(yīng)該對實在Agent有些了解了,使用起來真的非常簡單。之所以能有這樣的應(yīng)用體驗,在于實在智能對于技術(shù)、用戶及行業(yè)的多年沉淀、深度洞悉與深入理解。
在智能體的產(chǎn)品定義方面,實在智能下了很深的功夫,他們認為合格的智能體產(chǎn)品至少應(yīng)該具備三點:使用門檻要低,使用方式要簡單直白,執(zhí)行過程欲隨心掌控。這三點對于智能體產(chǎn)品的重新定義,極大地降低了智能體的使用門檻并提升了易用性,對普通用戶極為友好。
最新發(fā)布的實在Agent開放了智能體搭建能力,用戶可結(jié)合模型技能庫和編排工具開發(fā)專屬AI智能體,并獲得完整使用生態(tài)。實現(xiàn)了RPA流程與AI工作流融合,升級為智能體畫布,支持自然語言交互,融合大模型與RPA能力,適應(yīng)復(fù)雜場景。并且RPA用戶流程可一鍵轉(zhuǎn)為智能體形態(tài),客戶端覆蓋搭建到運行全環(huán)節(jié),提升開發(fā)效率。搭建好的智能體可被自主調(diào)用,Tars大模型能學(xué)習(xí)并自動執(zhí)行任務(wù)。
基于實在智能五年積累的近500+的RPA原子組件和業(yè)務(wù)流程,具備連接和執(zhí)行能力,能解決跨系統(tǒng)操作和數(shù)據(jù)擺渡,幫助用戶完成業(yè)務(wù)辦理。其生成的RPA組件可重復(fù)利用,方便自定義智能體開發(fā)。還具備數(shù)據(jù)分析和文件處理能力,借助大模型推理和代碼生成,支持API集成,可聯(lián)網(wǎng)查詢信息。Tars大模型作為決策中樞,能自主調(diào)動工具并匹配用戶自定義智能體,持續(xù)提升上限。
這些,也正是實在Agent的獨有特色與不同之處。
企業(yè)需要什么樣的智能體?
前面實操的案例,更多是實在Agent在C端的能力體現(xiàn)。作為能夠在復(fù)雜環(huán)境中運行的通用智能體,只有能夠適用更多企業(yè)級的業(yè)務(wù)場景才能成為企業(yè)的生產(chǎn)力。
目前的通用智能體已經(jīng)實現(xiàn)了使用電腦,但更多還是實驗性的項目,無法更好地融入廣大企業(yè)復(fù)雜的業(yè)務(wù)流程當(dāng)中,難以實現(xiàn)企業(yè)級商業(yè)化應(yīng)用。很多時候,企業(yè)引入智能體是一回事,應(yīng)用起來卻是另一回事。
最近有個讀者跟我交流,他們想通過智能體替代員工在企業(yè)信息化系統(tǒng)中的重復(fù)性操作,正在尋找相應(yīng)的技術(shù)路徑和解決方案。事實上對于這類跨應(yīng)用、跨系統(tǒng)的需求,目前大家所看到包括Manus、Ominiparser以及相關(guān)開源項目在內(nèi)的CPU類項目都無法全部實現(xiàn),或者說只能通過API鏈接包括現(xiàn)在火爆的MCP完成一部分輕量化的業(yè)務(wù)流程,對于深入到企業(yè)管理系統(tǒng)底層的復(fù)雜業(yè)務(wù)流程,涉及到大量沒有API接口的數(shù)據(jù)連接,目前無法實現(xiàn)。
孫林君認為,大模型存在兩種應(yīng)用方式的局限。一是端到端大模型雖能解決多問題,但遇到幻覺時難以調(diào)優(yōu),優(yōu)化成本高且不可控。二是大模型結(jié)合API的方式,受限于API開發(fā)依賴人工、成本高,且系統(tǒng)設(shè)計原則要求低耦合,接口數(shù)量不宜過多。大模型加人工的方式,并非更合理選擇。未來,大模型應(yīng)能直接驅(qū)動工具操作軟件界面完成工作,軟件界面本身也是一種協(xié)議,這種方式更具潛力。
API不是萬能的,API無法連接一切,但企業(yè)運營卻需要最大化的連接系統(tǒng)與應(yīng)用。目前來看,至少現(xiàn)階段這個需求還是要落到基于大模型等技術(shù)的RPA類自動化Agent解決方案的身上,或是通過AI+RPA+Agent的解決方案來提升企業(yè)對于Agent的應(yīng)用能力。
那么,企業(yè)到底需要什么樣的智能體呢?融合RPA和Agent的企業(yè)級智能體又應(yīng)用有哪些終極考核標準或者說成為企業(yè)的優(yōu)質(zhì)增長杠桿呢?
廣大企業(yè)所需要的智能體,必然是能夠落地并滿足業(yè)務(wù)需求的智能體,而智能體想要真正落地必需做到可控、穩(wěn)定和高效。可控即過程清晰、結(jié)果準確率高,穩(wěn)定是指多次運行成功率高且結(jié)果穩(wěn)定,高效則是構(gòu)建效率高。這三點,正是實在Agent滿足商業(yè)化落地的三大核心能力。
基于這三大核心能力,經(jīng)過眾多客戶案例的實踐,實在智能總結(jié)了企業(yè)級智能體落地至少需要具備以下四個方面的能力或服務(wù):
首先,要有專屬的企業(yè)知識庫。企業(yè)在生產(chǎn)經(jīng)營中積累了大量文檔和數(shù)據(jù),這些是企業(yè)獨有的寶貴資產(chǎn),也是員工真正需要的知識。通用大模型無法涵蓋這些內(nèi)容,因此企業(yè)需要沉淀自己的知識庫并具備數(shù)據(jù)分析能力,以實現(xiàn)落地應(yīng)用。
其次,要有專屬的業(yè)務(wù)系統(tǒng)操作指南。經(jīng)過30多年的信息化建設(shè),企業(yè)內(nèi)部已有多套系統(tǒng),每套系統(tǒng)都有獨特的業(yè)務(wù)特性和操作流程。智能體要實現(xiàn)自動化業(yè)務(wù)辦理,必須理解這些系統(tǒng)的操作規(guī)范,根據(jù)企業(yè)的業(yè)務(wù)流程來指導(dǎo)其操作。
第三,要支持模型的接入。大模型能力不斷進化,企業(yè)需要根據(jù)自身業(yè)務(wù)特性選擇并接入適合的大模型。一些企業(yè)可能需要對模型進行微調(diào),微調(diào)后的模型也必須能夠靈活接入智能體平臺,以發(fā)揮其最大效能。
最后,要支持私有化部署。出于數(shù)據(jù)安全、風(fēng)控和監(jiān)管等因素,大型企業(yè)更傾向于私有化部署方案。實在Agent支持多種環(huán)境的私有化部署和國產(chǎn)化適配,滿足企業(yè)在合規(guī)基礎(chǔ)上的智能化升級需求。
這四點,很好地總結(jié)了企業(yè)級Agent的特點,當(dāng)然也把真正的通用智能體門檻提升了幾個Level。從這幾點而言,在原有企業(yè)級平臺及解決方案的基礎(chǔ)上打造的智能體,先一步成為了企業(yè)級通用智能體,這也是我之前一直在說的TO B類的企業(yè)會優(yōu)先吃上智能體紅利的一個主要原因。
圖:實在Agent的終極價值與核心能力
除了這幾點,實在智能將智能體的落地經(jīng)驗總結(jié)為成本可控、安全可用、靈活接入,非常形象的概括了企業(yè)級智能體解決方案的特色,當(dāng)然也體現(xiàn)了廣大企業(yè)的痛點所在。實在智能對于企業(yè)級智能體的定義,給行業(yè)樹立了一個標桿。
后記:與AI共舞,掌控萬物
在企業(yè)生產(chǎn)環(huán)境下,通用大模型基本不太可用,“大模型+API”模式的通用智能體則在夸系統(tǒng)跨應(yīng)用方面捉襟見肘。因此想要在現(xiàn)階段更好的應(yīng)用大模型和智能體,就需要企業(yè)根據(jù)自身的應(yīng)用生態(tài)和技術(shù)路徑選擇相應(yīng)的解決方案。
這其中,新興的大模型、知識庫等技術(shù)與企業(yè)已經(jīng)實施的RPA、BI、OA、BPA等應(yīng)用的連接與融合都是繞不開的選擇。企業(yè)唯一需要考慮的,就是如何讓新舊技術(shù)融合到一起讓不同階段投資的系統(tǒng)流暢運行以快速、高效、低成本地支撐業(yè)務(wù)更好地運營。
所以,全方位考慮企業(yè)需求并且包容各種技術(shù)與應(yīng)用元素的解決方案才是企業(yè)應(yīng)用智能體等技術(shù)的最優(yōu)解,而RPA Agent解決方案也成了企業(yè)管理經(jīng)營的必然考慮因素。
本文轉(zhuǎn)載自???王吉偉???,作者:王吉偉?
