生成式AI人機(jī)協(xié)同有哪幾種模式? 原創(chuàng)
當(dāng)今科技的浪潮席卷而來,生成式人工智能(AI)正成為這場數(shù)字革命的中堅力量。在這個迅速演進(jìn)的領(lǐng)域中,我們見證了一個接一個的創(chuàng)新和人機(jī)交互方式的變革。人機(jī)協(xié)同(human-machine synergy)就是將人和機(jī)器組成一個團(tuán)隊,集成人類智能和人工智能,促進(jìn)人機(jī)自主交互,協(xié)作共贏。人工智能研究的主要驅(qū)動力一直是機(jī)器與人類認(rèn)知的協(xié)作與競爭,如機(jī)器在國際象棋中擊敗人類或者通過圖靈測試,從而證明要么是機(jī)器比人類更好,要么是人類在某些領(lǐng)域比計算機(jī)做得更好。但是,人工智能總會具有一定的局限性,它不能完全構(gòu)建人類大腦的功能。
生成式AI的智能革命演化至今,從人機(jī)協(xié)同呈現(xiàn)了三種模式:
- 嵌入(embedding)模式:某個環(huán)節(jié)里去調(diào)用大模型
- 副駕駛(Copilot)模式:每個環(huán)節(jié)都可以跟大模型進(jìn).行交互
- 智能體(Agent)模式:任務(wù)交給大模型,大模型即可自行計劃、分解和自動執(zhí)行,這種模式下,AI充分體現(xiàn)了智能體的互動性、自主性和適應(yīng)性特征,接近于獨立的行動者,而人類則更多地扮演監(jiān)督者和評估者的角色。
嵌入模式中,人類通過拆解目標(biāo)引導(dǎo)AI完成任務(wù),突顯了人類在決策中的主導(dǎo)作用;副駕駛模式中,人類與AI共同促成了目標(biāo)的達(dá)成;而智能體模式則展現(xiàn)了生成式AI更強(qiáng)的獨立性,因為其能夠自主理解、拆解、規(guī)劃和執(zhí)行任務(wù)。
這三種模式中,決策權(quán)逐漸由人類轉(zhuǎn)向AI。這一演變揭示了生成式AI與人類協(xié)作的不同層次,呈現(xiàn)出由人類主導(dǎo)到與AI共同決策,再到AI自主執(zhí)行的趨勢。以大語言模型為驅(qū)動,可自主化完成復(fù)雜任務(wù)的Agent智能體,必將深度參與到創(chuàng)意構(gòu)思環(huán)節(jié),為解決問題提出自己的想法。
01「 Embedding模式 」
在生成式AI的智能革命中,嵌入模式率先出現(xiàn)在人們生活中。在這一模式下,用戶可以在拆解目標(biāo)后,通過提供一系列提示詞或者關(guān)鍵詞來明確具體的支線任務(wù),這也成為了AI理解用戶意圖的關(guān)鍵因素。這種互動機(jī)制使得AI能夠更準(zhǔn)確地捕捉用戶需求,并在后續(xù)互動中逐步完善細(xì)節(jié)。整個過程中,模型的生成能力得以充分展現(xiàn)。
以創(chuàng)造性任務(wù)為例,當(dāng)我們要寫一篇小說,我們首先需要確定題材,故事方向以及故事框架。這些都是創(chuàng)作過程的基礎(chǔ),基于此才能夠繼續(xù)補(bǔ)充細(xì)節(jié)。在嵌入模式中,人類作為決策者需要將整體目標(biāo)拆分為一系列可以逐步完成的任務(wù)。在后續(xù)與AI的互動中,我們可以逐步輸入各個分解出的任務(wù),指導(dǎo)AI按照我們設(shè)定的步驟完成創(chuàng)作的不同階段。例如,我們可以通過提示詞來讓AI創(chuàng)造主要人物、設(shè)定故事大綱,然后逐漸引導(dǎo)AI填充故事細(xì)節(jié)。在這一過程中,人類作為主導(dǎo)者,通過拆解目標(biāo)、提供清晰指導(dǎo),有效地引導(dǎo)AI完成各個任務(wù),最終形成一篇符合我們要求的完整的小說。
總的來說,在嵌入模式下,人類首先設(shè)定了目標(biāo),然后拆分成具體步驟并且以自然語言與AI交互,逐步引導(dǎo)AI生成我們想要的結(jié)果。因此,這一模式的特點主要在于人類主導(dǎo)決策,而AI則充當(dāng)執(zhí)行人類命令的工具。
嵌入模式在各個領(lǐng)域都展現(xiàn)了卓越的應(yīng)用價值,尤其在文學(xué)創(chuàng)作、影視編劇、廣告創(chuàng)意等領(lǐng)域表現(xiàn)突出。通過與AI的創(chuàng)意合作,用戶得以更靈活地打造符合用戶個性的創(chuàng)意作品,減少靈感卡頓的情況出現(xiàn)。同時,這一模式的出現(xiàn)也為創(chuàng)作者提供了全新的創(chuàng)作方式。
在設(shè)計領(lǐng)域,通過將AI功能(如智能擴(kuò)圖、一鍵摳圖、文字生圖等)嵌入到現(xiàn)有軟件界面中,能直接提升設(shè)計工具的智能化水平,設(shè)計師可以在熟悉的環(huán)境和流程中調(diào)用這些AI功能,無需額外學(xué)習(xí)新的工具,輕松獲得即時的智能支持。這種內(nèi)嵌策略應(yīng)該是讓AI最快落地應(yīng)用的方式之一,例如Photoshop Beta、MasterGo Al都通過這種方式快速實現(xiàn)了產(chǎn)品的智能化升級。
但Embedding模式的局限性也是顯而易見的,受限于工具現(xiàn)有架構(gòu),強(qiáng)大的AI功能多為散點式的存在,無法形成協(xié)同效應(yīng)。因此,Embedding模式更像是現(xiàn)階段應(yīng)對生成式AI大潮的過渡方案。
02「 Copilot模式 」
Copilot概念是由微軟在2021年引入的,它的主要功能是為開發(fā)者在編寫代碼的過程中提供實時的代碼建議。這些建議不僅包括簡單的代碼補(bǔ)全,還能生成整段的代碼,從而極大地提升了開發(fā)效率。當(dāng)AI識別到代碼需要補(bǔ)全時,它會分析已有的代碼結(jié)構(gòu),然后列出后續(xù)可補(bǔ)全的代碼供開發(fā)者選擇。隨后的工作階段中,人類與AI之間的不斷交互變得至關(guān)重要。在此之后,AI持續(xù)提供建議,而人類則負(fù)責(zé)根據(jù)項目需求來進(jìn)行選擇和調(diào)整。這種模式下,AI將全程參與整個工作流程,從提供初始建議、給出框架,一直到協(xié)助完成流程的各個階段。在這種合作伙伴關(guān)系中,AI不僅僅是一個工具,更是一個知識豐富的助手。
AI不僅在后續(xù)流程中與人類互動生成最終結(jié)果,而且在拆分目標(biāo)時,也能協(xié)助人類理清目標(biāo)構(gòu)成。尤其是那些對于目標(biāo)領(lǐng)域不熟悉的人,AI能夠幫助他們梳理思路,從而更有效地達(dá)成目標(biāo)。因此,在副駕駛模式下,AI通過對目標(biāo)任務(wù)的分析,構(gòu)建了解決方案,從而增強(qiáng)了決策的效率,并且在后續(xù)的進(jìn)程中也提供了有力的支持與指導(dǎo),來確保任務(wù)的高質(zhì)量完成。
副駕駛模式的全面應(yīng)用為辦公工作帶來了更為智能、高效的體驗。當(dāng)接收到設(shè)計需求的那一刻起,Copilot便能夠基于強(qiáng)大的知識庫和用戶數(shù)據(jù),對設(shè)計需求進(jìn)行分析,并給出具體的設(shè)計建議(如框架布局、內(nèi)容元素、顏色搭配等),還可以生成參考方案。
形態(tài)上我們可以參考目前較火的AI搜索類產(chǎn)品,Copilot可能會以插件或者懸浮窗口的方式存在,方便設(shè)計師隨時調(diào)用。調(diào)起界面后,用戶可以輸入自己的設(shè)計需求,也可以上傳相關(guān)需求文檔,給AI越多背景資料,結(jié)果可能越精準(zhǔn)可用,接著是選擇自己的生成訴求。開始生成后,基于用戶勾選的內(nèi)容依次生成,除了對于設(shè)計需求的分析和文檔的解析,還可以利用AI的搜索能力,整理主題相關(guān)的延伸閱讀材料供設(shè)計師參考。
在設(shè)計分析模塊,圍繞不同的設(shè)計類型生成建議內(nèi)容,比如我要設(shè)計的是一張海報,生成內(nèi)容就可能會包括標(biāo)題、版式布局、尺寸、字體、背景等海報設(shè)計元素。
Copilot模式對于協(xié)同關(guān)系最大的改變是,AI不再只是智能化增強(qiáng)的圖形處理工具,而是成為與設(shè)計師緊密協(xié)作的得力助手,助力設(shè)計全流程的提質(zhì)提效。
03「 Agents模式 」
在生成式AI的智能革命中,智能體(Agents)模式是一種更為獨立和自主的模式。這種模式可以被理解為能夠自主理解人類提出的問題,并基于這種理解來進(jìn)行問題規(guī)劃,進(jìn)而自主決定需要執(zhí)行哪些復(fù)雜任務(wù)的智能體。換句話說,當(dāng)人類設(shè)定了目標(biāo)后,它不僅能夠提供關(guān)于“任務(wù)執(zhí)行框架”的建議,而且可以自主開始任務(wù)執(zhí)行,無需人類手動分配任務(wù)。在這一過程中,人類主要是進(jìn)行監(jiān)督和評估最終結(jié)果,而不需要在每個步驟中都參與進(jìn)去。
在智能體模式中,其核心流程可以被總結(jié)為三個能力的循環(huán):感知(Perception)、規(guī)劃(Planning)和行動(Action)。在感知、規(guī)劃和行動的循環(huán)中,智能體能夠在不斷地與環(huán)境的互動中來學(xué)習(xí)和優(yōu)化自身的行為。區(qū)別于嵌入模式和副駕駛模式,智能體模式具有更強(qiáng)的決策權(quán)、獨立性和自主性。它強(qiáng)調(diào)AI能夠自主感知環(huán)境,通過感知獲取信息,進(jìn)行規(guī)劃、拆分任務(wù)并自主執(zhí)行任務(wù)。這與嵌入模式中用戶主導(dǎo)、AI執(zhí)行命令,以及副駕駛模式中用戶與AI合作完成任務(wù)的方式形成鮮明對比。
在設(shè)計領(lǐng)域,Agent可以被視為一個個擅長不同設(shè)計能力和擁有不同經(jīng)驗知識的虛擬設(shè)計師,支持自由選擇、組合或刪除,同時我們根據(jù)需求所需能力,為Agent外掛各種工具,并能將業(yè)務(wù)專屬的知識數(shù)據(jù)上傳供其學(xué)習(xí)。整個過程很像是為設(shè)計需求量身打造一個專屬的“AI設(shè)計團(tuán)隊”。設(shè)計師的角色因此被徹底改變,更多時候只是站在Leader的視角向AI發(fā)出設(shè)計需求,然后等待方案的呈現(xiàn),目標(biāo)設(shè)定,任務(wù)拆解和分配、生成設(shè)計指令、信息收集、方案生成由Agent全權(quán)代理并自動完成,AI成為真正意義上的創(chuàng)作主體,設(shè)計工作也將進(jìn)入“3D打印”的時代。對人而言,最重要的不再是創(chuàng)意能力、設(shè)計能力,而是審美能力、判斷能力和決策能力。
歷史經(jīng)驗告訴我們,技術(shù)進(jìn)步推動生產(chǎn)效率提升,進(jìn)而引發(fā)生產(chǎn)組織和社會關(guān)系的變革。作為本輪變革的核心驅(qū)動力,AI技術(shù)具備極強(qiáng)的前瞻性。信息架構(gòu)和框架布局受到用戶任務(wù)流程的影響,而任務(wù)流程源自產(chǎn)品/平臺所支持的功能范圍,功能范圍一方面基于用戶需求,另一方面則取決于技術(shù)的能力范圍。
Agent以大語言模型為核心驅(qū)動,具有自主感知理解、規(guī)劃決策、記憶反思和使用工具的能力,能夠自動化完成復(fù)雜任務(wù),Agent可以將大模型的能力發(fā)揮到極致,成為類人甚至超人的智能實體。Agent技術(shù)框架通常被認(rèn)為由四個關(guān)鍵模塊組成:
記憶模塊 負(fù)責(zé)存儲信息,包括過去的交互、學(xué)習(xí)到的知識,甚至是臨時的任務(wù)信息。
規(guī)劃模塊 包括事前規(guī)劃和事后反思兩個階段。在事前規(guī)劃階段,這里涉及對未來行動的預(yù)測和決策制定;在事后反思階段,智能體具有檢查和改進(jìn)制定計劃中不足之處的能力。
工具模塊 利用外部資源或工具來執(zhí)行任務(wù)。學(xué)習(xí)調(diào)用外部API來獲取模型權(quán)重中缺失的額外信息,以此來補(bǔ)足自身弱項。
行動模塊 實際執(zhí)行決定或響應(yīng)的部分。面對不同的任務(wù),智能體系統(tǒng)有一個完整的行動策略集,在決策時可以選擇需要執(zhí)行的行動。
擅長不同設(shè)計領(lǐng)域的大語言模型相當(dāng)于各種設(shè)計角色,如何來管理這些角色很重要,所需功能可能會有角色市場(官方或個人)、角色雇傭(臨時或買斷)、設(shè)計能力升級迭代、角色的組合搭配等。
記憶模塊大概需要兩個空間,一個空間存儲的是每次行動后自動沉淀的知識和經(jīng)驗,另一個空間則支持我們將業(yè)務(wù)材料、個性化數(shù)據(jù),甚至是既往設(shè)計作品等內(nèi)容進(jìn)行上傳,經(jīng)過學(xué)習(xí)快速成為Agent能力的一部分。
在規(guī)劃階段,相關(guān)分工的安排以及行動步驟的拆解應(yīng)避免黑箱操作,將任務(wù)鏈可視化有助于提升設(shè)計師的掌控感,這對處理好協(xié)同關(guān)系很重要。
工具方面,可能會通過工具庫或工具商城的形式聚合呈現(xiàn),支持各類設(shè)計工具和工具包的選配選購,還要具備增、刪、改、查等基礎(chǔ)的工具管理服務(wù)。
最后是行動,我認(rèn)為有兩個需要考慮的點,一是方案展示要結(jié)合文、圖、視頻內(nèi)容的特點,不能簡單的用一種框架去展示不同的設(shè)計作品,二是圖形處理功能以什么形式與agent對接。
智能體模式在自動駕駛、機(jī)器人控制、游戲設(shè)計等領(lǐng)域有著廣泛的應(yīng)用。在自動駕駛中,車輛可以通過感知道路、規(guī)劃路徑并執(zhí)行行駛,實現(xiàn)智能駕駛的目的。在機(jī)器人控制中,智能體模式賦予機(jī)器人更強(qiáng)的自主決策能力,使其能夠適應(yīng)不同的任務(wù)環(huán)境,例如廚房做飯等。
「 最后 」
總而言之,生成式AI正在深刻變革著各個行業(yè)。嵌入模式需要用戶通過對目標(biāo)的深入理解來拆解目標(biāo)并設(shè)定框架,然后將拆解后的任務(wù)給AI,讓其協(xié)助完成任務(wù)。它更強(qiáng)調(diào)了人類在決策和指導(dǎo)中的主導(dǎo)地位。對于副駕駛模式而言,用戶與AI作為合作伙伴,共同參與工作流程,決策權(quán)逐漸開始向AI傾斜。而智能體模式展現(xiàn)了更高的獨立性和自主性,其能夠自主理解問題、拆解問題、規(guī)劃決策并執(zhí)行任務(wù),人類更偏向監(jiān)督和最終的評估。
在這三種協(xié)作模式的演化中,AI參與決策的權(quán)重逐漸增加,呈現(xiàn)出了漸進(jìn)式的發(fā)展。隨著AI技術(shù)的廣泛應(yīng)用,未來我們不再需要使用各種不同的應(yīng)用程序來完成不同的任務(wù)。相反,只需用日常用語告訴手機(jī)或電腦想要完成什么任務(wù),它們就能夠處理我們的請求。在不遠(yuǎn)的將來,每個上網(wǎng)的人都將能夠擁有一個由人工智能驅(qū)動的個人助理,也就是“AI Agent”。智能體或?qū)氐赘淖冇脩羰褂糜嬎銠C(jī)的方式,期間可能還有很長的路要走。但,智能體的時代或許正在來到。
圖片及論文參考資料:
??https://www.leadbank.com.cn/newsinfo/6615399.html?templateId=1376870??
??https://zhuanlan.zhihu.com/p/659386520??
??https://support.microsoft.com/zh-cn/copilot-powerpoint??
本文轉(zhuǎn)載自公眾號數(shù)字化助推器 作者:天涯咫尺TGH
