Claude都能操縱計算機了,吳恩達:智能體工作流越來越成熟
受 ChatGPT 強大問答能力的影響,大型語言模型(LLM)提供商往往優(yōu)化模型來回答人們的問題,以提供良好的消費者體驗。
隨著智能體研究日趨成熟,優(yōu)化似乎有了新的方向。
人工智能著名學者、斯坦福大學教授吳恩達今天指出:「現(xiàn)在有一種趨勢是優(yōu)化模型以適應智能體工作流程,這將為智能體性能帶來巨大提升」,并撰寫一篇博客簡單闡述了這種趨勢。
我們對博客內(nèi)容進行了不改變原意的編譯、整理,以下是博客內(nèi)容:
繼 ChatGPT 在回答問題方面取得突破性成功之后,許多 LLM 的開發(fā)都集中在提供良好的消費者體驗上。因此,LLM 被調(diào)整為回答問題或遵循人類提供的指令。指令調(diào)整指導模型的數(shù)據(jù)集很大一部分可以為人類編寫的問題和指令提供更有用的答案,面向 ChatGPT、Claude、Gemini 等等。
但智能體工作負載不同,人工智能軟件不是直接為消費者生成響應,而是應該在迭代工作流程中:
- 反思自己的輸出;
- 使用工具;
- 編寫規(guī)劃;
- 在多智能體環(huán)境中進行協(xié)作。
主要模型制造商也越來越多地優(yōu)化用于 AI 智能體的模型。
以工具使用(或函數(shù)調(diào)用)為例。如果 LLM 被問及當前天氣,它將無法從訓練數(shù)據(jù)中獲取所需的信息。相反,它可能會生成 API 調(diào)用請求以獲取該信息。甚至在 GPT-4 原生支持函數(shù)調(diào)用之前,應用程序開發(fā)人員就已經(jīng)使用 LLM 來生成函數(shù)調(diào)用,通過編寫更復雜的提示來告訴 LLM 哪些函數(shù)可用,然后讓 LLM 生成用于確定是否要調(diào)用函數(shù)的字符串。
在 GPT-4 之后,生成此類調(diào)用變得更加可靠,然后許多其他模型本身就支持函數(shù)調(diào)用。如今,LLM 可以決定調(diào)用函數(shù)來搜索信息以進行檢索增強生成 (RAG)、執(zhí)行代碼、發(fā)送電子郵件、在線下訂單等等。
最近,Anthropic 推出了升級版的 Claude 3.5 Sonnet,能像人一樣使用計算機。這意味著 LLM 原生使用計算機方向向前邁出了一大步,將幫助許多開發(fā)人員。一些團隊還致力于讓 LLM 使用計算機構(gòu)建新一代 RPA(機器人流程自動化)應用程序。
隨著智能體工作流程的成熟,我看到的是:
- 首先,許多開發(fā)人員正在 prompt LLM 來執(zhí)行他們想要的智能體行為。這樣可以進行快速、豐富的探索!
- 在極少數(shù)情況下,開發(fā)非常有價值的應用程序的開發(fā)人員將微調(diào) LLM,以更可靠地執(zhí)行特定的智能體功能。例如,盡管許多 LLM 本身支持函數(shù)調(diào)用,但它們是通過將可用函數(shù)的描述作為輸入,然后(希望)生成輸出 token 以請求正確的函數(shù)調(diào)用來實現(xiàn)這一點的。對于生成正確函數(shù)調(diào)用非常重要的任務關(guān)鍵型應用程序,針對應用程序的特定函數(shù)調(diào)用微調(diào)模型可顯著提高可靠性。(但請避免過早優(yōu)化!我仍然看到太多團隊在進行微調(diào),而他們可能應該在采取這種做法之前花更多時間進行 prompt。)
- 最后,當諸如工具使用或計算機使用之類的能力對開發(fā)人員來說似乎很有價值時,主要的 LLM 提供商正在將這些能力直接構(gòu)建到他們的模型中。盡管 OpenAI o1-preview 的高級推理對消費者有幫助,但我預計它對于智能體推理和規(guī)劃會更有用。
大多數(shù) LLM 都針對回答問題進行了優(yōu)化,主要是為了提供良好的消費者體驗,我們已經(jīng)能夠?qū)⑺鼈儭敢浦病沟綇碗s的智能體工作流程中,以構(gòu)建有價值的應用程序。為支持智能體中的特定操作而構(gòu)建 LLM 的趨勢將為智能體性能帶來很大提升。我相信,在未來幾年內(nèi),在這個方向上將實現(xiàn)巨大的智能體能力提升。