自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

吳恩達(dá):別光盯著GPT-5,用GPT-4做個(gè)智能體可能提前達(dá)到GPT-5的效果

人工智能 新聞
最近,斯坦福大學(xué)教授吳恩達(dá)在演講中提到,他們發(fā)現(xiàn),基于 GPT-3.5 構(gòu)建的智能體工作流在應(yīng)用中表現(xiàn)比 GPT-4 要好。

AI 智能體是去年很火的一個(gè)話題,但是 AI 智能體到底有多大的潛力,很多人可能沒有概念。

最近,斯坦福大學(xué)教授吳恩達(dá)在演講中提到,他們發(fā)現(xiàn),基于 GPT-3.5 構(gòu)建的智能體工作流在應(yīng)用中表現(xiàn)比 GPT-4 要好。當(dāng)然,基于 GPT-4 構(gòu)建的智能體工作流效果更好。由此看來(lái),AI 智能體工作流將在今年推動(dòng)人工智能取得巨大進(jìn)步,甚至可能超過(guò)下一代基礎(chǔ)模型。這是一個(gè)值得所有人關(guān)注的趨勢(shì)。

這個(gè)關(guān)于智能體的演講在社交媒體上引發(fā)了廣泛關(guān)注。有人表示,這代表著 AI 發(fā)展中的范式轉(zhuǎn)變,體現(xiàn)了從靜態(tài)輸出到動(dòng)態(tài)迭代的轉(zhuǎn)變。站在這樣一個(gè)十字路口,我們不僅要思考 AI 如何改變我們的工作,還要思考我們?nèi)绾芜m應(yīng)它所創(chuàng)造的新環(huán)境。

還有人說(shuō),這和自己的生活經(jīng)驗(yàn)是相通的:有些人可以憑借良好的流程勝過(guò)那些比自己聰明的人。

那么,智能體的這種效果是怎么實(shí)現(xiàn)的呢?

和傳統(tǒng)的 LLM 使用方式不同,智能體工作流不是讓 LLM 直接生成最終輸出,而是多次提示(prompt)LLM,使其逐步構(gòu)建更高質(zhì)量的輸出。

在演講中,吳恩達(dá)介紹了 AI 智能體工作流的四種設(shè)計(jì)模式:


  • 反思(Reflection):LLM 檢查自己的工作,以提出改進(jìn)方法。
  • 工具使用(Tool use):LLM 擁有網(wǎng)絡(luò)搜索、代碼執(zhí)行或任何其他功能來(lái)幫助其收集信息、采取行動(dòng)或處理數(shù)據(jù)。
  • 規(guī)劃(Planning):LLM 提出并執(zhí)行一個(gè)多步驟計(jì)劃來(lái)實(shí)現(xiàn)目標(biāo)(例如,撰寫論文大綱、進(jìn)行在線研究,然后撰寫草稿......)。
  • 多智能體協(xié)作(Multi-agent collaboration):多個(gè) AI 智能體一起工作,分配任務(wù)并討論和辯論想法,以提出比單個(gè)智能體更好的解決方案。

在后續(xù)的博客中,吳恩達(dá)重點(diǎn)討論了反思(Reflection)模式。吳恩達(dá)表示:「反思模式是實(shí)現(xiàn)速度相對(duì)較快的設(shè)計(jì)模式,它已經(jīng)帶來(lái)了驚人的性能提升效果?!?/span>

他在博客中寫道:

我們可能都有過(guò)這樣的經(jīng)歷:提示 ChatGPT/Claude/Gemini,得到不滿意的輸出,提供關(guān)鍵反饋以幫助 LLM 改進(jìn)其響應(yīng),最終獲得更好的響應(yīng)。

如果將關(guān)鍵反饋的步驟交付給自動(dòng)化程序,讓模型自動(dòng)批評(píng)自己的輸出并改進(jìn)其響應(yīng),結(jié)果會(huì)怎樣?這正是反思模式的關(guān)鍵。

以要求 LLM 編寫代碼為例。我們可以提示它直接生成所需的代碼來(lái)執(zhí)行某個(gè)任務(wù) X。之后,我們可以提示它反思自己的輸出,如下所示:

這是任務(wù) X 的代碼:[之前生成的代碼]

仔細(xì)檢查代碼的正確性、風(fēng)格和效率,并對(duì)如何改進(jìn)它提出建設(shè)性意見。

有時(shí)這會(huì)使 LLM 發(fā)現(xiàn)問(wèn)題并提出建設(shè)性意見。接下來(lái),我們可以用上下文 prompt LLM,包括: 

  • 以前生成的代碼;
  • 建設(shè)性的反饋;
  • 要求它使用反饋來(lái)重寫代碼。

這可以讓 LLM 最終輸出更好的響應(yīng)。重復(fù)批評(píng) / 重寫過(guò)程可能會(huì)產(chǎn)生進(jìn)一步的改進(jìn)。這種自我反思過(guò)程使 LLM 能夠發(fā)現(xiàn)差距并改善其在各種任務(wù)上的輸出,包括生成代碼,編寫文本和回答問(wèn)題。

我們可以通過(guò)給 LLM 提供工具來(lái)幫助其評(píng)估產(chǎn)出。例如,通過(guò)幾個(gè)測(cè)試用例來(lái)運(yùn)行代碼,以檢查是否在測(cè)試用例上生成正確的結(jié)果,或者搜索網(wǎng)頁(yè)以檢查文本輸出。然后,LLM 可以反思它發(fā)現(xiàn)的任何錯(cuò)誤,并提出改進(jìn)的想法。

此外,我們可以使用多智能體框架來(lái)實(shí)現(xiàn)反思。創(chuàng)建兩個(gè)不同的智能體很方便,一個(gè)提示生成良好的輸出,另一個(gè)提示對(duì)第一個(gè)智能體的輸出給出建設(shè)性的批評(píng)。兩個(gè)智能體之間的討論推動(dòng)了響應(yīng)的改進(jìn)。

反思是一種相對(duì)基本的智能體工作流模式,但它在一些情況下顯著改善了應(yīng)用程序的結(jié)果。

最后,關(guān)于反思,吳恩達(dá)推薦了幾篇論文:

  •  “Self-Refine: Iterative Refinement with Self-Feedback,” Madaan et al., 2023
  •  “Reflexion: Language Agents with Verbal Reinforcement Learning,” Shinn et al., 2023
  •  “CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing,” Gou et al., 2024

在下文中,機(jī)器之心整理了本次演講的內(nèi)容。

吳恩達(dá):AI 智能體的未來(lái)

我很期待與大家分享我在 AI 智能體中所看到的。我認(rèn)為這是一個(gè)令人興奮的趨勢(shì)。我認(rèn)為每個(gè) AI 從業(yè)者都應(yīng)該關(guān)注這個(gè)趨勢(shì)。

我要分享的是 AI 智能體?,F(xiàn)在,我們大多數(shù)人使用大型語(yǔ)言模型的方式是這樣的:我們?cè)谝粋€(gè)非智能體工作流中,你把提示輸入到對(duì)話框中并生成答案。這有點(diǎn)像是我們讓一個(gè)人寫一篇關(guān)于某個(gè)主題的文章。我說(shuō),請(qǐng)坐到鍵盤前,從頭到尾打出一篇文章,中間不使用退格鍵。盡管這很難,AI 大模型還是做得非常好。

智能體工作流長(zhǎng)這個(gè)樣子(右圖)。有一個(gè) AI 大模型,你可以讓它寫一份論文大綱。你需要上網(wǎng)查資料嗎?如果需要,我們就聯(lián)網(wǎng)。然后寫初稿、讀初稿,并思考哪些部分需要修改。然后修改你的初稿并繼續(xù)推進(jìn)。所以這個(gè)工作流程更容易迭代。你可以讓 AI 大模型進(jìn)行一些思考,然后修改這篇文章,然后繼續(xù)思考和迭代。按照這個(gè)步驟迭代多次。

很多人都沒有意識(shí)到的是,這么做的效果好得多。其實(shí)我自己也很驚訝。對(duì)于它們的工作決策流程,以及它們優(yōu)秀的表現(xiàn)。除了這些個(gè)案研究,我的團(tuán)隊(duì)也分析了一些數(shù)據(jù),使用名為 HumanEval 的編程評(píng)估基準(zhǔn)。這是 OpenAI 幾年前發(fā)布的。這上面有一些編程問(wèn)題,比如給定一個(gè)非空整數(shù)列表,返回位于偶數(shù)位置的所有奇數(shù)元素的和。AI 生成的答案是像這樣的代碼片段。

如今我們很多人會(huì)使用零樣本提示。比如我們告訴 AI 編寫代碼,并讓它在第一個(gè)位置運(yùn)行。誰(shuí)這樣編碼?沒有人這樣寫代碼。我們只需輸入代碼并運(yùn)行它。也許你這么編碼,但我做不到。事實(shí)證明,如果你使用 GPT-3.5,在零樣本提示的條件下,GPT-3.5 的準(zhǔn)確率是 48%。GPT-4 要好得多,達(dá)到了 67%。但如果你采用的是智能體工作流,并將其打包,GPT-3.5 實(shí)際上能表現(xiàn)更好,甚至比 GPT-4 還好。如果你圍繞 GPT-4 構(gòu)建這樣的工作流,GPT-4 也能表現(xiàn)很好。注意,處于智能體工作流中的 GPT-3.5 實(shí)際上優(yōu)于 GPT-4。我認(rèn)為這已經(jīng)是一個(gè)信號(hào)。

所有人都在圍繞智能體這個(gè)術(shù)語(yǔ)和任務(wù)進(jìn)行大量的討論。有很多咨詢報(bào)告,關(guān)于智能體、AI 的未來(lái),等等等等。我想具體一點(diǎn),分享一下我在智能體中看到的廣泛設(shè)計(jì)模式。這是一個(gè)非?;靵y、混沌的空間。有很多研究,有很多事情正在發(fā)生,我嘗試更具體地分一下類,更具體地聊一下智能體領(lǐng)域發(fā)生的事情。

reflection(反思)是一種工具,我認(rèn)為我們中的許多人都在使用。它很有效。我認(rèn)為「tool use」得到了更廣泛的認(rèn)可,但 reflection 實(shí)際上效果也很好。我認(rèn)為它們都是非常強(qiáng)大的技術(shù)。當(dāng)我使用它們時(shí),我?guī)缀蹩偰茏屗鼈児ぷ鞯煤芎?。?guī)劃和多智能體協(xié)作,我認(rèn)為屬于正在興起的技術(shù)。在使用它們時(shí),有時(shí)我對(duì)它們的工作效果感到震驚。但至少在目前這個(gè)時(shí)刻,我覺得我無(wú)法讓它們總是可靠地工作。

接下來(lái)我將詳細(xì)解釋這四種設(shè)計(jì)模式。如果你們中的一些人回去自己用,或者讓你們的工程師使用這些模式,我認(rèn)為你可以很快獲得生產(chǎn)力的提升。

首先是 reflection,舉個(gè)例子:假設(shè)我問(wèn)一個(gè)系統(tǒng),請(qǐng)為我編寫給定任務(wù)的代碼。然后我們有一個(gè)代碼智能體,只是一個(gè)接受你編寫的提示的大模型。它會(huì)寫一個(gè)如圖所示的函數(shù)。這里還有一個(gè) self reflection 的例子。如果你給你的大模型寫出這樣的提示,告訴它這是用于執(zhí)行某個(gè)任務(wù)的代碼,把你剛剛生成的代碼給它,然后讓它檢查這段代碼的正確性、效率等等類似的問(wèn)題。結(jié)果你會(huì)發(fā)現(xiàn),根據(jù)你的提示寫出代碼的那個(gè)大模型,可能能夠發(fā)現(xiàn)代碼里的問(wèn)題,比如第五行的 bug。還會(huì)告訴你怎么修改。如果你現(xiàn)在采納了它的反饋并再次給它提示,它可能會(huì)提出一個(gè)比第一個(gè)版本更好的第二版代碼。不能保證一定如此,但它是有效的。這種方法在很多應(yīng)用中都值得嘗試。

這里提前說(shuō)一下 tool use。如果你讓它運(yùn)行單元測(cè)試,而它沒有通過(guò),你想知道為什么沒通過(guò)。進(jìn)行這樣的對(duì)話,也許能找出原因。這樣你就能試著去改正。順便說(shuō)一下,如果大家對(duì)這些技術(shù)感興趣,我在每一部分的幻燈片底部都寫了一個(gè)小小的推薦閱讀部分,就在 PPT 底部。里面有更多的參考資料。

這里提前說(shuō)一下多智能體系統(tǒng)。它被描述為單個(gè)代碼智能體,你給它提示,讓它們進(jìn)行對(duì)話。這種想法的一個(gè)自然演變是單個(gè)編程智能體。你可以有兩個(gè)智能體,其中一個(gè)是編碼智能體,另一個(gè)是評(píng)價(jià)智能體。它們背后的大模型可能是同一個(gè),但你給它們的提示不一樣。我們對(duì)其中一個(gè)說(shuō),你是寫代碼的專家,負(fù)責(zé)編寫代碼。對(duì)另一個(gè)說(shuō),你是審核代碼的專家,負(fù)責(zé)審核這段代碼。這種工作流實(shí)際上很容易實(shí)現(xiàn)。我認(rèn)為這是一種非常通用的技術(shù),適用于很多工作流。這將為大型語(yǔ)言模型的性能帶來(lái)顯著的提升。

第二種設(shè)計(jì)模式是 tool use(工具使用)。許多人可能已經(jīng)見過(guò)基于大模型的系統(tǒng)使用工具。左邊是一個(gè)截圖,來(lái)自 Copilot。右邊的截圖,來(lái)自 GPT-4。左邊的問(wèn)題是,網(wǎng)上最好的咖啡機(jī)是哪個(gè)?Copilot 會(huì)通過(guò)上網(wǎng)檢索來(lái)解決一些問(wèn)題。GPT-4 將會(huì)生成代碼并運(yùn)行代碼。事實(shí)證明,有很多不同的工具被人們用于分析、收集信息以采取行動(dòng)、提高個(gè)人生產(chǎn)力。事實(shí)證明,很多早期工作關(guān)于 tool use 的工作,原來(lái)都是在計(jì)算機(jī)視覺社區(qū)。因?yàn)橹?,大型語(yǔ)言模型對(duì)圖像無(wú)能為力,所以唯一的選擇就是大模型生成一個(gè)函數(shù)調(diào)用,可以用來(lái)操作圖像,比如生成圖像或者做目標(biāo)檢測(cè)什么的。讓我們看看文獻(xiàn),有趣的是,tool use 領(lǐng)域的很多工作似乎都起源于視覺社區(qū),因?yàn)橹暗拇竽P筒粫?huì)看圖像,在 GPT-4V、LLaVA 等模型出現(xiàn)之前。這就是 tool use,它擴(kuò)展了大型語(yǔ)言模型的能力。

接下來(lái)講 planning(規(guī)劃)。對(duì)于沒有大量接觸過(guò)規(guī)劃算法的人來(lái)說(shuō),我覺得很多人在談?wù)?ChatGPT 時(shí)刻的時(shí)候,你會(huì)覺得,「哇,從未見過(guò)這樣的東西」。我想你還沒有使用過(guò)規(guī)劃算法。很多人看到 AI 智能體會(huì)很驚訝,「哇,我沒想到 AI 智能體能做這些」。在我進(jìn)行的一些現(xiàn)場(chǎng)演示中,有些演示會(huì)失敗,AI 智能體會(huì)重新規(guī)劃路徑。我實(shí)際上經(jīng)歷過(guò)很多這樣的時(shí)刻,「哇,我不敢相信我的 AI 系統(tǒng)剛剛自動(dòng)做到了這一點(diǎn)」。其中一個(gè)例子是從 HuggingGPT 論文中改編的。你輸入的是:請(qǐng)生成一張圖像,一個(gè)女孩在看書,她的姿態(tài)和圖像中的男孩一樣。然后用你的聲音描述這張新圖像。給定一個(gè)這樣的例子,今天有了 AI 智能體,你可以確定第一件要做的事是確定男孩的姿態(tài)。然后找到合適的模型,也許在 HuggingFace 上能找到,提取姿態(tài)。接下來(lái)需要找到一個(gè)姿態(tài)圖像模型,遵循指令生成一張女孩的圖像。然后使用圖像 - 文本模型得到描述。最后使用文本轉(zhuǎn)語(yǔ)音模型讀出描述。

我們今天已經(jīng)有了 AI 智能體,我不想說(shuō)它們工作可靠,它們還有點(diǎn)挑剔,并不總是好用。但當(dāng)它們起作用時(shí),實(shí)際上效果是非常驚人的。

有了智能體循環(huán),有時(shí)你可以改掉前期的問(wèn)題。我自己已經(jīng)在使用研究智能體了。對(duì)于我的一些工作,我并不想自己花很多時(shí)間進(jìn)行谷歌搜索。我會(huì)把需求發(fā)給 AI 智能體,幾分鐘后回來(lái)看看它做了什么。它有時(shí)有效,有時(shí)不行。但那已經(jīng)是我個(gè)人工作流的一部分。

最后要講的模式是多智能體協(xié)作。這部分很有趣,它的效果比你想象的要好得多。左邊這張圖來(lái)自一篇名為 ChatDev 的論文。它是完全開源的,你們中的許多人都在社交媒體上看過(guò) Devin 的演示。ChatDev 是開源的,它在我的筆記本電腦上運(yùn)行。ChatDev 是多智能體系統(tǒng)的一個(gè)實(shí)例。你可以給它一個(gè)提示,它有時(shí)扮演軟件引擎公司的 CEO,有時(shí)扮演設(shè)計(jì)師,有時(shí)又是產(chǎn)品經(jīng)理,有時(shí)是測(cè)試人員。這群智能體是你通過(guò)給大模型提示來(lái)構(gòu)建的,告訴它們「你現(xiàn)在是 CEO / 你現(xiàn)在是軟件工程師」。他們會(huì)協(xié)作,會(huì)進(jìn)一步對(duì)話。如果你告訴它們,「請(qǐng)開發(fā)一款游戲」,它們會(huì)花幾分鐘寫代碼,然后進(jìn)行測(cè)試、迭代,然后生成一個(gè)令人驚訝的復(fù)雜程序,雖然并不總是能運(yùn)行。我已經(jīng)試過(guò)了,有時(shí)生成結(jié)果用不了,有時(shí)候又很驚艷。但是這項(xiàng)技術(shù)真的越來(lái)越好了。這是其中一種設(shè)計(jì)模型。此外,事實(shí)證明,多智能體辯論(你有多個(gè)智能體),比如說(shuō),你可以讓 ChatGPT 和谷歌的 Gemini 辯論,這實(shí)際上會(huì)帶來(lái)更好的性能。因此,讓多個(gè)相似的 AI 智能體一起工作,也是一個(gè)強(qiáng)大的設(shè)計(jì)模式。

總結(jié)一下,這些是我看到的模式。我認(rèn)為如果我們?cè)谖覀兊墓ぷ髦惺褂眠@些模式,我們中的很多人可以很快獲得實(shí)踐上的提升。我認(rèn)為智能體推理設(shè)計(jì)模式將會(huì)非常重要。這是我的簡(jiǎn)要 PPT。我預(yù)計(jì),今年 AI 能做的事情將大幅擴(kuò)展,這得益于智能體工作流。

有一件事實(shí)際上很困難,就是人們需要習(xí)慣在輸入提示之后,我們總想立即得到結(jié)果。實(shí)際上,十幾年前,當(dāng)我在谷歌討論 big box search 時(shí),我們輸入了一個(gè)很長(zhǎng)的提示。我沒有成功推動(dòng)這一項(xiàng)目的一個(gè)原因是,在進(jìn)行網(wǎng)絡(luò)搜索時(shí),你想在半秒鐘內(nèi)得到回復(fù)。這是人性使然 —— 我們喜歡即時(shí)獲取、即時(shí)反饋。但是對(duì)于很多 AI 智能體工作流來(lái)說(shuō),我想我們需要學(xué)會(huì)分配任務(wù)給 AI 智能體,并耐心地等待幾分鐘,甚至幾小時(shí),等它給出回應(yīng)。我見過(guò)很多新晉管理者,將某事委托給某人,然后五分鐘后檢查結(jié)果。這不是一種有效的工作方式。我想我們需要,這真的很難。我們也需要對(duì)我們的 AI 智能體多點(diǎn)耐心。

另一個(gè)重要的事情是,快速的 token 生成是非常重要的。因?yàn)橛眠@些 AI 智能體,我們一遍又一遍地迭代。AI 生成供人閱讀的 token。如果 AI 生成 token 的速度比任何人的閱讀速度都快,那就太棒了。我認(rèn)為,快速生成更多 token,即使用的是質(zhì)量稍低的大模型,也能帶來(lái)很好的結(jié)果。與用更好的大模型慢慢生成 token 相比,或許這點(diǎn)是有爭(zhēng)議的。因?yàn)樗赡茏屇阍谶@個(gè)循環(huán)中反復(fù)更多次。這有點(diǎn)像我在前面的幻燈片上展示的大模型和智能體架構(gòu)的結(jié)果。

坦率地說(shuō),我非常期待 Claude 4、GPT-5 和 Gemini 2.0,以及其他正在構(gòu)建的出色大模型。我感覺,如果你期待在 GPT-5 上運(yùn)行你的任務(wù),以零樣本的方式,你可能在一些 AI 智能體應(yīng)用上接近那個(gè)水平的性能,這可能超乎你的想象,有了智能體推理,再加上之前發(fā)布的大模型。我認(rèn)為這是一個(gè)重要的趨勢(shì)。老實(shí)說(shuō),通往 AGI 的道路感覺更像是一段旅程而不是目的地,我認(rèn)為這套智能體工作流可以幫助我們?cè)谶@漫長(zhǎng)的旅程中向前邁出一小步。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-11-27 13:06:41

2024-01-22 13:57:00

模型訓(xùn)練

2023-03-30 13:47:11

AI

2024-04-10 11:47:41

人工智能ChatGPT

2023-09-03 12:56:43

2024-05-14 07:30:52

OpenAIGPT-4模型

2023-03-17 07:33:24

GPT-5GPT-4OpenAI

2024-01-18 12:30:03

2023-11-09 12:41:04

AI模型

2024-01-09 12:53:16

模型訓(xùn)練

2023-04-13 13:38:59

2023-11-16 15:57:00

數(shù)據(jù)訓(xùn)練

2023-06-16 13:02:22

GPT-5GPT-4AI

2023-07-04 13:42:00

代碼訓(xùn)練

2023-06-08 07:58:29

2023-08-02 00:19:46

2023-08-02 13:52:59

GPT-5模型

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2025-02-13 10:52:56

2023-08-10 15:22:48

人工智能OpenAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)