自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自主智能體提前實現(xiàn)了?!大佬自研Python工具包,讓大模型成為生產(chǎn)級水準(zhǔn),免費可用!智能體可自主反饋,人類只需批準(zhǔn)即可

原創(chuàng) 精選
人工智能
想要讓AI達到“生產(chǎn)級”的可靠性,取決于“AI所執(zhí)行的任務(wù)有多危險”。但問題就在于時間成本是很昂貴的,Dex團隊沒有3個多月的時間來進行評估、微調(diào)和提示工程,以達到代理99.9+%的可靠性。即使做到了,讓決策者放心地按下開關(guān)也是一項挑戰(zhàn)。

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

2025年,都知道智能體會爆發(fā),然而,即將爆發(fā)的智能體會長成什么樣子?

它不再只是一個“對話界面”那么簡單,也不再將是“給你一項任務(wù),去完成吧”的人類主動發(fā)起的各種工具調(diào)用(滾動聊天界面),而是一個真正意義上的自發(fā)發(fā)起任務(wù),自動執(zhí)行,但會在關(guān)鍵環(huán)節(jié)提醒人類進行批準(zhǔn)確認的高級智能。

圖片圖片

這一點不再是空穴來風(fēng),已經(jīng)有玩家開始入場做嘗試了,就在剛剛,一個名為Humanlayer的產(chǎn)品在圈內(nèi)走紅,它能讓AI代理聯(lián)系人類,讓AI真得像得力助手一樣,只需要批準(zhǔn)確認就行。重點在于,它會主動聯(lián)系你,獲取你的反饋、意見和建議以及審批。

從Demo效果看,非常震撼!

多說一嘴,Humanlayer免費可用,且已經(jīng)放到了Github上:

https://github.com/humanlayer/humanlayer?tab=readme-ov-file

并且提供了免費套餐和透明的基于使用量的定價,等不及的朋友可以可以通過提供的Python或TypeScript SDK進行嘗試,立即可以免費試用。

1.讓大模型達到生產(chǎn)級水準(zhǔn)

嚴格意義上講,Humanlayer還不能稱之為產(chǎn)品,更多是一個API或者Python工具包,它可以讓自己的AI系統(tǒng)能夠安全地部署到生產(chǎn)環(huán)境中。

創(chuàng)始人Dex介紹,真正令人興奮之處在于,“它讓團隊能夠部署那些原本風(fēng)險過高的AI系統(tǒng),讓你能夠?qū)W⒂跇?gòu)建強大的代理,同時知道關(guān)鍵步驟將始終有人類參與。當(dāng)人們開始將動態(tài)人類監(jiān)督視為生產(chǎn)AI系統(tǒng)中的關(guān)鍵要素,并因此考慮更大的格局時,這真是太棒了?!?/p>

Dex這個項目的起始原因是這樣一個智能體落地企業(yè)的痛點——在生產(chǎn)環(huán)境使用或落地大模型時,也經(jīng)常會遇到類似的問題。

“這一切始于我們?yōu)閿?shù)據(jù)團隊構(gòu)建AI代理的時候,我們想要自動化一些繁瑣的任務(wù),比如刪除未使用的表格,但客戶理所當(dāng)然地會反對讓AI代理直接訪問生產(chǎn)系統(tǒng)。”

想要讓AI達到“生產(chǎn)級”的可靠性,取決于“AI所執(zhí)行的任務(wù)有多危險”。但問題就在于時間成本是很昂貴的,Dex團隊沒有3個多月的時間來進行評估、微調(diào)和提示工程,以達到代理99.9+%的可靠性。即使做到了,讓決策者放心地按下開關(guān)也是一項挑戰(zhàn)。

后來,Dex構(gòu)建了一些基本的審批流程,比如“在刪除表格前在Slack中詢問”。

但這種溝通本身也需要規(guī)范——如果代理聯(lián)系錯了人怎么辦?如果一個團隊負責(zé)人購買的工具向CEO發(fā)送了一條煩人的Slack消息,他會怎么想?

后來,客戶希望代理向利益相關(guān)者請求批準(zhǔn),有意思的是,客戶首先想要批準(zhǔn)的恰恰是“請求批準(zhǔn)”這一行為本身。基于此,Dex開始思考:作為產(chǎn)品構(gòu)建者和所有者,我也想批準(zhǔn)“請求批準(zhǔn)‘請求批準(zhǔn)’”這一行為!

緊接著,Dex團隊搭建了一個人機交互系統(tǒng),可以在他和客戶的Slack實例中處理上述這些情況。這件事情讓Dex確信任何構(gòu)建AI代理的團隊都需要這種基礎(chǔ)設(shè)施,并決定將其作為一個獨立產(chǎn)品來打造。

“我在舊金山的一次AI聚會上展示了最小可行性產(chǎn)品(MVP),并進行了很多精彩的交流,然后全身心投入到HumanLayer的構(gòu)建中?!?/p>

2.如何做到的?

大家都知道,功能和工具是Agentic工作流的關(guān)鍵組成部分。它們使大語言模型(LLMs)能夠與外界進行有意義的交互,并自動化執(zhí)行廣泛且具有影響力的工作。對于執(zhí)行諸如預(yù)約、與客戶互動、管理賬單信息、編寫和執(zhí)行代碼等有意義任務(wù)的AI代理而言,正確且準(zhǔn)確的功能調(diào)用至關(guān)重要。

然而,我們能為LLMs提供的最有用的功能也是最具風(fēng)險的。我們都能想象到一個AI數(shù)據(jù)庫管理員不斷調(diào)優(yōu)和重構(gòu)我們的SQL數(shù)據(jù)庫所帶來的價值,但大多數(shù)團隊不會允許LLM在生產(chǎn)數(shù)據(jù)庫上執(zhí)行任意SQL語句(甚至我們大多數(shù)時候都不允許人類這么做)。

也就是說:即使擁有最先進的代理推理和提示路由技術(shù),LLMs在沒有人類監(jiān)督的情況下訪問高風(fēng)險功能仍然不夠可靠。

首先,Dex團隊定義了生產(chǎn)環(huán)境下什么功能是高風(fēng)險的?以下是一些示例:

低風(fēng)險:訪問公共數(shù)據(jù)的讀取權(quán)限(例如搜索維基百科、訪問公共API和數(shù)據(jù)集)低風(fēng)險:與代理作者通信(例如,工程師可能會授權(quán)一個代理向他們發(fā)送包含進度更新的私人Slack消息)中風(fēng)險:訪問私有數(shù)據(jù)的讀取權(quán)限(例如讀取電子郵件、訪問日歷、查詢CRM)中風(fēng)險:在嚴格規(guī)則下通信(例如,根據(jù)特定序列的硬編碼電子郵件模板發(fā)送郵件)高風(fēng)險:代表我個人或公司通信(例如發(fā)送電子郵件、在Slack上發(fā)布消息、發(fā)布社交/博客內(nèi)容)高風(fēng)險:對私有數(shù)據(jù)的寫入權(quán)限(例如更新CRM記錄、修改功能開關(guān)、更新賬單信息)

圖片圖片

Dex分析認為,高風(fēng)險功能是最有價值且自動化人類工作流程影響最大的功能,但它們也是“90%準(zhǔn)確率”不可接受的功能。當(dāng)今大語言模型(LLMs)傾向于產(chǎn)生幻覺或生成低質(zhì)量的、明顯由AI生成的文本,這進一步影響了可靠性。

團隊越早能讓代理以高質(zhì)量輸入可靠且安全地調(diào)用這些工具,他們就能越早獲得巨大收益。

HumanLayer就是圍繞能夠確定性地保證對高風(fēng)險功能調(diào)用的人類監(jiān)督,提供了一套工具。即使LLM出現(xiàn)錯誤或產(chǎn)生幻覺,HumanLayer也已經(jīng)嵌入到工具/功能本身中,確保人類在這個“工具調(diào)用循環(huán)”中。

源自Medium,Louis Dupont的“工具調(diào)用循環(huán)”概念源自Medium,Louis Dupont的“工具調(diào)用循環(huán)”概念

當(dāng)你集成HumanLayer SDK時,你的AI代理可以在其執(zhí)行的任何階段請求人類批準(zhǔn)。我們通過人們偏好的渠道(Slack或電子郵件,SMS和Teams也即將推出)處理將這些請求路由給正確的人的所有復(fù)雜性,在等待回復(fù)時管理狀態(tài),并提供完整的審計軌跡。

除了“請求批準(zhǔn)”之外,我們還支持一個更通用的“人類作為工具”功能,該功能可以暴露給LLM或代理框架,并處理收集人類對于一般問題(如“我在上遇到了困難,我已經(jīng)嘗試了THINGS,請?zhí)峁┙ㄗh”)的回復(fù)(有時我們?yōu)楹笈_自動化推出的內(nèi)部代理會收到這樣的消息)。

由于它位于工具調(diào)用層,HumanLayer的SDK可以與任何AI框架(如CrewAI、LangChain等)以及任何支持工具調(diào)用的語言模型一起工作。如果你正在構(gòu)建自己的代理/工具循環(huán),你可以使用更低級別的SDK原始類型來按你的需求管理審批。我們甚至正在探索HumanLayer用于人與人之間審批的用例,而不僅僅是AI到人類。

HumanLayer通過將人類納入循環(huán)中,代理工具可以獲得訪問更強大且更有意義的工具調(diào)用和任務(wù)的能力。

對于目前主流的大語言模型(如OpenAI、Llama、Claude等)和框架(如LangChain、CrewAI等),AI代理提供安全訪問世界的能力。

總結(jié)來說,HumanLayer提供了這五項關(guān)鍵功能:

(1)要求函數(shù)調(diào)用需人類批準(zhǔn):@hl.require_approval()裝飾器會阻止特定函數(shù)調(diào)用,直到咨詢過人類——如果被拒絕,反饋將被傳遞給LLM

(2)人類作為工具:通用的hl.human_as_tool()允許聯(lián)系人類以獲取答案、建議或反饋

(3)全渠道聯(lián)系:通過Slack、電子郵件、Discord等多種渠道聯(lián)系人類并收集回復(fù)

(4)精細路由:將審批路由到特定團隊或個人

(5)自帶LLM和框架:由于HumanLayer是在工具層實現(xiàn)的,它支持任何LLM以及所有支持工具調(diào)用的主要編排框架。

3.下一代:自主代理和“外循環(huán)”

在“需要人類基準(zhǔn)”和“人類作為工具”之間,HumanLayer提到了下一代AI代理——自主代理,而HumanLayer只是拼圖中的一塊。

第一代Agent:聊天——人類發(fā)起的問答界面

第二代Agent:代理助理——框架驅(qū)動提示路由、工具調(diào)用、思維鏈和上下文窗口管理,以獲得更高的可靠性和功能。大多數(shù)工作流程都是由人類通過一次性“這是一個任務(wù),去完成吧”或滾動聊天界面發(fā)起的。

第三代Agent:自主代理——不再由人類發(fā)起,代理將生活在“外循環(huán)”中,使用各種工具和功能來推動實現(xiàn)其目標(biāo)。人類/代理通信是由代理發(fā)起,而不是由人類發(fā)起。

圖片圖片

第三代自主代理將需要方法以在各種任務(wù)中向人類咨詢意見。為了使這些代理能夠執(zhí)行實際且有用的工作,它們將需要人類對敏感操作進行監(jiān)督。

4.幾個不錯的應(yīng)用示例

這些代理將需要方法通過聊天、電子郵件、短信等多種渠道聯(lián)系一個或多個人類。

HumanLayer目前已經(jīng)有了一些很酷的使用方式,銷售、新聞、運維等領(lǐng)域已經(jīng)有了不錯的案例。

有客戶用它構(gòu)建了一個AI銷售發(fā)展代表(SDR),它起草個性化的銷售電子郵件,但在向潛在客戶發(fā)送任何內(nèi)容之前,會在Slack中請求人類批準(zhǔn)。

另一個客戶使用它來支持一個AI新聞簡報,訂閱者可以與內(nèi)容進行電子郵件對話。HumanLayer負責(zé)接收入站電子郵件,并將其路由給能夠回復(fù)的代理,并為這些代理提供回復(fù)工具。

圖片圖片

此外,一個團隊使用HumanLayer構(gòu)建了一個面向客戶的DevOps代理——他們的AI代理審查拉取請求(PRs),計劃和執(zhí)行數(shù)據(jù)庫遷移,同時在關(guān)鍵步驟獲得人類批準(zhǔn),并在遇到任何問題時聯(lián)系團隊進行指導(dǎo)。

5.仍處于早期階段

雖然這些代理的早期版本可能在技術(shù)上“由人類啟動”,例如通過cron作業(yè)或類似機制定期啟動,但最好的版本將能夠自行管理日程安排和成本。這將需要用于檢查成本的工具包以及類似于sleep_until的功能。

它們需要在能夠跨可能數(shù)小時或數(shù)天不返回的工具調(diào)用持久序列化并恢復(fù)代理工作流程的編排框架中運行。這些框架需要支持由“管理型LLM”進行的上下文窗口管理,并允許代理分叉子鏈以處理專門的任務(wù)和角色。

創(chuàng)始人Dex表示:我們承認現(xiàn)在還處于早期階段,歡迎大家就Agent、可靠性和平衡人類與AI工作量方面的想法和經(jīng)驗進行交流。

此外,HumanLayer提供了免費套餐和靈活的基于積分的定價。對于構(gòu)建面向客戶的代理的團隊,還可以獲得白標(biāo)、額外功能和優(yōu)先支持,可謂誠意滿滿。

安裝操作很簡單,等不及想將HumanLayer集成到你的系統(tǒng)中的朋友,不妨一試:

pip install humanlayer
from humanlayer import HumanLayer

hl = HumanLayer()



@hl.require_approval()

def send_email(to: str, subject: str, body: str):

    """Send an email to the customer"""

    ...





# made up function, use whatever

# tool-calling framework you prefer

run_llm_task(

    prompt="""Send an email welcoming the customer to

    the platform and encouraging them to invite a team member.""",

    tools=[send_email],

    llm="gpt-4o"

)

最后多提一句,大洋彼岸的OpenAI CEO奧特曼、國內(nèi)百度李彥宏近期都表態(tài)押注了智能體的方向,相信屬于開發(fā)者的大模型應(yīng)用時代正在悄然到來!

參考鏈接:

https://github.com/humanlayer/humanlayer?tab=readme-ov-file

https://www.youtube.com/watch?v=5sbN8rh_S5Q

https://www.humanlayer.dev/

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2025-03-12 13:04:01

2025-01-24 08:53:46

2025-04-30 08:57:55

2022-06-21 14:08:25

AIGitHub模仿人類

2024-07-22 08:30:00

神經(jīng)網(wǎng)絡(luò)AI

2023-10-17 12:33:27

AI模型

2024-08-01 13:46:08

2025-01-24 07:26:07

2025-04-01 09:10:00

2023-08-28 06:52:29

2023-07-05 13:56:50

2022-10-26 08:00:00

2024-11-04 15:54:16

2025-03-17 08:40:00

開源智能體框架

2024-10-18 15:20:00

2024-07-08 09:49:54

2025-04-01 08:05:00

智能體人工智能MCP

2024-05-29 12:13:50

點贊
收藏

51CTO技術(shù)棧公眾號