AI智能體結(jié)對(duì)編程秒殺人類,90分鐘神作驚動(dòng)OpenAI總裁!引全網(wǎng)140萬圍觀
無需人類插手,AI智能體聯(lián)手AI智能體竟完成了程序開發(fā)。
這簡(jiǎn)直太瘋狂了!
最近,AI開發(fā)者Lamar將OpenAI Operator和Replit Agent配對(duì)后,讓其構(gòu)建應(yīng)用程序。
最不可思議的是,在實(shí)現(xiàn)過程中,僅僅用了5個(gè)提示,兩個(gè)AI智能體竟像人類一樣,互相合作、交換憑證,并開始測(cè)試。
最終,他們?cè)?0分鐘之內(nèi)完成了開發(fā)。
可以看到,左邊OpenAI Operator光速執(zhí)行搜索的同時(shí),右邊Replit Agent也在快速構(gòu)建代碼。
這個(gè)帖子瞬間在全網(wǎng)爆火,視頻已有140萬瀏覽量。
OpenAI總裁轉(zhuǎn)發(fā)后激動(dòng)表示,「AI智能體互動(dòng)的初體驗(yàn)」。
開源Brower-Use構(gòu)建智能體
無獨(dú)有偶,另一位開發(fā)者Shubham Saboo構(gòu)建了一個(gè)自主3D Python游戲可視化智能體團(tuán)隊(duì),僅使用了瀏覽器和 DeepSeek R1完成。
這個(gè)團(tuán)隊(duì)由4個(gè)AI智能體組成,它們?cè)跒g覽器中自主合作——編寫、運(yùn)行并可視化游戲。
有網(wǎng)友表示,不知是否有開源模型,能夠做這件事。
開發(fā)者給推薦了一個(gè)Browser Use的項(xiàng)目,這是專為控制AI瀏覽器打造的。
項(xiàng)目地址:https://github.com/browser-use/browser-use
它能夠?qū)崿F(xiàn),將自己想要的物品加入購物車,然后結(jié)賬。
再比如,讓它閱讀簡(jiǎn)歷并找到機(jī)器學(xué)習(xí)相關(guān)的工作,保存到一個(gè)文件中,然后在新標(biāo)簽頁中開始申請(qǐng)。
或者,讓AI用谷歌郵箱給父親寫一封信,感謝他所做的一切,并將文檔保存為PDF。
又或是查找許可證為cc-by-sa-4.0的模特,并按Hugging Face上的最喜歡排序,將前5名保存到文件中。
快速啟動(dòng)
使用pip(Python>=3.11):
pip install browser-use
安裝playwright:
playwright install
啟動(dòng)你的智能體:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
將你想使用的提供商的API密鑰添加到.env文件中。
OPENAI_API_KEY=
使用UI測(cè)試
你可以通過一個(gè)UI倉庫來測(cè)試瀏覽器使用,或者簡(jiǎn)單地運(yùn)行g(shù)radio示例:
uv pip install gradio
python examples/ui/gradio_demo.py
除了Browser Use,另一位網(wǎng)友還推薦了微軟團(tuán)隊(duì)開發(fā)的OmniParser V2的項(xiàng)目,也是利用AI操控屏幕幫人類完成復(fù)雜任務(wù)。
這兩者開發(fā)的主要區(qū)別在于,OmniParser V2是圖形用戶界面自動(dòng)化和屏幕解析,輸入的是UI截圖,輸出的是大模型的結(jié)構(gòu)化數(shù)據(jù)。
而Browser Use主要用在debug和代碼導(dǎo)航,輸入代碼或程序執(zhí)行文本,輸出的是debug觀點(diǎn)和導(dǎo)航。
兩者側(cè)重各有所不同,可依據(jù)實(shí)際使用場(chǎng)景擇優(yōu)選擇。
AI自主開發(fā),震驚全網(wǎng)
2025年,幾乎所有科技大廠將賭注壓在了智能體之上。
在巴黎AI行動(dòng)峰會(huì)上,圖靈獎(jiǎng)得主Yann LeCun表示,Meta將在明年推出,帶有顯示屏和肌電接口的智能眼鏡。
完全增強(qiáng)現(xiàn)實(shí)眼鏡將在幾年內(nèi)問世,屆時(shí),我們每個(gè)人都會(huì)管理一支由人類級(jí)智能的AI智能體組成的團(tuán)隊(duì)。
奧特曼在通常會(huì)議中表示,如果AI智能體只需50美分的計(jì)算成本,就能完成5000美元的工作,那么AI帶來的經(jīng)濟(jì)機(jī)會(huì)規(guī)模將是「瓶裝閃電。
學(xué)術(shù)界,也將智能體的研究作為一個(gè)重點(diǎn)。
前段時(shí)間,來自斯坦福團(tuán)隊(duì)研究人員通過多智能體強(qiáng)化學(xué)習(xí)(multi-agent RL),訓(xùn)練LLM掌握戰(zhàn)略性社交推理,結(jié)果發(fā)現(xiàn),使勝率比標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)提升一倍。
論文地址:https://www.alphaxiv.org/abs/2502.06060
1997年:深藍(lán)(Deep Blue)擊敗卡斯帕羅夫(Kasparov)
2016年:AlphaGo精通圍棋
2025年:斯坦福研究人員攻克《Among Us》
另有微軟團(tuán)隊(duì)開源了OmniParser V2,可以將任何大模型轉(zhuǎn)換為能夠使用計(jì)算機(jī)的智能體。
以上demo中,兩個(gè)AI分工協(xié)作的強(qiáng)大能力,讓許多人窺見了另一個(gè)未來。
AI研究員David Shapiro表示,這比人們想象的要重要得多。人類發(fā)現(xiàn)了「分工」這一概念,改變了人類文明。
從來都不會(huì)是一個(gè)智能體單打獨(dú)斗,而是無數(shù)智能體協(xié)作,「分而治之」去搞定任何任務(wù)。
一位教授表示,「這只是未來瘋狂場(chǎng)景的一瞥,成百上千的AI智能體協(xié)作解決極其復(fù)雜的問題,或執(zhí)行通常需要整個(gè)組織的任務(wù)——速度和效率是現(xiàn)在的成千上萬倍」。
AI智能體時(shí)代已經(jīng)到來!