自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Devin退位!這家公司宣布打造了世界上最強(qiáng)編程 Agents:Genie!能模擬人類工程師思考和行動 原創(chuàng)

發(fā)布于 2024-8-13 16:06
瀏覽
0收藏

不久之前,初創(chuàng)公司Cognition憑借其產(chǎn)品Devin震撼了人們。

這是第一個AI軟件工程師,由OpenAI的GPT-4大語言模型驅(qū)動。Devin能夠在自然語言文本指令下自主編寫和編輯代碼。

不過,Devin是在2024年3月推出的 —— 五個月前 —— 這在快速發(fā)展的生成式AI領(lǐng)域可以說是一個漫長的季節(jié)。

現(xiàn)在,另一家以“C”命名的初創(chuàng)公司Cosine,通過著名的Y Combinator初創(chuàng)加速器在舊金山成立,宣布推出了他們自己的全新自主AI工程師Genie。據(jù)稱,Genie在第三方基準(zhǔn)測試SWE-Bench上表現(xiàn)優(yōu)異,得分30%,遠(yuǎn)超過Devin的13.8%,甚至超過亞馬遜的Q和Factory的Code Droid的19%。

Devin退位!這家公司宣布打造了世界上最強(qiáng)編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區(qū)Devin退位!這家公司宣布打造了世界上最強(qiáng)編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區(qū)

上圖:Cosine 網(wǎng)站的截圖展示了 Genie 在 SWE-Bench 上與其他 AI 編碼工程師模型相比的表現(xiàn)。

“這個模型遠(yuǎn)不止一個基準(zhǔn)測試分?jǐn)?shù)(所能概括的):它從一開始就被訓(xùn)練得像一名人類軟件工程師(SWE)一樣思考和行為,”Cosine的聯(lián)合創(chuàng)始人兼CEO阿利斯泰爾·普倫在社交網(wǎng)絡(luò)X上發(fā)布的一篇帖子中寫道。

Devin退位!這家公司宣布打造了世界上最強(qiáng)編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區(qū)Devin退位!這家公司宣布打造了世界上最強(qiáng)編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區(qū)

1.Genie 是什么?它能做什么?

Genie是一種先進(jìn)的AI軟件工程模型,旨在自主處理各種編碼任務(wù),從修復(fù)錯誤到構(gòu)建功能,進(jìn)行代碼重構(gòu)和通過全面測試驗(yàn)證,如同被人工程師或管理者指示的那樣。

它可以完全自主運(yùn)行,也可以與用戶協(xié)作,旨在提供與熟練同事共事的體驗(yàn)。

Genie能夠使用多種語言編寫軟件 —— 在其技術(shù)報(bào)告中列出了15種源數(shù)據(jù)語言,包括JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP、Ruby等。

Cosine聲稱Genie能夠模擬人類工程師的認(rèn)知過程。

“我的論點(diǎn)很簡單:讓它觀察人類工程師如何完成他們的工作,并模仿這個過程”,Pullen在博客文章中解釋道。

Genie生成的代碼存儲在用戶的GitHub存儲庫中,意味著Cosine不保留副本,也不涉及任何相關(guān)的安全風(fēng)險(xiǎn)。

此外,Cosine的軟件平臺已經(jīng)與Slack和系統(tǒng)通知集成,可以使用這些工具來提醒用戶其狀態(tài)、提問或標(biāo)記問題,就像一個好的人類同事一樣。

“Genie還可以向用戶詢問澄清問題,并回應(yīng)其生成的PR(拉取請求)上的審查/評論”,Pullen在接受媒體VentureBeat采訪時(shí)寫道?!拔覀冊噲D讓Genie像一個同事一樣行事,因此讓模型使用同事通常會使用的通道是最合理的?!?/p>

2.長上下文能力成為 Genie 研發(fā)突破口

與許多依賴于基礎(chǔ)模型和少量工具的AI模型不同,Genie是通過OpenAI的長token輸出AI模型進(jìn)行了專有過程開發(fā)的。

“就我們使用的模型而言,這是OpenAI允許我們在實(shí)驗(yàn)性訪問計(jì)劃的一部分進(jìn)行訓(xùn)練的GPT-4o變種”,Pullen通過電子郵件告訴VentureBeat?!澳P捅憩F(xiàn)出色,我們已經(jīng)與OpenAI的微調(diào)團(tuán)隊(duì)和工程領(lǐng)導(dǎo)層分享了我們的經(jīng)驗(yàn)和技術(shù)領(lǐng)導(dǎo)地位。這對我們來說是一個真正的轉(zhuǎn)折點(diǎn),因?yàn)樗f服他們投入資源和注意力來支持我們的新技術(shù)?!?/p>

Cosine 的技術(shù)報(bào)告中寫到了模型的長上下文能力對產(chǎn)品的支持:“我們剛開始開發(fā) Genie 時(shí),只能對 16-32k 范圍內(nèi)相對較短的上下文窗口模型進(jìn)行微調(diào)。我們對這些模型進(jìn)行了大量的早期探索,在超過 1 億個標(biāo)記的大型數(shù)據(jù)集上對其進(jìn)行了訓(xùn)練,并很快意識到我們提出的架構(gòu)有其優(yōu)點(diǎn),但在根本上受到了模型在任何給定時(shí)刻可表示的信息量的限制。在嘗試了各種壓縮/分塊方法后,我們得出結(jié)論:唯一的辦法就是使用更大的上下文模型,盡管當(dāng)時(shí)還沒有可用的模型可供訓(xùn)練。幸運(yùn)的是,不久之后,我們獲得了訓(xùn)練長語境 OpenAI 模型的能力,這正是我們真正了解 Genie 能力所需的突破口?!?/p>

雖然 Cosine 沒有明確具體使用的模型,但OpenAI 最近宣布了新的 GPT-4o 長輸出上下文模型的有限可用版,該模型可以輸出多達(dá) 64,000 個 token,而不是 GPT-4o 最初的 4,000 個,增加了 16 倍。

Devin退位!這家公司宣布打造了世界上最強(qiáng)編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區(qū)Devin退位!這家公司宣布打造了世界上最強(qiáng)編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區(qū)

3.數(shù)十億訓(xùn)練數(shù)據(jù)的千錘百煉

Pullen 在 Cosine 的代理技術(shù)報(bào)告中寫道:“在最近的訓(xùn)練中,Genie 接受了數(shù)十億個數(shù)據(jù)標(biāo)記的訓(xùn)練,這些數(shù)據(jù)的組合選擇是為了讓模型盡可能地勝任我們用戶當(dāng)前最關(guān)心的語言。”

Genie 憑借其廣泛的上下文窗口和持續(xù)的改進(jìn)循環(huán),不斷迭代和改進(jìn)其解決方案,直到達(dá)到預(yù)期的結(jié)果。

Genie的訓(xùn)練數(shù)據(jù)至關(guān)重要,Cosine表示他們花費(fèi)了近一年時(shí)間篩選數(shù)據(jù)集,包括從真實(shí)工程師那里收集的各種軟件開發(fā)活動。

“在實(shí)踐中,獲取這樣的數(shù)據(jù)并有效利用它是非常困難的,因?yàn)楸举|(zhì)上它并不存在”,Pullen在博客文章中詳細(xì)解釋道?!拔覀兊臄?shù)據(jù)管道使用了工件、靜態(tài)分析、自我對弈、逐步驗(yàn)證和在大量標(biāo)記數(shù)據(jù)上訓(xùn)練的微調(diào)AI模型的組合,以推導(dǎo)出必須到達(dá)最終輸出的詳細(xì)過程。標(biāo)記數(shù)據(jù)的影響不容小覷,從有能力的軟件工程師那里獲得高質(zhì)量數(shù)據(jù)是困難的,但結(jié)果是值得的,因?yàn)樗峁┝碎_發(fā)人員如何隱式思考解決問題的深刻洞察?!?/p>

此數(shù)據(jù)集不僅代表了完美的信息來源和增量知識發(fā)現(xiàn),還捕捉了人類工程師的逐步?jīng)Q策過程。

“通過實(shí)際訓(xùn)練我們的模型,而不僅僅是提示基礎(chǔ)模型,這是其他人正在做的事情,我們已經(jīng)看到我們不再僅僅是生成隨機(jī)代碼直到某些代碼有效,而是像人類一樣解決問題”,Pullen強(qiáng)調(diào)道。

4.Genie的價(jià)格方案

至于Genie的定價(jià)結(jié)構(gòu),Pullen在后續(xù)電子郵件中解釋了如何工作。

他說將最初分為兩個層次:

1.一個價(jià)格競爭力強(qiáng)的可訪問選項(xiàng),大約在20美元左右。這個層次將有一些功能和使用限制,但將展示Genie的能力,適合個人和小團(tuán)隊(duì)使用。

2.一個企業(yè)級的選擇,具有擴(kuò)展功能,幾乎無限使用的能力,并且能夠創(chuàng)建一個完美的AI同事,精通內(nèi)部編寫的每一行代碼。這個層次將更顯貴,反映其作為完整AI工程同事的價(jià)值。

5.寫在最后

Genie的推出對軟件開發(fā)團(tuán)隊(duì)有廣泛的影響,特別是那些希望提高生產(chǎn)力并減少在常規(guī)任務(wù)上花費(fèi)時(shí)間的團(tuán)隊(duì)。憑借其處理復(fù)雜編程挑戰(zhàn)的自主能力,Genie可能會徹底改變工程資源分配的方式,讓團(tuán)隊(duì)能夠集中精力處理更戰(zhàn)略性的事務(wù)。

Cosine對Genie未來發(fā)展有著宏大的計(jì)劃,他們打算擴(kuò)展其模型組合,包括用于簡單任務(wù)的較小模型以及處理更復(fù)雜挑戰(zhàn)的更大模型。此外,Cosine計(jì)劃通過擴(kuò)展一個領(lǐng)先的開源模型和在廣泛數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,進(jìn)一步拓展他們的工作領(lǐng)域到開源社區(qū)。

感興趣的朋友可以移步Cosine網(wǎng)站申請測試訪問,在項(xiàng)目中嘗試使用Genie:https://cosine.sh/register

參考鏈接:https://venturebeat.com/programming-development/move-over-devin-cosines-genie-takes-the-ai-coding-crown/

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦