全球最強AI程序員:GPT-4o加持,需求到跑通只需84秒
大模型正在「替代人類程序員」的道路上快速前進。
今年 3 月,人工智能軟件工程師 Devin 引爆了 AI 社區(qū),該產(chǎn)品由 OpenAI 的 GPT-4 基礎(chǔ)大型語言模型(LLM)提供支持,可以在收到自然語言文本指令后自主編寫和編輯代碼。
但在生成式 AI 領(lǐng)域,快速發(fā)展是主旋律,現(xiàn)在技術(shù)又迭代了。
本周,一家 Y Combinator 支持,名為 Cosine 的創(chuàng)業(yè)公司宣布推出自己的全新自主 AI 工程師 Genie。該公司表示,Genie 的表現(xiàn)輕松超越了 Devin,在第三方基準測試 SWE-Bench 上的得分為 30%,而 Devin 的得分僅為 13.8%。
新工具甚至超過了亞馬遜的 Q 和 Factory 的 Code Droid 的 19%,現(xiàn)在是全球性能最好的 AI 程序員。
Genie 在 SWE-Bench 基準上的表現(xiàn),以及與其他 AI 代碼模型的比較。
「這個模型遠不止是一個基準跑分而已:它是以像人類 SWE(軟件工程師)一樣思考和行動為目標從頭開始訓(xùn)練的,」Cosine 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Alistair Pullen 表示。
會修 Bug,能寫代碼的 Genie
作為一種先進的 AI 軟件工程模型,Genie 可以按照人類工程師的指示自主處理各種編碼任務(wù),包括 bug 修復(fù)、功能構(gòu)建、代碼重構(gòu)、代碼測試等。
Genie 可以完全自主運行,也可以與用戶協(xié)作完成任務(wù)。
它支持多種編程語言,在技術(shù)報告中顯示,其中包括 JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP、Ruby。
Cosine 聲稱 Genie 可以模擬人類工程師的認知過程?!缸屗^察人類工程師是如何工作的,并模仿這個過程?!笰listair Pullen 表示。
一直以來,安全問題是大家比較關(guān)心的,Genie 生成的代碼存儲在用戶的 GitHub 倉庫中,因而 Cosine 不會保留代碼副本,從而避免了隨之而來的安全風(fēng)險。
此外,Cosine 的軟件平臺已經(jīng)集成了 Slack 和系統(tǒng)通知,它就像一位 AI 同事,提醒用戶狀態(tài)或標記 issues。
Alistair Pullen 演示了如何使用 Genie 來解決實際問題。目標是 GitHub 上的一個 issue,我們只需要直接往里丟鏈接,AI 會自動分析問題,自動開始思考解決這個問題需要用到哪些文件,一直到滿足要求為止。
然后,Genie 會開始嘗試將問題分解成很多解決步驟,隨后生成代碼。
接著就是跑代碼了,如果生成的代碼有問題,它就自動尋找出問題的地方進行分析、修改,然后再嘗試運行。
最后輸出結(jié)果:兩個文件、17 次測試,僅用時 84 秒。
這不知道比人類程序員要快上多少倍了。
長上下文由 OpenAI 模型提供支持
與許多依賴基礎(chǔ)模型并輔以少量工具的 AI 模型不同,Genie 是通過專有流程開發(fā)的。
就模型而言,Genie 基于(目前)非通用的 GPT-4o 變體構(gòu)建而成,OpenAI 允許 Cosine 將其作為實驗訪問計劃的一部分進行訓(xùn)練。
通過技術(shù)報告我們得知,當(dāng)研究者開始構(gòu)建 Genie 之初,他們只能在 16-32k 范圍內(nèi)微調(diào)相對較短的上下文窗口模型。
為了解決這一問題,團隊人員對這些模型進行了大量的早期探索,并在超過 1 億個 token 的大量數(shù)據(jù)集上對它們進行訓(xùn)練,雖然發(fā)現(xiàn)架構(gòu)具有一定優(yōu)勢,但還是面臨模型在特定時間內(nèi)可以處理的信息量的限制。
在嘗試了各種壓縮 / 分塊方法后,團隊認為唯一的解決方案是使用更大的上下文模型,盡管當(dāng)時沒有可供使用的模型。
幸運的是,不久之后,能夠確保訓(xùn)練長上下文的 OpenAI 模型出現(xiàn)了。
Cosine 在其博客文章中表示,他們花了將近一年的時間來整理數(shù)據(jù)集,在最近的訓(xùn)練運行中,Genie 接受了數(shù)十億個 token 數(shù)據(jù)的訓(xùn)練,選擇的數(shù)據(jù)包含了用戶目前最關(guān)心的編程語言。以下是訓(xùn)練 Genie 的過程中不同編程語言數(shù)據(jù)所占的比例:
以下是 Bug 修復(fù)、重構(gòu)等不同功能的數(shù)據(jù)占比:
在價格方面,據(jù) Pullen 透漏, Genie 最初定價將分為兩個層級:
- 入門級選項,定價大約在 20 美元左右。這個層級會有一些功能和使用限制,適合個人和小型團隊使用;
- 企業(yè)級選項,提供擴展功能,使用幾乎不受限制,好比擁有了一個精通代碼的 AI 同事。但這個層級的定價將更高。
Genie 的推出對軟件開發(fā)團隊具有深遠的影響,特別是那些希望提高生產(chǎn)力并減少花在日常任務(wù)上的時間的團隊。憑借其自主處理復(fù)雜編程挑戰(zhàn)的能力,Genie 可能會改變工程資源的分配方式,使團隊能夠?qū)W⒂诟邞?zhàn)略性的計劃。
Pullen 表示,對于他來說,工程資源不再成為限制是一個巨大的推動力,特別是在創(chuàng)辦公司以來。他認為,一個能夠快速進入未知代碼庫并解決未見過的問題的 AI 同事,其價值顯而易見,并且對世界有著巨大的影響。
未來,該公司打算擴大其模型組合,包括用于簡單任務(wù)的小模型和能夠處理更復(fù)雜挑戰(zhàn)的大模型。此外,Cosine 還計劃將其工作拓展到開源社區(qū)。
現(xiàn)在 Genie 已向部分用戶推出,但更廣泛的訪問權(quán)限還未完全開放。
申請地址:https://cosine.sh/register
創(chuàng)始團隊:只有五人
提出 Genie 的創(chuàng)業(yè)公司 Cosine 由 Pullen、Sam Stenner 和 Yang Li 于 2022 年創(chuàng)立,其使命是通過應(yīng)用人類推理的方式來解決復(fù)雜問題,從而突破 AI 的界限。顯然,他們的努力是從軟件工程開始。
其中,Yang Li 是一名華人,他碩士畢業(yè)于牛津大學(xué),在 2021 年曾入選過福布斯 30 Under 30 歐洲區(qū)名單。
Cosine 已經(jīng)從 Uphonest 和 SOMA Capital 籌集了 250 萬美元的種子資金,Lakestar、Focal 等公司也參與其中。
團隊規(guī)模雖小,但 Cosine 已經(jīng)在 AI 領(lǐng)域取得了重大進展,而 Genie 只是一個開始。
「我們堅信能夠為任何工作和行業(yè)構(gòu)建起人類級別的推理能力,」Pullen 在公告文章中表示?!杠浖こ讨皇亲钪庇^的起點,我們很快將會展示出我們正在研究的其他一切?!?/span>
參考內(nèi)容:
https://venturebeat.com/ai/4-considerations-to-help-organizations-implement-an-ai-code-of-conducts/