自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全球最強AI程序員:GPT-4o加持,需求到跑通只需84秒

人工智能
本周,一家 Y Combinator 支持,名為 Cosine 的創(chuàng)業(yè)公司宣布推出自己的全新自主 AI 工程師 Genie。該公司表示,Genie 的表現(xiàn)輕松超越了 Devin,在第三方基準測試 SWE-Bench 上的得分為 30%,而 Devin 的得分僅為 13.8%。

大模型正在「替代人類程序員」的道路上快速前進。

今年 3 月,人工智能軟件工程師 Devin 引爆了 AI 社區(qū),該產(chǎn)品由 OpenAI 的 GPT-4 基礎(chǔ)大型語言模型(LLM)提供支持,可以在收到自然語言文本指令后自主編寫和編輯代碼。

但在生成式 AI 領(lǐng)域,快速發(fā)展是主旋律,現(xiàn)在技術(shù)又迭代了。

本周,一家 Y Combinator 支持,名為 Cosine 的創(chuàng)業(yè)公司宣布推出自己的全新自主 AI 工程師 Genie。該公司表示,Genie 的表現(xiàn)輕松超越了 Devin,在第三方基準測試 SWE-Bench 上的得分為 30%,而 Devin 的得分僅為 13.8%。

新工具甚至超過了亞馬遜的 Q 和 Factory 的 Code Droid 的 19%,現(xiàn)在是全球性能最好的 AI 程序員。

圖片

Genie 在 SWE-Bench 基準上的表現(xiàn),以及與其他 AI 代碼模型的比較。

「這個模型遠不止是一個基準跑分而已:它是以像人類 SWE(軟件工程師)一樣思考和行動為目標從頭開始訓(xùn)練的,」Cosine 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Alistair Pullen 表示。

圖片

會修 Bug,能寫代碼的 Genie

作為一種先進的 AI 軟件工程模型,Genie 可以按照人類工程師的指示自主處理各種編碼任務(wù),包括 bug 修復(fù)、功能構(gòu)建、代碼重構(gòu)、代碼測試等。

Genie 可以完全自主運行,也可以與用戶協(xié)作完成任務(wù)。

它支持多種編程語言,在技術(shù)報告中顯示,其中包括 JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP、Ruby。

Cosine 聲稱 Genie 可以模擬人類工程師的認知過程?!缸屗^察人類工程師是如何工作的,并模仿這個過程?!笰listair Pullen 表示。

一直以來,安全問題是大家比較關(guān)心的,Genie 生成的代碼存儲在用戶的 GitHub 倉庫中,因而 Cosine 不會保留代碼副本,從而避免了隨之而來的安全風(fēng)險。

此外,Cosine 的軟件平臺已經(jīng)集成了 Slack 和系統(tǒng)通知,它就像一位 AI 同事,提醒用戶狀態(tài)或標記 issues。

Alistair Pullen 演示了如何使用 Genie 來解決實際問題。目標是 GitHub 上的一個 issue,我們只需要直接往里丟鏈接,AI 會自動分析問題,自動開始思考解決這個問題需要用到哪些文件,一直到滿足要求為止。

圖片

然后,Genie 會開始嘗試將問題分解成很多解決步驟,隨后生成代碼。

圖片

接著就是跑代碼了,如果生成的代碼有問題,它就自動尋找出問題的地方進行分析、修改,然后再嘗試運行。

圖片

最后輸出結(jié)果:兩個文件、17 次測試,僅用時 84 秒。

圖片

這不知道比人類程序員要快上多少倍了。

長上下文由 OpenAI 模型提供支持

與許多依賴基礎(chǔ)模型并輔以少量工具的 AI 模型不同,Genie 是通過專有流程開發(fā)的。

就模型而言,Genie 基于(目前)非通用的 GPT-4o 變體構(gòu)建而成,OpenAI 允許 Cosine 將其作為實驗訪問計劃的一部分進行訓(xùn)練。

通過技術(shù)報告我們得知,當(dāng)研究者開始構(gòu)建 Genie 之初,他們只能在 16-32k 范圍內(nèi)微調(diào)相對較短的上下文窗口模型。

為了解決這一問題,團隊人員對這些模型進行了大量的早期探索,并在超過 1 億個 token 的大量數(shù)據(jù)集上對它們進行訓(xùn)練,雖然發(fā)現(xiàn)架構(gòu)具有一定優(yōu)勢,但還是面臨模型在特定時間內(nèi)可以處理的信息量的限制。

在嘗試了各種壓縮 / 分塊方法后,團隊認為唯一的解決方案是使用更大的上下文模型,盡管當(dāng)時沒有可供使用的模型。

幸運的是,不久之后,能夠確保訓(xùn)練長上下文的 OpenAI 模型出現(xiàn)了。

Cosine 在其博客文章中表示,他們花了將近一年的時間來整理數(shù)據(jù)集,在最近的訓(xùn)練運行中,Genie 接受了數(shù)十億個 token 數(shù)據(jù)的訓(xùn)練,選擇的數(shù)據(jù)包含了用戶目前最關(guān)心的編程語言。以下是訓(xùn)練 Genie 的過程中不同編程語言數(shù)據(jù)所占的比例:

圖片

以下是 Bug 修復(fù)、重構(gòu)等不同功能的數(shù)據(jù)占比:

圖片

在價格方面,據(jù) Pullen 透漏, Genie  最初定價將分為兩個層級:

  • 入門級選項,定價大約在 20 美元左右。這個層級會有一些功能和使用限制,適合個人和小型團隊使用;
  • 企業(yè)級選項,提供擴展功能,使用幾乎不受限制,好比擁有了一個精通代碼的 AI 同事。但這個層級的定價將更高。

Genie 的推出對軟件開發(fā)團隊具有深遠的影響,特別是那些希望提高生產(chǎn)力并減少花在日常任務(wù)上的時間的團隊。憑借其自主處理復(fù)雜編程挑戰(zhàn)的能力,Genie 可能會改變工程資源的分配方式,使團隊能夠?qū)W⒂诟邞?zhàn)略性的計劃。

 Pullen 表示,對于他來說,工程資源不再成為限制是一個巨大的推動力,特別是在創(chuàng)辦公司以來。他認為,一個能夠快速進入未知代碼庫并解決未見過的問題的 AI 同事,其價值顯而易見,并且對世界有著巨大的影響。 

未來,該公司打算擴大其模型組合,包括用于簡單任務(wù)的小模型和能夠處理更復(fù)雜挑戰(zhàn)的大模型。此外,Cosine 還計劃將其工作拓展到開源社區(qū)。 

現(xiàn)在 Genie 已向部分用戶推出,但更廣泛的訪問權(quán)限還未完全開放。

申請地址:https://cosine.sh/register

創(chuàng)始團隊:只有五人

提出 Genie 的創(chuàng)業(yè)公司 Cosine 由 Pullen、Sam Stenner 和 Yang Li 于 2022 年創(chuàng)立,其使命是通過應(yīng)用人類推理的方式來解決復(fù)雜問題,從而突破 AI 的界限。顯然,他們的努力是從軟件工程開始。


圖片

其中,Yang Li 是一名華人,他碩士畢業(yè)于牛津大學(xué),在 2021 年曾入選過福布斯 30 Under 30 歐洲區(qū)名單。

Cosine 已經(jīng)從 Uphonest 和 SOMA Capital 籌集了 250 萬美元的種子資金,Lakestar、Focal 等公司也參與其中。

團隊規(guī)模雖小,但 Cosine 已經(jīng)在 AI 領(lǐng)域取得了重大進展,而 Genie 只是一個開始。

「我們堅信能夠為任何工作和行業(yè)構(gòu)建起人類級別的推理能力,」Pullen 在公告文章中表示?!杠浖こ讨皇亲钪庇^的起點,我們很快將會展示出我們正在研究的其他一切?!?/span>

參考內(nèi)容:

https://venturebeat.com/ai/4-considerations-to-help-organizations-implement-an-ai-code-of-conducts/

https://cosine.sh/blog/genie-technical-report

https://cosine.sh/blog/state-of-the-art

責(zé)任編輯:龐桂玉 來源: 機器之心
相關(guān)推薦

2024-08-13 13:50:00

數(shù)據(jù)模型

2024-11-28 15:51:19

GPT-4o微軟

2016-11-24 15:32:35

云計算

2024-05-21 12:23:17

2024-11-06 15:20:00

2024-06-05 08:29:35

2024-06-11 07:26:28

2024-05-14 11:29:15

2024-06-11 14:47:23

2025-01-03 10:55:22

2025-01-16 16:39:44

2025-01-06 13:15:02

2024-04-03 12:18:45

AI訓(xùn)練

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-05-24 14:04:04

2025-04-08 02:26:00

2024-12-19 09:00:00

模型數(shù)學(xué)訓(xùn)練

2024-05-30 12:50:05

2024-07-04 15:30:07

點贊
收藏

51CTO技術(shù)棧公眾號