自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人 精華

發(fā)布于 2024-8-13 13:41
瀏覽
0收藏

繼Devin之后,又一個AI軟件工程師被刷屏了——


它叫Genie,號稱目前地表最強,已經(jīng)可以像人一樣思考和行動了!

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

那么這個“地表最強”,到底強到什么程度?


先來看下評測分數(shù)。


在權威榜單SWE-Bench中,Genie以解決了30.07%問題的成績奪得榜首。


(SWE-Bench是一個用來評估大模型解決現(xiàn)實中軟件問題的基準。)


而這個成績可謂是遙遙領先第二名19.27%,解鎖了提升SOTA的最大增幅——57%!

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

至于Genie的實際效果,用團隊的話來說就是:

它可以做到像人類工程師一樣解決現(xiàn)實生活中的軟件問題。

首先,你可以用4種方式讓Genie開始工作,分別是提示詞、GitHub Issue、Linear Ticket或者API。

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

以解決GitHub Issue為例,先喂給Genie一個repo的鏈接,它就開始自動解析問題了:

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

Genie會自動迭代思考如果想要解決這個問題它都需要哪些文件,直到它覺得找到了自己滿意的為止:

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

緊接著,它將對問題做一個自動迭代分析的過程:

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

然后Genie就開始“唰唰唰”地自動寫+跑代碼了:

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

如果運行代碼過程中出現(xiàn)bug,Genie會只針對出問題的地方再重復分析、寫代碼和運行的過程,直至跑通為止。


而整個過程,僅僅耗時84秒!

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

用團隊的話來說:

Genie已經(jīng)觀察并學習人類程序員如何解決軟件問題的次數(shù)達到了數(shù)百萬次

這是任何一個人類程序員一輩子都無法達到的數(shù)量。


但更令人意想不到的是,Genie背后的團隊——Cosine,才僅僅5人。


而且CEO Alistair還發(fā)文感謝OpenAI:


沒有你們,我們做不出來Genie。

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

那么Cosine團隊,究竟是如何打造Genie的呢。

最強AI工程師是如何煉成的?

Genie的主要特點,是能夠模仿人類工程師的認知過程、邏輯和工作流。

為做到這一點,Genie團隊透露過去一年收集了一個包含真實人類程序員開發(fā)活動的數(shù)據(jù)集。


其中不僅使用了成果分析、靜態(tài)分析、自我對弈、逐步驗證等方法,還用到了基于大量標記數(shù)據(jù)訓練的AI模型。好處是,當基礎模型能力提升時,它們能夠提取的數(shù)據(jù)質(zhì)量也會相應提高。


最終Genie使用該專有數(shù)據(jù)進行訓練


數(shù)據(jù)集中編碼了人類推理的完整過程,包括完美的信息溯源、增量知識發(fā)現(xiàn),還有基于軟件工程師實際工作案例的逐步?jīng)Q策過程。


Genie的推理過程包括規(guī)劃、檢索、代碼編寫和代碼運行四個主要步驟,突破了其它AI工程師依靠在基礎模型之上添加網(wǎng)頁瀏覽器、代碼解釋器等額外工具的限制,能夠像人一樣處理多樣化的、高度情境的、前所未見的問題。

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

這種訓練方法,讓網(wǎng)友們立刻想到,之前Karpathy也提出的類似想法:

對于LLM來說,理想的訓練數(shù)據(jù)并不是你所寫的內(nèi)容本身,而是你在寫作過程中的完整思考過程和每一個編輯動作。然而,我們只能盡力利用現(xiàn)有的資源。

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

除此之外,Genie訓練中還引入了自我改進機制。


初始訓練數(shù)據(jù)多為可正常運行的沒有錯誤的代碼,導致Genie導致難以應對錯誤情況。為解決這個問題,團隊使用初代版本的Genie生成包含錯誤的合成數(shù)據(jù),然后用這些數(shù)據(jù)訓練下一版模型。


具體來說,使用舊版本Genie提出解決方案,如果解決方案錯誤,就利用掌握的任務最終狀態(tài)來教它從當前狀態(tài)達到正確狀態(tài)。


不斷重復這一過程,Genie提出的初始解決方案逐漸變得更準確,在多數(shù)情況下能直接給出正確答案,即使出錯也只需在數(shù)據(jù)集中作較少的修正。


Genie能力提升的另一大關鍵,在于OpenAI提供的大模型支持。


團隊表示,最初開發(fā)Genie時,只能訪問微調(diào)16-32k范圍內(nèi)的短上下文模型,他們用這些模型進行了大量早期開發(fā),用超1億token的數(shù)據(jù)訓練模型,雖然發(fā)現(xiàn)設計的架構(gòu)有一定優(yōu)勢,但從根本上受限于模型在特定時間內(nèi)可以處理的信息量。


嘗試了各種壓縮/分塊方法后,唯一的解決方法就是使用更大上下文的模型。


OpenAI提供了長上下文模型支持,最新版本的Genie經(jīng)過了數(shù)十億token的數(shù)據(jù)訓練。


團隊認為,相比超參數(shù)調(diào)整和數(shù)據(jù)量,數(shù)據(jù)的質(zhì)量才是關鍵。因此他們還在數(shù)據(jù)混合方面進行了大量實驗,包括語言、任務類型、任務長度等多個維度,以下是訓練Genie的不同編程語言數(shù)據(jù)的占比:

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

還有不同類型實例的數(shù)據(jù)占比:

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

只有5個人的團隊

正如我們在上文提到的,Cosine這個初創(chuàng)團隊人數(shù)目前僅僅為5人。


在官網(wǎng)的介紹中,他們也非常直接的將自己形容為:

Small but mighty.
雖小但有力。

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

從介紹來看,成員有的是從獨角獸企業(yè)出身,有的擁有管理全球團隊的經(jīng)驗,甚至還有從8歲就開始編程的。


但Cosine最初成立之際是僅有3人,他們的目標是想把人類推理這件事兒給搞明白。

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

值得一提的是,團隊成員中還有一位是華人,Yang Li,是Cosine的聯(lián)合創(chuàng)始人,在2021年登上過福布斯30 under 30。

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

除此之外,對于Genie本身,CEO Alistair還表示:

早在2022年我們就開始構(gòu)想Genie了,但當時從技術角度來說是不可行的。

直到過去半年多來,隨著大模型的逐步成熟,Genie才能走入現(xiàn)實。

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

嗯,不得不說,大模型又立功了。


Genie目前是可以申請Waitlist了,感興趣的小伙伴可以戳文末鏈接~


最后,附上完整字幕翻譯的官方視頻:

最強AI程序員砸飯碗:84秒跑通代碼,像人一樣思考!團隊僅5人-AI.x社區(qū)

Waitlist地址:
???https://cosine.sh/register??


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/YhLyS_FekzRtCG86u2qNDA??

收藏
回復
舉報
回復
相關推薦