自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="vocv1"><i id="vocv1"></i></sub>

<blockquote id="vocv1"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人精華

發(fā)布于 2024-8-13 13:41

瀏覽

0收藏

繼Devin之后，又一個AI軟件工程師被刷屏了——

它叫Genie，號稱目前地表最強，已經(jīng)可以像人一樣思考和行動了！

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

那么這個“地表最強”，到底強到什么程度？

先來看下評測分數(shù)。

在權威榜單SWE-Bench中，Genie以解決了30.07%問題的成績奪得榜首。

（SWE-Bench是一個用來評估大模型解決現(xiàn)實中軟件問題的基準。）

而這個成績可謂是遙遙領先第二名19.27%，解鎖了提升SOTA的最大增幅——57%！

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

至于Genie的實際效果，用團隊的話來說就是：

它可以做到像人類工程師一樣解決現(xiàn)實生活中的軟件問題。

首先，你可以用4種方式讓Genie開始工作，分別是提示詞、GitHub Issue、Linear Ticket或者API。

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

以解決GitHub Issue為例，先喂給Genie一個repo的鏈接，它就開始自動解析問題了：

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

Genie會自動迭代思考如果想要解決這個問題它都需要哪些文件，直到它覺得找到了自己滿意的為止：

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

緊接著，它將對問題做一個自動迭代分析的過程：

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

然后Genie就開始“唰唰唰”地自動寫+跑代碼了：

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

如果運行代碼過程中出現(xiàn)bug，Genie會只針對出問題的地方再重復分析、寫代碼和運行的過程，直至跑通為止。

而整個過程，僅僅耗時84秒！

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

用團隊的話來說：

Genie已經(jīng)觀察并學習人類程序員如何解決軟件問題的次數(shù)達到了數(shù)百萬次。
這是任何一個人類程序員一輩子都無法達到的數(shù)量。

但更令人意想不到的是，Genie背后的團隊——Cosine，才僅僅5人。

而且CEO Alistair還發(fā)文感謝OpenAI：

沒有你們，我們做不出來Genie。

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

那么Cosine團隊，究竟是如何打造Genie的呢。

最強AI工程師是如何煉成的？

Genie的主要特點，是能夠模仿人類工程師的認知過程、邏輯和工作流。

為做到這一點，Genie團隊透露過去一年收集了一個包含真實人類程序員開發(fā)活動的數(shù)據(jù)集。

其中不僅使用了成果分析、靜態(tài)分析、自我對弈、逐步驗證等方法，還用到了基于大量標記數(shù)據(jù)訓練的AI模型。好處是，當基礎模型能力提升時，它們能夠提取的數(shù)據(jù)質(zhì)量也會相應提高。

最終Genie使用該專有數(shù)據(jù)進行訓練。

數(shù)據(jù)集中編碼了人類推理的完整過程，包括完美的信息溯源、增量知識發(fā)現(xiàn)，還有基于軟件工程師實際工作案例的逐步?jīng)Q策過程。

Genie的推理過程包括規(guī)劃、檢索、代碼編寫和代碼運行四個主要步驟，突破了其它AI工程師依靠在基礎模型之上添加網(wǎng)頁瀏覽器、代碼解釋器等額外工具的限制，能夠像人一樣處理多樣化的、高度情境的、前所未見的問題。

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

這種訓練方法，讓網(wǎng)友們立刻想到，之前Karpathy也提出的類似想法：

對于LLM來說，理想的訓練數(shù)據(jù)并不是你所寫的內(nèi)容本身，而是你在寫作過程中的完整思考過程和每一個編輯動作。然而，我們只能盡力利用現(xiàn)有的資源。

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

除此之外，Genie訓練中還引入了自我改進機制。

初始訓練數(shù)據(jù)多為可正常運行的沒有錯誤的代碼，導致Genie導致難以應對錯誤情況。為解決這個問題，團隊使用初代版本的Genie生成包含錯誤的合成數(shù)據(jù)，然后用這些數(shù)據(jù)訓練下一版模型。

具體來說，使用舊版本Genie提出解決方案，如果解決方案錯誤，就利用掌握的任務最終狀態(tài)來教它從當前狀態(tài)達到正確狀態(tài)。

不斷重復這一過程，Genie提出的初始解決方案逐漸變得更準確，在多數(shù)情況下能直接給出正確答案，即使出錯也只需在數(shù)據(jù)集中作較少的修正。

Genie能力提升的另一大關鍵，在于OpenAI提供的大模型支持。

團隊表示，最初開發(fā)Genie時，只能訪問微調(diào)16-32k范圍內(nèi)的短上下文模型，他們用這些模型進行了大量早期開發(fā)，用超1億token的數(shù)據(jù)訓練模型，雖然發(fā)現(xiàn)設計的架構(gòu)有一定優(yōu)勢，但從根本上受限于模型在特定時間內(nèi)可以處理的信息量。

嘗試了各種壓縮/分塊方法后，唯一的解決方法就是使用更大上下文的模型。

OpenAI提供了長上下文模型支持，最新版本的Genie經(jīng)過了數(shù)十億token的數(shù)據(jù)訓練。

團隊認為，相比超參數(shù)調(diào)整和數(shù)據(jù)量，數(shù)據(jù)的質(zhì)量才是關鍵。因此他們還在數(shù)據(jù)混合方面進行了大量實驗，包括語言、任務類型、任務長度等多個維度，以下是訓練Genie的不同編程語言數(shù)據(jù)的占比：

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

還有不同類型實例的數(shù)據(jù)占比：

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

只有5個人的團隊

正如我們在上文提到的，Cosine這個初創(chuàng)團隊人數(shù)目前僅僅為5人。

在官網(wǎng)的介紹中，他們也非常直接的將自己形容為：

Small but mighty.
雖小但有力。

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

從介紹來看，成員有的是從獨角獸企業(yè)出身，有的擁有管理全球團隊的經(jīng)驗，甚至還有從8歲就開始編程的。

但Cosine最初成立之際是僅有3人，他們的目標是想把人類推理這件事兒給搞明白。

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

值得一提的是，團隊成員中還有一位是華人，Yang Li，是Cosine的聯(lián)合創(chuàng)始人，在2021年登上過福布斯30 under 30。

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

除此之外，對于Genie本身，CEO Alistair還表示：

早在2022年我們就開始構(gòu)想Genie了，但當時從技術角度來說是不可行的。
直到過去半年多來，隨著大模型的逐步成熟，Genie才能走入現(xiàn)實。

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

嗯，不得不說，大模型又立功了。

Genie目前是可以申請Waitlist了，感興趣的小伙伴可以戳文末鏈接~

最后，附上完整字幕翻譯的官方視頻：

最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人-AI.x社區(qū)

Waitlist地址：
???https://cosine.sh/register??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/YhLyS_FekzRtCG86u2qNDA??

標簽

贊

收藏

回復

舉報

回復

相關推薦

開源大模型AI代理操作系統(tǒng)：像Windos一樣，操控AI代理

Aceryt ? 3239瀏覽 ? 0回復
谷歌美女程序員手搓矩陣乘法內(nèi)核

duhorse ? 4135瀏覽 ? 0回復
他12歲就能寫代碼，為數(shù)百萬程序員引路~

wx65af60231fbe2 ? 2487瀏覽 ? 1回復
像俄羅斯方塊一樣生成視頻！北大聯(lián)合快手AI團隊推出新框架VideoTetris實現(xiàn)跟隨復雜指令的文生視頻！

angel ? 2913瀏覽 ? 0回復
模塊化RAG：RAG新范式，像樂高一樣搭建

大語言模型論文跟蹤 ? 2796瀏覽 ? 0回復
TOT(Tree of Thought) | 讓GPT-4像人類一樣思考

arnoldzhw ? 2449瀏覽 ? 0回復
【好禮贏不?！?024程序員嘉年華！在這里集結(jié)

AI.x社區(qū)官方賬號 ? 1.2w瀏覽 ? 15回復
超級Agent：像人一樣操控電腦！

PaperAgent ? 2309瀏覽 ? 0回復
Anthropic 升級版 Claude 3.5 Sonnet 模型，像人一樣操控電腦？

穿越時空111 ? 2181瀏覽 ? 0回復
PHP程序員學習AI的學習心得

龐然大悟 ? 1667瀏覽 ? 0回復
AI像人一樣操控電腦：多模態(tài)AI Agents和屏幕交互新范式

Baihai_IDP ? 2547瀏覽 ? 0回復
谷歌發(fā)布雙思維AI Agent：像人類一樣思考，重大技術突破！

Aceryt ? 1822瀏覽 ? 0回復
OpenAI砸碎了程序員的飯碗

AI論文解讀 ? 1578瀏覽 ? 0回復
Meta楊立昆引燃全民大討論：美政府有些人被洗腦了，監(jiān)管讓開源變得像非法一樣！

51CTO技術棧 ? 1692瀏覽 ? 0回復
讓模型像人一樣思考

zhcs333 ? 1659瀏覽 ? 0回復
像Sora一樣，用物理模擬方式生成視頻

Aceryt ? 1564瀏覽 ? 0回復
LLM-Reasoner：讓任何大模型都能像DeepSeek R1一樣深入思考

PyTorch研習社 ? 1411瀏覽 ? 0回復
暴論：2025年，程序員必學技能就是 MCP

玄姐聊AGI ? 3004瀏覽 ? 0回復
AI犬種識別革命：像專家一樣思考的形態(tài)特征解碼器

51CTO內(nèi)容精選 ? 802瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： 30秒生成建模師級Mesh！最大可生成面數(shù)提升至1600，GitHub攬星1.9k項目發(fā)布V2版本

下一篇：馬斯克突發(fā)新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了

社區(qū)精華內(nèi)容

目錄

<legend id="if3wr"><abbr id="if3wr"></abbr></legend><sub id="if3wr"></sub>

<sub id="if3wr"></sub>

<sub id="if3wr"><p id="if3wr"></p></sub>