每月3500的AI碼農(nóng)Devin,還是140的編程神器Cursor?實(shí)測(cè)來了
以下是評(píng)測(cè)結(jié)果,我整理總結(jié)了一下分享給大家。
Devin 主要基于 Slack 工作流:
Devin 主要通過 Slack 交互,而非 IDE 集成。用戶在 Slack 中標(biāo)記 @devin 并提出請(qǐng)求,例如更新代碼、修復(fù) bug 等。Devin 的界面包括遠(yuǎn)程服務(wù)器、瀏覽器、VS Code 編輯界面和計(jì)劃器,用戶可以逐步查看 Devin 的操作和進(jìn)度。
Devin 的實(shí)際測(cè)試:
Steve首先測(cè)試了一個(gè)可以在消費(fèi)級(jí)硬件上運(yùn)行的小型圖像生成模型。由于他不懂 Python 也不知道如何操作,便請(qǐng)求 Devin 幫他運(yùn)行。Devin 成功克隆了代碼庫,啟動(dòng)程序,并生成了想要的貓咪圖片。隨后,Steve又要求它生成四張狗狗乘坐熱氣球的圖片,雖然生成的圖像質(zhì)量略顯驚悚 (這當(dāng)然不是 Devin 的錯(cuò),而是模型本身的問題),但 Devin 的確完成了任務(wù)。
接著,Steve嘗試讓 Devin 為這個(gè)圖像生成模型添加一個(gè)基于 Web 的 UI 界面,以便輸入提示詞并查看生成的圖像。Devin 開始工作并發(fā)送更新,過程中它會(huì)記錄筆記并存儲(chǔ)在 notes.txt 文件中,以便在后續(xù)步驟中引用和使用,這似乎是一種總結(jié)重要信息并跨步驟傳遞的有效方法。Devin 有時(shí)還會(huì)創(chuàng)建“知識(shí)條目”,即一些可能在后續(xù)子令牌運(yùn)行中用到的有用信息片段,并將其存儲(chǔ)和查找,模擬團(tuán)隊(duì)內(nèi)部的知識(shí)積累。
總的來說,Devin 表現(xiàn)出色。它能夠創(chuàng)建計(jì)劃、編寫代碼、查找和修復(fù)代碼中的 bug,甚至進(jìn)行端到端測(cè)試以驗(yàn)證功能。它還能響應(yīng)用戶反饋并嘗試解決問題。任何你在 Slack 中的回復(fù),Devin 都會(huì)嘗試回復(fù)。例如,它能夠識(shí)別部署問題并持續(xù)調(diào)試,雖然最終未能解決問題,但其努力嘗試的過程值得肯定。
Devin 的一些問題:
工作流程不理想: Devin 的工作流程并非個(gè)人偏好。提交請(qǐng)求后等待 15 分鐘才能收到 PR,然后在 PR 上來回溝通。個(gè)人更喜歡在本地 IDE 中進(jìn)行所有操作,實(shí)時(shí)查看更新,并在本地提交和調(diào)試,而無需跳轉(zhuǎn)到遠(yuǎn)程服務(wù)器和其他不熟悉的工具,以及忍受漫長(zhǎng)的等待和延遲。
可靠性有待提高: Devin 的理念是讓異步代理同事處理任務(wù),并并行執(zhí)行多項(xiàng)操作,最終向你提供結(jié)果。但這只有在 Devin 足夠可靠的情況下才是一個(gè)高效的工作流程。讓 AI 自己去執(zhí)行任務(wù),除非你非常確信它能夠可靠地完成。否則,寧愿使用自己的 IDE 來完成。
其他 bug: 在測(cè)試過程中,Devin 還出現(xiàn)了一些其他問題,例如無法正確生成拉取請(qǐng)求、添加不必要的代碼、無法響應(yīng)反饋等,雖然這些問題并非無法解決,但也影響了使用體驗(yàn)。
與 Cursor 的比較
與 Devin 相比,Cursor 代理的優(yōu)勢(shì)在于無需手動(dòng)添加文件到上下文,它會(huì)自動(dòng)掃描代碼庫并添加相關(guān)文件。在同樣的任務(wù)中,Cursor 代理能夠快速準(zhǔn)確地完成代碼修改,并且能夠?qū)崟r(shí)控制和查看更新,無需等待和跳轉(zhuǎn)到其他工具。這種實(shí)時(shí)交互和掌控感讓你對(duì) Cursor 代理更有信心。
在 GraphQL 后端功能的測(cè)試中,Cursor 代理也取得了與 Devin 類似的結(jié)果,成功添加了 Comments Resolver 并將其集成到 API 中。此外,Cursor 代理在運(yùn)行命令前會(huì)進(jìn)行確認(rèn),更加謹(jǐn)慎,這對(duì)于在本地機(jī)器上運(yùn)行的工具來說是一個(gè)重要的優(yōu)勢(shì)。
總結(jié):
雖然 Devin 在 AI 編碼領(lǐng)域展現(xiàn)出一定的潛力,但它不太可能像 Cursor 那樣迅速普及。這不僅僅是因?yàn)?500 美元的月費(fèi),更重要的是 Cursor 代理更容易上手,其增量式方法也更符合個(gè)人的工作習(xí)慣。Devin 試圖一步到位,并以代理驅(qū)動(dòng)開發(fā)的新方式為噱頭籌集資金(據(jù)說devin已經(jīng)估值20億美金了),但這并不是理想中的工作流程。也許當(dāng)大型語言模型更加完善,代理更加可靠時(shí),Devin 的價(jià)值才能真正體現(xiàn)出來。但個(gè)人更看好 Cursor 的增量式方法,而不是 Devin 的全面改革式方法
盡管如此,仍然很高興看到 AI 編碼領(lǐng)域出現(xiàn)新的競(jìng)爭(zhēng)者,這將推動(dòng) Cursor 進(jìn)一步發(fā)展。期待看到 Devin 的未來發(fā)展。