自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="uhkha"></sub>

<sub id="uhkha"><p id="uhkha"><li id="uhkha"></li></p></sub>

<cite id="uhkha"><rp id="uhkha"></rp></cite>

<blockquote id="uhkha"><i id="uhkha"></i></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型“自動修 bug”能力將提升，豆包團隊開源首個多語言代碼修復(fù)基準(zhǔn) Multi-SWE-bench

作者：清源 2025-04-10 14:30:12

人工智能開源

4 月 10 日消息，豆包大模型團隊今日通過官方公眾號宣布，首個多語言類 SWE 數(shù)據(jù)集 Multi-SWE-bench 現(xiàn)已正式開源，可用于評估和提升大模型“自動修 Bug”能力。

4 月 10 日消息，豆包大模型團隊今日通過官方公眾號宣布，首個多語言類 SWE 數(shù)據(jù)集 Multi-SWE-bench 現(xiàn)已正式開源，可用于評估和提升大模型“自動修 Bug”能力。

在 SWE-bench 基礎(chǔ)上，Multi-SWE-bench 首次覆蓋 Python 之外的 7 種主流編程語言，是真正面向“全棧工程”的評測基準(zhǔn)。其數(shù)據(jù)均來自 GitHub issue，歷時近一年構(gòu)建，以盡可能準(zhǔn)確測評和提高大模型高階編程智能水平。

Multi-SWE-bench 旨在推動自動編程技術(shù)從僅能解決單一語言（如 Python）和低復(fù)雜度的任務(wù)，朝著支持多語言、具備真實問題解決能力的通用型智能體邁進(jìn)。

SWE-bench 是當(dāng)前最具代表性的代碼修復(fù)評測基準(zhǔn)，強調(diào)任務(wù)真實、難度高。它基于 GitHub issue，要求模型自動定位并修復(fù) Bug，兼具跨文件修改、復(fù)雜語義推理與上下文理解等挑戰(zhàn)。

Multi-SWE-bench 旨在補全現(xiàn)有同類基準(zhǔn)語言覆蓋方面的不足，系統(tǒng)性評估大模型在復(fù)雜開發(fā)環(huán)境下的“多語言泛化能力”，推動多語言軟件開發(fā) Agent 的評估與研究，其主要特性如下：

首次覆蓋 7 種主流編程語言（包括 Java、Go、Rust、C、C++、TypeScript、JavaScript），構(gòu)建多語言開發(fā)環(huán)境下的代碼修復(fù)任務(wù)，系統(tǒng)評估模型的跨語言適應(yīng)與泛化能力；
引入任務(wù)難度分級機制，將問題劃分為簡單（Easy）、中等（Medium）和困難（Hard）三類，涵蓋從一行修改到多文件、多步驟、多語義依賴的開發(fā)挑戰(zhàn)；
1,632 個實例全部來源于真實開源倉庫，并經(jīng)過統(tǒng)一的測試標(biāo)準(zhǔn)和專業(yè)開發(fā)者的審核篩選，確保每個樣本具備清晰的問題描述、正確的修復(fù)補丁以及可復(fù)現(xiàn)的運行測試環(huán)境。

IT之家附開源鏈接：

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving：

論文鏈接：https://arxiv.org/ abs / 2504.02605
榜單鏈接：https://multi-swe-bench.github.io
代碼鏈接：https://github.com/ multi-swe-bench / multi-swe-bench
數(shù)據(jù)鏈接：https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench

責(zé)任編輯：龐桂玉來源： IT之家

大模型豆包團隊開源

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<acronym id="evzpv"><style id="evzpv"></style></acronym>

^{<sub id="evzpv"></sub>}