自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

強(qiáng)化學(xué)習(xí)與軟件工程:開(kāi)源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)

發(fā)布于 2025-2-27 12:49
瀏覽
0收藏

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

2025-02-25|Meta FAIR, UIUC, Meta GenAI, CMU|??37

???http://arxiv.org/abs/2502.18449v1????
????https://huggingface.co/papers/2502.18449????
????https://github.com/facebookresearch/swe-rl???

研究背景與意義

強(qiáng)化學(xué)習(xí)與軟件工程:開(kāi)源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

近年來(lái),大型語(yǔ)言模型(LLMs)在軟件工程(SE)任務(wù)中的應(yīng)用引起了廣泛關(guān)注。研究者們探索了LLMs在自動(dòng)化復(fù)雜SE任務(wù)中的潛力,例如庫(kù)級(jí)和復(fù)雜代碼生成、真實(shí)世界錯(cuò)誤/問(wèn)題解決以及軟件測(cè)試。然而,現(xiàn)有的技術(shù)大多依賴(lài)于強(qiáng)大的專(zhuān)有LLMs,如GPT-4o或Claude-3.5-Sonnet,這些模型的進(jìn)步更多依賴(lài)于增強(qiáng)的提示策略,而非底層LLM的改進(jìn)。隨著DeepSeek-R1的發(fā)布,基于規(guī)則的強(qiáng)化學(xué)習(xí)(RL)成為增強(qiáng)LLMs推理能力的關(guān)鍵技術(shù),但其在SE任務(wù)中的有效性仍然有限。本文提出的SWE-RL方法首次將RL應(yīng)用于真實(shí)世界的軟件工程任務(wù),通過(guò)利用軟件演化數(shù)據(jù)(如PRs)和基于規(guī)則的獎(jiǎng)勵(lì),顯著提升了LLMs在SE任務(wù)中的表現(xiàn)。

研究方法與創(chuàng)新

強(qiáng)化學(xué)習(xí)與軟件工程:開(kāi)源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

SWE-RL方法的核心在于利用軟件演化數(shù)據(jù)和基于規(guī)則的獎(jiǎng)勵(lì)來(lái)增強(qiáng)LLMs的推理能力。具體而言,SWE-RL通過(guò)從GitHub PR數(shù)據(jù)中創(chuàng)建種子RL數(shù)據(jù)集,包括問(wèn)題描述、代碼上下文和Oracle補(bǔ)丁。在RL過(guò)程中,策略LLM通過(guò)推理生成代碼更改,并根據(jù)預(yù)測(cè)補(bǔ)丁與Oracle補(bǔ)丁的匹配程度計(jì)算獎(jiǎng)勵(lì)。SWE-RL的創(chuàng)新點(diǎn)在于其輕量級(jí)的基于規(guī)則獎(jiǎng)勵(lì)機(jī)制,使得LLMs能夠從廣泛的軟件演化數(shù)據(jù)中自主學(xué)習(xí)開(kāi)發(fā)者的推理過(guò)程和解決方案。此外,SWE-RL在Llama 3的基礎(chǔ)上訓(xùn)練,生成的推理模型Llama3-SWE-RL-70B在SWE-bench Verified上達(dá)到了41.0%的解決率,這是迄今為止中等規(guī)模LLMs(<100B)中表現(xiàn)最好的,甚至可與GPT-4o等領(lǐng)先的專(zhuān)有LLMs相媲美。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

強(qiáng)化學(xué)習(xí)與軟件工程:開(kāi)源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

實(shí)驗(yàn)部分,SWE-RL在SWE-bench Verified上進(jìn)行了評(píng)估,這是一個(gè)包含500個(gè)經(jīng)過(guò)人工驗(yàn)證的真實(shí)世界GitHub問(wèn)題的子集。實(shí)驗(yàn)結(jié)果顯示,Llama3-SWE-RL-70B在SWE-bench Verified上的解決率為41.0%,顯著優(yōu)于其他開(kāi)源模型。此外,盡管SWE-RL僅在軟件演化數(shù)據(jù)上進(jìn)行RL訓(xùn)練,但Llama3-SWE-RL-70B還表現(xiàn)出在多個(gè)領(lǐng)域外的任務(wù)(如函數(shù)編碼、庫(kù)使用、代碼推理、數(shù)學(xué)和一般語(yǔ)言理解)上的推理能力提升。這表明,SWE-RL不僅提升了LLMs在SE任務(wù)中的表現(xiàn),還增強(qiáng)了其通用推理能力。

結(jié)論與展望

本文提出的SWE-RL方法首次將RL應(yīng)用于真實(shí)世界的軟件工程任務(wù),通過(guò)利用軟件演化數(shù)據(jù)和基于規(guī)則的獎(jiǎng)勵(lì),顯著提升了LLMs在SE任務(wù)中的表現(xiàn)。Llama3-SWE-RL-70B在SWE-bench Verified上的表現(xiàn)達(dá)到了中等規(guī)模LLMs中的最佳水平,甚至可與GPT-4o等專(zhuān)有模型相媲美。此外,SWE-RL還增強(qiáng)了LLMs的通用推理能力,使其在多個(gè)領(lǐng)域外的任務(wù)上表現(xiàn)出色。未來(lái)的工作將集中在改進(jìn)獎(jiǎng)勵(lì)機(jī)制、增強(qiáng)模型的局部化能力以及提高樣本效率上,以進(jìn)一步提升SWE-RL的實(shí)用性和性能。

通過(guò)本文的研究,我們?yōu)長(zhǎng)LMs在軟件工程任務(wù)中的應(yīng)用開(kāi)辟了新的方向,展示了RL在提升LLMs推理能力方面的巨大潛力。

本文轉(zhuǎn)載自??AI研究前瞻??,作者: 胡耀淇 ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄