自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)深度研究

發(fā)布于 2025-4-9 06:32
瀏覽
0收藏

?今日目錄

1、 MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型

2、 DeepResearcher: 通過真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)深度研究

3、 APIGen-MT: 通過模擬代理-人類互動(dòng)生成高質(zhì)量對話數(shù)據(jù)

4、 更大的語言模型是否意味著更好的推理能力?預(yù)訓(xùn)練推理縮放規(guī)律

5、 何時(shí)求解,何時(shí)驗(yàn)證:計(jì)算最優(yōu)問題求解與LLM推理的生成驗(yàn)證

6、 突破傳統(tǒng)數(shù)學(xué)批改!這個(gè)AI系統(tǒng)能給你的每一步解題過程打分

1、 MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)深度研究-AI.x社區(qū)圖片

MedSAM2模型通過在超過45.5萬對3D圖像-掩碼對和7.6萬幀數(shù)據(jù)上微調(diào)Segment Anything Model 2,成功打造了一個(gè)可提示式分割基礎(chǔ)模型,在各種器官、病變和成像模式下的表現(xiàn)均優(yōu)于現(xiàn)有模型。

研究團(tuán)隊(duì)還實(shí)現(xiàn)了人機(jī)協(xié)作流程,促進(jìn)大規(guī)模數(shù)據(jù)集的創(chuàng)建,完成了迄今最大規(guī)模的用戶研究,包括標(biāo)注5,000個(gè)CT病變、3,984個(gè)肝臟MRI病變和251,550幀超聲心動(dòng)圖視頻幀,證明MedSAM2可以減少超過85%的人工成本。

該模型已集成到廣泛使用的平臺(tái)中,提供用戶友好的界面,支持本地和云部署,成為研究和醫(yī)療環(huán)境中支持高效、可擴(kuò)展和高質(zhì)量分割的實(shí)用工具。

論文標(biāo)題:MedSAM2: Segment Anything in 3D Medical Images and Videos

論文鏈接:https://arxiv.org/abs/2504.03600?

2、 DeepResearcher: 通過真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)深度研究

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)深度研究-AI.x社區(qū)圖片

這是一篇結(jié)合搜索引擎和LLM的新論文,完全基于GRPO方法。研究團(tuán)隊(duì)推出了DeepResearcher,這是首個(gè)通過在真實(shí)世界環(huán)境中端到端訓(xùn)練LLM研究代理的綜合框架,具有真實(shí)網(wǎng)絡(luò)搜索交互。

與假設(shè)所有必要信息都存在于固定語料庫中的RAG方法不同,DeepResearcher訓(xùn)練代理在嘈雜、非結(jié)構(gòu)化和動(dòng)態(tài)的開放網(wǎng)絡(luò)中導(dǎo)航。研究實(shí)現(xiàn)了專門的多代理架構(gòu),使瀏覽代理能從各種網(wǎng)頁結(jié)構(gòu)中提取相關(guān)信息。

在開放領(lǐng)域研究任務(wù)上的廣泛實(shí)驗(yàn)表明,DeepResearcher比基于提示工程的基線提高了高達(dá)28.9個(gè)點(diǎn),比基于RAG的強(qiáng)化學(xué)習(xí)代理提高了高達(dá)7.2個(gè)點(diǎn)。    

質(zhì)性分析揭示了端到端強(qiáng)化學(xué)習(xí)訓(xùn)練產(chǎn)生的認(rèn)知行為,包括制定計(jì)劃、從多個(gè)來源交叉驗(yàn)證信息、進(jìn)行自我反思以重定向研究,以及在無法找到明確答案時(shí)保持誠實(shí)的能力。

論文標(biāo)題:DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

論文鏈接:https://arxiv.org/abs/2504.03160?

3、 APIGen-MT: 通過模擬代理-人類互動(dòng)生成高質(zhì)量對話數(shù)據(jù)

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)深度研究-AI.x社區(qū)圖片

這篇論文介紹了APIGen-MT,一個(gè)兩階段框架,用于生成可驗(yàn)證且多樣化的多輪代理數(shù)據(jù)。在第一階段,代理流程利用LLM審閱委員會(huì)和迭代反饋循環(huán),生成帶有真實(shí)行動(dòng)的詳細(xì)任務(wù)藍(lán)圖。這些藍(lán)圖隨后通過模擬的人類-代理互動(dòng)轉(zhuǎn)化為完整的交互軌跡。

研究團(tuán)隊(duì)訓(xùn)練了一系列模型——xLAM-2-fc-r,參數(shù)規(guī)模從1B到70B不等。這些模型在τ-bench和BFCL基準(zhǔn)測試中的表現(xiàn)優(yōu)于GPT-4o和Claude 3.5等前沿模型,較小的模型甚至超過了較大的模型,特別是在多輪設(shè)置中,同時(shí)在多次試驗(yàn)中保持更高的一致性。

模型鏈接:https://huggingface.co/Salesforce/xLAM-2?    

網(wǎng)站與數(shù)據(jù)集:https://apigen-mt.github.io?

論文標(biāo)題:APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

論文鏈接:https://arxiv.org/abs/2504.03601?

4、 更大的語言模型是否意味著更好的推理能力?預(yù)訓(xùn)練推理縮放規(guī)律

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)深度研究-AI.x社區(qū)圖片

在設(shè)計(jì)用來緊密復(fù)制真實(shí)世界大規(guī)模知識(shí)圖譜結(jié)構(gòu)和分布的合成多跳推理環(huán)境中,研究者觀察到過度參數(shù)化會(huì)由于過度記憶而損害推理性能。

研究任務(wù)涉及完成圖中缺失的邊,這需要先進(jìn)的多跳推理,并模仿真實(shí)世界的推理場景。為了評估這一點(diǎn),研究團(tuán)隊(duì)從頭開始僅使用不完整圖的三元組預(yù)訓(xùn)練語言模型,并評估它們推斷缺失邊的能力。

有趣的是,研究者觀察到過度參數(shù)化會(huì)由于過度記憶而損害推理性能。他們研究了影響這種U形損失曲線的不同因素,包括圖結(jié)構(gòu)、模型大小和訓(xùn)練步驟。為了預(yù)測特定知識(shí)圖譜的最佳模型大小,團(tuán)隊(duì)找到了一個(gè)經(jīng)驗(yàn)縮放規(guī)律,可以將知識(shí)圖譜搜索熵線性映射到最佳模型大小。

論文標(biāo)題:Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning

論文鏈接:https://arxiv.org/abs/2504.03635?

5、 何時(shí)求解,何時(shí)驗(yàn)證:計(jì)算最優(yōu)問題求解與LLM推理的生成驗(yàn)證

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)深度研究-AI.x社區(qū)圖片

這篇論文分析了在固定計(jì)算預(yù)算下的最佳策略——是生成多個(gè)解決方案(自一致性,SC)還是深入驗(yàn)證較少的解決方案(生成獎(jiǎng)勵(lì)模型,GenRM)。

研究發(fā)現(xiàn),SC在較低預(yù)算下更具計(jì)算效率,而GenRM僅在顯著更高的預(yù)算下表現(xiàn)更好(例如,僅需要8倍的計(jì)算量就能與SC匹配)。

  • 自一致性(SC)對于許多計(jì)算預(yù)算來說實(shí)際上更優(yōu),需要比GenRM少8倍的計(jì)算量。
  • 最優(yōu)GenRM擴(kuò)展解決方案的速度更快(預(yù)算指數(shù)約為0.6-0.75),而驗(yàn)證的擴(kuò)展速度較慢(指數(shù)約為0.3-0.4)。
  • 在固定計(jì)算量的比較中揭示了GenRM的高成本,這在固定解決方案評估中被忽略了。

論文標(biāo)題:When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

論文鏈接:https://arxiv.org/abs/2504.01005?

6、 突破傳統(tǒng)數(shù)學(xué)批改!這個(gè)AI系統(tǒng)能給你的每一步解題過程打分

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)深度研究-AI.x社區(qū)圖片

當(dāng)前的自動(dòng)數(shù)學(xué)糾錯(cuò)通常只檢查最終答案,忽略了解題步驟中的推理錯(cuò)誤。這篇論文引入了StepAMC,使用強(qiáng)化學(xué)習(xí)(RL)改進(jìn)LLM推理,實(shí)現(xiàn)詳細(xì)的、逐步的數(shù)學(xué)解決方案檢查。

在PRM-42K數(shù)據(jù)集上,StepAMC實(shí)現(xiàn)了更高的F1分?jǐn)?shù)(81.69%)和準(zhǔn)確率(81.81%),優(yōu)于直接偏好優(yōu)化(DPO)等強(qiáng)大基線(79.28%的F1,79.43%的準(zhǔn)確率)。

  • 強(qiáng)化學(xué)習(xí)迫使LLM分析逐步邏輯,使推理能力超越簡單分類。
  • 空間約束策略網(wǎng)絡(luò)(Space-Constrained Policy Network)通過添加特定約束增強(qiáng)訓(xùn)練穩(wěn)定性,使模型更加專注。
  • 細(xì)粒度獎(jiǎng)勵(lì)網(wǎng)絡(luò)(Fine-grained Reward Network)提供細(xì)致、連續(xù)的反饋,使模型能夠更好地從部分正確的步驟中學(xué)習(xí)。

論文中探索的方法??:

→ 空間約束策略網(wǎng)絡(luò)(SCPN)通過在訓(xùn)練期間使用領(lǐng)域特定約束縮小動(dòng)作搜索空間,增強(qiáng)RL穩(wěn)定性。

→ 細(xì)粒度獎(jiǎng)勵(lì)網(wǎng)絡(luò)(FRN)將簡單的二元人類反饋(正確/不正確)轉(zhuǎn)換為連續(xù)獎(jiǎng)勵(lì)值,為評估每個(gè)步驟的正確性提供更細(xì)致的指導(dǎo)。    

論文標(biāo)題:Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning

論文鏈接:?https://arxiv.org/abs/2503.18432

本文轉(zhuǎn)載自???AI帝國???,作者:無影寺

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦