自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

利用LLM做論文review到哪一步了？來看看DeepReview吧！

發(fā)布于 2025-3-14 00:48

瀏覽

0收藏

今天分享一篇西湖大學張岳老師的一篇利用合成推理數據做論文評審文章，Title: DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process：通過合成類人深度思考過程改進基于LLM的論文評審效果。

這篇文章探索了如何利用大型語言模型（LLM）來改進論文評審過程，提出了一個多階段框架DeepReview，通過結合結構化分析、文獻檢索和基于證據的論證，模擬專家評審員的深度思考過程，從而提高LLM在論文評審中的可靠性。

該方法分為三個階段：1）新穎性驗證：通過文獻檢索評估研究的原創(chuàng)性。2）多維度評估：綜合多個專家意見。3）可靠性驗證：檢查內部一致性和邏輯連貫性。

該方法特點總結如下：1）提出了DeepReview-13K，一個帶有結構化注釋的精選數據集，用于訓練模型。2）訓練了DeepReviewer-14B模型，在評估中優(yōu)于CycleReviewer-70B。3）模型提供了三種推理模式（快速、標準和最佳），允許用戶在效率和響應質量之間進行平衡。

一、概述

?Title:DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process

?URL:arXiv:2503.08569v1

?Authors:Minjun Zhu, Yixuan Weng, Linyi Yang, Yue Zhang

?Code:zhu-minjun/Researcher

?Homepage:ai-researcher.net

?Demo:ai-researcher.net/deepreviewer

1.Motivation

? 現有的基于LLM的論文評審系統存在包括領域專業(yè)知識有限、推理錯誤和缺乏結構化評估等缺陷。

?同時缺乏能夠捕捉細粒度專家評估過程的結構化論文評審數據集。

2.Methods

DeepReview 數據收集與構建（Data Collection）：

![image-20220313103359178](/Users/huxiang/Library/Application Support/typora-user-images/image-20220313103359178.png)

??步驟??：

從 OpenReview 平臺收集原始數據，包括 ICLR 2024 和 2025 的投稿論文。
使用 MinerU 工具將論文轉換為可解析的 Markdown 格式。
為每篇論文構建評審集 R，包括文本評估(Strengths, Weaknesses, and Questions)、互動討論（rebuttal）和標準化評分（overall ratings (∈ [1, 10]) and fine-grained evaluations of Soundness, Presentation, and Contribution (∈ [1, 4])）。
收集元評審文本（meta-review texts）和最終評分以及decisions（接受/拒絕）。
最終的 DeepReview-13K 數據集包含 13,378 個有效樣本。

DeepReview 長推理數據合成方法：基于已有openreview的數據合成推理數據訓練模型

結合檢索、rank、自我驗證和自我反思等方法，開發(fā)了一個paper review的數據合成流程，該流程確保 LLM 生成建議的可靠性和魯棒性。該框架主要分為以下幾個方面來模擬專家評審過程：

利用LLM做論文review到哪一步了？來看看DeepReview吧！-AI.x社區(qū)

最終一個完整的review example如下：

利用LLM做論文review到哪一步了？來看看DeepReview吧！-AI.x社區(qū)

合成數據的流程如下：

1）新穎性評估（Novelty Verification）：通過檢索文獻評估研究的新穎性并給出分析報告。

? 使用 Qwen-2.5-72B-Instruct 模型生成三個關鍵研究問題（questions, focusing on research gaps, innovative directions, and methodological breakthroughs to capture domain-specific characteristics）。

? 使用 Gemini-2.0-Flash-thinking 模型進行系統論文分析（research motivation, core ideas, technical approaches, and experimental design）。

? 使用 OpenScholar 進行文獻檢索、比較和總結。（literature retrieval, comparison, and summary base on OpenScholar）

? 使用 Qwen-2.5-3B-Instruct 和few-shot learning將問題轉換為搜索關鍵詞（Semantic Scholar API）。

? 使用 ReRank 模型對檢索到的論文進行重新排序（top 10 most relevant papers）。

? 使用內部 QA 模型生成綜合報告作為新穎性分析（Llama-3.1_OpenScholar-8B）。

? 可能存在的問題：得按之前論文的發(fā)表時間來檢索才對吧？否則有新論文進來會影響novelty的分數。不知道作者有沒有考慮到！

2）多維度評估標準（Multi-dimensional Review）：將rebuttals合成multiple review報告。

? 使用 Qwen-2.5-72B-Instruct 開發(fā)評審重構流程（從rebuttal中提取experimental results, theoretical proofs, and implementation details）。

? 分析 R 中的每個評審及其對應的作者回復。

? 將批評轉化為具體的技術建議。

3）可靠性驗證（Reliability Verification）：從原文找到證據，并給出confidence level（檢查assessment內部一致性和邏輯連貫性）。

? 使用 Gemini-2.Flash-thinking 進行系統證據分析。總共需要通過四階段驗證鏈進行：方法驗證、實驗驗證和綜合分析（methodology verification, experimental verification, and comprehensive analysis）。每個評審意見都需要論文中的支持證據和置信度。

? 最終使用 Qwen 生成新的meta review（依據original Meta-Review, reviewer comments, and verification outcomes）。

4）質量控制機制（Quality Control Mechanism）：

? 使用 Qwen-2.5-72B-Instruct 堅持最終推理鏈的嚴謹性。

? 評估每個生成樣本的邏輯完整性（z1, z2, z3）和完備性。

? 檢查邏輯一致性和完整性。

訓練模型并測試：

1）模型訓練(Model Training)

? 基于Phi-4 14B模型, 使用DeepReview-13K的數據集進行訓練.

? 在8x H100 80G GPUs上使用DeepSpeed + ZeRO3優(yōu)化。

? 使用LongRoPE將上下文窗口擴展到256K,訓練期間使用40K的上下文窗口。

? 使用23,500步訓練，batch size為16，學習率為5e-6。

2）推理策略（Inference Strategy）

? Fast: 快速模式，直接生成最終評估結果（z3）

? Standard: 標準模式，包括Z2和Z3兩個核心的評估步驟

? Best：最佳模式，執(zhí)行整個的reasoning chain(Z1,Z2,Z3)

3.Conclusion

1）與其他baseline的效果對比

利用LLM做論文review到哪一步了？來看看DeepReview吧！-AI.x社區(qū)

總結1：DeepReviewer-14B 在多個維度上表現優(yōu)異，與 CycleReviewer-70B、GPT-o1 和 Deepseek-R1 等現有系統相比，在評分、排名和選擇方面均取得了顯著改進?？偨Y2: 感覺還是沒有帶來本質的替身，pairwise accuracy都還不太高！

2）基于Gemini-2.0-Flash-Thinking分析生成的review質量

利用LLM做論文review到哪一步了？來看看DeepReview吧！-AI.x社區(qū)

總結：在文字內容上，提的點上，效果看起來都不錯。這個可能可以給作者提供比較詳細的指導！

3）展現出強大的抗攻擊能力

利用LLM做論文review到哪一步了？來看看DeepReview吧！-AI.x社區(qū)

4）推理token的scaling law

利用LLM做論文review到哪一步了？來看看DeepReview吧！-AI.x社區(qū)

Reasoning Path Scaling： 對應文章提到的fast，standard，best，看著提升效果沒那么大。

Reviewer Scaling： 代表reviewer的個數，看著提升還不錯，但是對Decision Accuracy提升不大。

三、總結

結論1: 利用 LLM 進行結構化推理可以顯著提升論文評審的質量和可靠性。 DeepReview 框架通過模擬人類專家評審過程，結合新穎性驗證、多維度評估和可靠性驗證，提高了評審的深度和準確性。

結論2: DeepReview 框架具有良好的可擴展性和魯棒性。 通過 Test-Time Scaling 分析表明，DeepReviewer 可以通過調整推理路徑和響應長度來提高性能，并且對對抗性攻擊表現出很強的彈性。

總的來說，論文評審的decision還是一個非常有難度（看運氣）的一個事情，但是基于LLM的review可能可以給作者在提交前提供很多反饋意見和建議（參考原文Tabble 4）。

本文轉載自??NLP PaperWeekly??，作者： NLP PaperWeekly ????

標簽

贊

收藏

回復

舉報

社區(qū)頭條

回復

相關推薦

只需一步！One-Step圖像轉換來了！親測效果驚艷！

angel ? 4364瀏覽 ? 0回復
生成式視頻的下一步是什么

lintoms ? 2555瀏覽 ? 0回復
不會吧！不會吧！不會吧！阿里已經火到國外的 Emo 模型，你不會還沒玩過吧~

wsp_ping ? 2541瀏覽 ? 0回復
ResearchAgent: 利用agent自動生成論文idea，再也不用擔心做科研沒有思路了

arnoldzhw ? 5437瀏覽 ? 0回復
GPT-4o做Code Review可行嗎？

51CTO技術棧 ? 3171瀏覽 ? 0回復
Google總監(jiān)提出生成式AI應用架構和成熟度模型，一步步指導進階

Syrupup ? 4564瀏覽 ? 0回復
RAPTOR 檢索樹再次進一步提升RAG性能的設計思路

AIGC觀察者 ? 3619瀏覽 ? 0回復
如何確保Agent系統每一步都符合預期？

探索AGI ? 4738瀏覽 ? 1回復
具身智能又進一步！卡內基梅隆&Meta&蘇黎世聯邦實現虛擬人超靈活抓取

angel ? 2443瀏覽 ? 0回復
LlamaIndex結合DSPy，進一步優(yōu)化RAG系統

小虎哦哦 ? 2744瀏覽 ? 0回復
來看看OpenAI研究員Lilian Weng的干貨分享

AIGC最前線 ? 3346瀏覽 ? 0回復
?教機器人"倒水"是融入生活的第一步！AR收集和生成演示(ARCADE)框架發(fā)布

angel ? 1789瀏覽 ? 0回復
讓 ChatGPT 自動執(zhí)行你的想法，向代理時代邁出的小小一步！

老蛀蟲 ? 2406瀏覽 ? 0回復
只需一步！上交&哈佛提出FluxSR：首個基于12B+大模型的單步擴散真實世界超分模型

angel ? 2611瀏覽 ? 0回復
如何高效轉換PDF為Markdown：構建優(yōu)質Graph RAG的第一步

Halo咯咯 ? 1699瀏覽 ? 0回復
快OpenAI一步Anthropic跳版本發(fā)布：Claude3.7 Sonnet可自行決定思考時長

51CTO技術棧 ? 1698瀏覽 ? 0回復
文心一言4.5和X1免費，馬上安排實測，來看看效果如何！

NLP工作站 ? 1733瀏覽 ? 0回復
這個AI系統能給你的每一步解題過程打分

sbf_2000 ? 838瀏覽 ? 0回復
手把手帶你看懂自注意力機制：三個輸入一步步算到底

人工智能訓練營 ? 471瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

香港科技大學聯合DeepSeek-AI推出CODEI/O：讓AI學會“濃縮”推理模式 9天前發(fā)布
中國科大認知全重實驗室發(fā)布Agent-R1訓練框架，支持自主思考與工具調用！ 2025-04-09 06:29:20發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現 Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： LMEDR對話模型：引入自然語言推理數據提升對話模型的連貫性和一致性

下一篇： Search-R1：讓大模型學會“檢索+推理”的新范式

社區(qū)精華內容

目錄

<sub id="fklha"></sub>