利用LLM做論文review到哪一步了?來看看DeepReview吧!
今天分享一篇西湖大學張岳老師的一篇利用合成推理數據做論文評審文章,Title: DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process:通過合成類人深度思考過程改進基于LLM的論文評審效果。
這篇文章探索了如何利用大型語言模型(LLM)來改進論文評審過程,提出了一個多階段框架DeepReview,通過結合結構化分析、文獻檢索和基于證據的論證,模擬專家評審員的深度思考過程,從而提高LLM在論文評審中的可靠性。
該方法分為三個階段:1)新穎性驗證:通過文獻檢索評估研究的原創(chuàng)性。2)多維度評估:綜合多個專家意見。3)可靠性驗證:檢查內部一致性和邏輯連貫性。
該方法特點總結如下:1)提出了DeepReview-13K,一個帶有結構化注釋的精選數據集,用于訓練模型。2)訓練了DeepReviewer-14B模型,在評估中優(yōu)于CycleReviewer-70B。3)模型提供了三種推理模式(快速、標準和最佳),允許用戶在效率和響應質量之間進行平衡。
一、概述
?Title:DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process
?URL:arXiv:2503.08569v1
?Authors:Minjun Zhu, Yixuan Weng, Linyi Yang, Yue Zhang
?Code:zhu-minjun/Researcher
?Homepage:ai-researcher.net
?Demo:ai-researcher.net/deepreviewer
1.Motivation
? 現有的基于LLM的論文評審系統存在包括領域專業(yè)知識有限、推理錯誤和缺乏結構化評估等缺陷。
?同時缺乏能夠捕捉細粒度專家評估過程的結構化論文評審數據集。
2.Methods
DeepReview 數據收集與構建(Data Collection):

??步驟?
?:
- 從 OpenReview 平臺收集原始數據,包括 ICLR 2024 和 2025 的投稿論文。
- 使用 MinerU 工具將論文轉換為可解析的 Markdown 格式。
- 為每篇論文構建評審集 R,包括文本評估(Strengths, Weaknesses, and Questions)、互動討論(rebuttal)和標準化評分(overall ratings (∈ [1, 10]) and fine-grained evaluations of Soundness, Presentation, and Contribution (∈ [1, 4]))。
- 收集元評審文本(meta-review texts)和最終評分以及decisions(接受/拒絕)。
- 最終的 DeepReview-13K 數據集包含 13,378 個有效樣本。
DeepReview 長推理數據合成方法: 基于已有openreview的數據合成推理數據訓練模型
結合檢索、rank、自我驗證和自我反思等方法,開發(fā)了一個paper review的數據合成流程,該流程確保 LLM 生成建議的可靠性和魯棒性。該框架主要分為以下幾個方面來模擬專家評審過程:
最終一個完整的review example如下:
合成數據的流程如下:
1)新穎性評估(Novelty Verification):通過檢索文獻評估研究的新穎性并給出分析報告。
? 使用 Qwen-2.5-72B-Instruct 模型生成三個關鍵研究問題(questions, focusing on research gaps, innovative directions, and methodological breakthroughs to capture domain-specific characteristics)。
? 使用 Gemini-2.0-Flash-thinking 模型進行系統論文分析(research motivation, core ideas, technical approaches, and experimental design)。
? 使用 OpenScholar 進行文獻檢索、比較和總結。(literature retrieval, comparison, and summary base on OpenScholar)
? 使用 Qwen-2.5-3B-Instruct 和few-shot learning將問題轉換為搜索關鍵詞(Semantic Scholar API)。
? 使用 ReRank 模型對檢索到的論文進行重新排序(top 10 most relevant papers)。
? 使用內部 QA 模型生成綜合報告作為新穎性分析(Llama-3.1_OpenScholar-8B)。
? 可能存在的問題:得按之前論文的發(fā)表時間來檢索才對吧?否則有新論文進來會影響novelty的分數。不知道作者有沒有考慮到!
2)多維度評估標準(Multi-dimensional Review):將rebuttals合成multiple review報告。
? 使用 Qwen-2.5-72B-Instruct 開發(fā)評審重構流程(從rebuttal中提取experimental results, theoretical proofs, and implementation details)。
? 分析 R 中的每個評審及其對應的作者回復。
? 將批評轉化為具體的技術建議。
3)可靠性驗證(Reliability Verification):從原文找到證據,并給出confidence level(檢查assessment內部一致性和邏輯連貫性)。
? 使用 Gemini-2.Flash-thinking 進行系統證據分析。總共需要通過四階段驗證鏈進行:方法驗證、實驗驗證和綜合分析(methodology verification, experimental verification, and comprehensive analysis)。每個評審意見都需要論文中的支持證據和置信度。
? 最終使用 Qwen 生成新的meta review(依據original Meta-Review, reviewer comments, and verification outcomes)。
4)質量控制機制(Quality Control Mechanism):
? 使用 Qwen-2.5-72B-Instruct 堅持最終推理鏈的嚴謹性。
? 評估每個生成樣本的邏輯完整性(z1, z2, z3)和完備性。
? 檢查邏輯一致性和完整性。
1)模型訓練(Model Training)
? 基于Phi-4 14B模型, 使用DeepReview-13K的數據集進行訓練.
? 在8x H100 80G GPUs上使用DeepSpeed + ZeRO3優(yōu)化。
? 使用LongRoPE將上下文窗口擴展到256K,訓練期間使用40K的上下文窗口。
? 使用23,500步訓練,batch size為16,學習率為5e-6。
2)推理策略(Inference Strategy)
? Fast: 快速模式,直接生成最終評估結果(z3)
? Standard: 標準模式,包括Z2和Z3兩個核心的評估步驟
? Best:最佳模式,執(zhí)行整個的reasoning chain(Z1,Z2,Z3)
3.Conclusion
1)與其他baseline的效果對比
總結1:DeepReviewer-14B 在多個維度上表現優(yōu)異,與 CycleReviewer-70B、GPT-o1 和 Deepseek-R1 等現有系統相比,在評分、排名和選擇方面均取得了顯著改進??偨Y2: 感覺還是沒有帶來本質的替身,pairwise accuracy都還不太高!
2)基于Gemini-2.0-Flash-Thinking分析生成的review質量
總結:在文字內容上,提的點上,效果看起來都不錯。這個可能可以給作者提供比較詳細的指導!
3)展現出強大的抗攻擊能力
4)推理token的scaling law
Reasoning Path Scaling: 對應文章提到的fast,standard,best,看著提升效果沒那么大。
Reviewer Scaling: 代表reviewer的個數,看著提升還不錯,但是對Decision Accuracy提升不大。
三、總結
結論1: 利用 LLM 進行結構化推理可以顯著提升論文評審的質量和可靠性。 DeepReview 框架通過模擬人類專家評審過程,結合新穎性驗證、多維度評估和可靠性驗證,提高了評審的深度和準確性。
結論2: DeepReview 框架具有良好的可擴展性和魯棒性。 通過 Test-Time Scaling 分析表明,DeepReviewer 可以通過調整推理路徑和響應長度來提高性能,并且對對抗性攻擊表現出很強的彈性。
總的來說,論文評審的decision還是一個非常有難度(看運氣)的一個事情,但是基于LLM的review可能可以給作者在提交前提供很多反饋意見和建議(參考原文Tabble 4)。
本文轉載自??NLP PaperWeekly??,作者: NLP PaperWeekly ????
