英偉達新對話QA模型準確度超GPT-4,卻遭吐槽:無權(quán)重代碼意義不大
昨天,Meta、紐約大學的研究者用「自我獎勵方法」,讓大模型自己生成自己的微調(diào)數(shù)據(jù),從而在 Llama 2 70B 的迭代微調(diào)后超越了 GPT-4。今天,英偉達的全新對話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數(shù)據(jù)的情況下,在 10 個對話 QA 數(shù)據(jù)集上的平均得分略勝于 GPT-4。
一年多來,ChatGPT 及后續(xù)產(chǎn)品引發(fā)了生產(chǎn)和研究社區(qū)中構(gòu)建問答(QA)模型的范式轉(zhuǎn)變。尤其是在實際應(yīng)用中,QA 模型在以下情況成為首選:
- 用戶能夠以對話方式與 QA 模型進行交互,并可以輕松提出后續(xù)問題;
- 通才模型能夠以零樣本方式生成答案,無需針對數(shù)據(jù)集進行微調(diào),同時媲美微調(diào)專家模型的準確度;
- QA 模型能夠在開放域或長文檔設(shè)置中集成檢索到的證據(jù)塊,提供的上下文比 LLM 的上下文窗口長得多。
不過對于研究界而言,構(gòu)建一個能夠媲美 GPT-4 等 SOTA 黑箱模型準確度的對話 QA 模型仍是一個巨大挑戰(zhàn)。
近日,在英偉達的一篇論文中,研究者提出了一個具有 GPT-4 級別準確度的白箱對話 QA 模型 ChatQA 70B。他們采用了兩階段指令調(diào)優(yōu)方法以及用于對話 QA 的 RAG 增強檢索器、嚴格的數(shù)據(jù)管理過程。
- 論文標題:ChatQA: Building GPT-4 Level Conversational QA Models
- 論文地址:https://huggingface.co/papers/2401.10225
- 論文標題:ChatQA: Building GPT-4 Level Conversational QA Models
具體來講,本文主要做出了以下貢獻:
- 提出了兩階段指令調(diào)優(yōu)方法和數(shù)據(jù)集管理方法,它們大大增強了 LLM 在零樣本對話 QA 任務(wù)中集成用戶提供或檢索上下文時的能力。本文方法顯著優(yōu)于常規(guī)指令調(diào)優(yōu)或基于 RLHF 的方法(如 Llama-2-Chat)。
- 對于對話 QA 中的 RAG,展現(xiàn)出了在人類標注多輪 QA 數(shù)據(jù)集上微調(diào) SOTA 單輪查詢檢索器的效果與使用基于 LLM 的 SOTA 查詢重寫模型(如 GPT-3.5-turbo)一樣好。
- 基于 Llama2-7B、Llama2-13B、Llama2-70B 和內(nèi)部 8B 預(yù)訓(xùn)練 GPT 構(gòu)建了一系列 ChatQA 模型,并在 10 個對話 QA 數(shù)據(jù)集上進行了全面研究,包括 5 個需要檢索的長文檔數(shù)據(jù)集和 3 個帶有表格的數(shù)據(jù)集。從平均得分結(jié)果來看,ChatQA-70B 可以在不使用任何來自 ChatGPT 模型的合成數(shù)據(jù)情況下優(yōu)于 GPT 3.5-turbo (50.37) 和 GPT-4 (53.90)。
- 探究了「無法回答」的場景,即所需要的答案不在提供或檢索的上下文中,因此 LLM 很容易產(chǎn)生幻覺。本文證明,在指令調(diào)優(yōu)中添加少量「無法回答」的樣本可以引導(dǎo)模型在必要時生成「無法回答」的輸出,從而大大減少幻覺。ChatQA-70B 在這方面優(yōu)于 GPT-3.5-turbo,但與 GPT-4 相比仍有輕微差距(約 3.5%)。
對于英偉達的全新對話 QA 模型,有人認為有趣的一點在于,它不依賴任何來自 OpenAI GPT 模型的合成數(shù)據(jù)。而像馬斯克旗下 xAI 的聊天機器人 Grok 使用了大量 OpenAI 的模型數(shù)據(jù)。
推特 @fahirmdz
不過,也有讀者對英偉達不提供模型權(quán)重和代碼的做法「很不感冒」。如果這些都不公開的話,再厲害也對 LLM 社區(qū)沒啥意義。
推特 @AiBeginners
方法細節(jié)
1.ChatQA 兩階段調(diào)優(yōu)
研究者提出了一種用于 ChatQA 的兩階段指令調(diào)優(yōu)方法,請參見圖 1。研究者的方法從預(yù)訓(xùn)練的 LLM 基礎(chǔ)模型開始。在階段 1,研究者在指令遵循和對話聯(lián)合數(shù)據(jù)集上使用了監(jiān)督微調(diào)(SFT)。之后,本文的模型表現(xiàn)出作為對話智能體遵循指令的良好能力。然而情境化或基于 RAG 的 QA 能力仍然有限。
因此,研究者引入了一個稱為上下文增強指令調(diào)優(yōu)的后續(xù)階段,它是專門為增強本文模型在對話 QA 中進行上下文感知或檢索增強生成的能力而設(shè)計的。
2.多輪問答檢索
在對話問答任務(wù)中,當文檔變得過于冗長而無法直接輸入 LLM 時,能夠處理對話式查詢的檢索器就變得至關(guān)重要。這種對話檢索器會對對話歷史和當前查詢進行編碼,然后從文檔中檢索相關(guān)上下文。之后,只有相關(guān)上下文才會被用作 LLM 的輸入。最先進的檢索器都是針對單輪查詢進行優(yōu)化的,因此對多輪對話查詢的泛化能力有限。
在圖 2 中,研究者描述了他們的檢索器微調(diào)方法,以緩解這一問題。他們建議使用對話查詢和上下文對來進一步微調(diào)單輪檢索器,以更好地應(yīng)對對話輸入。
另一種解決方案是對話查詢重寫法,它使用查詢重寫器根據(jù)對話歷史記錄重寫當前問題。重寫后的查詢直接作為單輪查詢檢索器的輸入,用于檢索相關(guān)上下文。除了嵌入和搜索成本外,查詢重寫模型還引入了大量額外的計算開銷來生成重寫后的查詢。
在表 1 中,研究者比較了五個數(shù)據(jù)集在零樣本設(shè)置下的查詢重寫和微調(diào)方法。
實驗及結(jié)果
1.實驗設(shè)置
研究者在不同規(guī)模的模型上進行了實驗。首先,為了顯示第二階段上下文增強指令調(diào)優(yōu)的有效性,研究者將 Llama2-SFT7B/13B/70B 與第一階段監(jiān)督微調(diào)(SFT)后的 Llama2-7B/13B/70B 基礎(chǔ)模型進行了比較。其次,與 Llama2-Chat-7B/13B/70B 進行比較,因為 Llama2-Chat 模型被證明具有強大的指令遵循和對話問答能力。
除了 Llama2 模型外,研究者還對自家的 GPT-8B 基礎(chǔ)模型進行了實驗,并與其第一階段的 SFT 基線(GPT-8BSFT)進行了比較。最后,還與兩個非常強大的 OpenAI 模型進行了比較:GPT-3.5-turbo (4k) 和 GPT-4 (8k)。
為了進行公平比較,研究者使用相同的上下文作為模型和基線的輸入。他們對所有基線的指令都進行了仔細調(diào)整,以確保它們?nèi)〉帽M可能好的結(jié)果。
研究者收集了五個包含長文檔的對話式問答數(shù)據(jù)集。他們將 Doc2Dial、QuAC 和 QReCC 文檔分割成大約 300 字的塊,并檢索前 5 個相關(guān)塊作為每個用戶問題的上下文。對于 TopioCQA 和 INSCIT,研究者遵循它們原始的分割方式,得到了更小的文本塊。
為了增加文檔長度的多樣性,研究者還收集了五個包含短文檔(少于 1500 字)的對話式問答數(shù)據(jù)集。平均而言,每個單詞將被分解為 1.5K 個 tokens。這些數(shù)據(jù)集包括 CoQA、DoQA、ConvFinQA、SQA 和 HybridDial。
考慮到 F1 分數(shù)是評估問答模型最常用的自動指標,研究者對 ConvFinQA 之外的所有數(shù)據(jù)集使用它。在 ConvFinQA 中,研究者使用精確匹配指標,因為 ConvFinQA 中的答案涉及從文檔中提取數(shù)字以及進行算術(shù)計算。因此,只有當答案與標準答案完全相同時,它才有意義。當模型生成算術(shù)公式時,研究者將使用計算器計算其最終結(jié)果,并與標準答案進行比較。此外,他們還進行了人工評估,以評估他們的最佳模型和 GPT-4 生成答案的正確性。
2.實驗結(jié)果
如表 2 所示,研究者比較了不同的模型變體和 OpenAI 模型在 10 個對話式問答數(shù)據(jù)集上的表現(xiàn)。
他們移除了微調(diào)階段的第一階段 SFT,僅在基礎(chǔ) LLM 上應(yīng)用第二階段的上下文增強指令調(diào)優(yōu)。觀察數(shù)據(jù)可以發(fā)現(xiàn)平均得分下降了 1.9(從 54.08 降至 52.18)。除了 SQA 數(shù)據(jù)集外,移除第一階段會使模型在其他數(shù)據(jù)集上的表現(xiàn)一致地變差。
結(jié)果表明,即使在第二階段指令調(diào)優(yōu)中也融合了第一階段 SFT 的所有數(shù)據(jù)集,第一階段仍然扮演著重要角色。因此,研究者認為先建立遵循指令的能力對第二階段的調(diào)整是有益的。
10 個數(shù)據(jù)集的人類評估結(jié)果如表 3 所示。首先,在大多數(shù)情況下(占比 69.09%),ChatQA-70B 模型和 GPT-4 表現(xiàn)相當。而 GPT-4 在勝率上略高于本文模型,大約高出 3.3%。這進一步證明了其模型在提供正確答案方面具有強大的能力。其次,在 ConvFinQA 任務(wù)中,本文模型比 GPT-4 有略微更好的勝率,這顯示了該模型在算術(shù)計算方面的強大能力。第三,GPT-4 在 SQA 任務(wù)上的勝率明顯更高,這表明在表格推理任務(wù)上,本文模型與 GPT-4 之間仍存在一定差距。
表 4 中,研究者進一步比較了本文模型和 OpenAI 模型在不同數(shù)據(jù)集類型的回話問答基準中的表現(xiàn)。
在表 5 中,研究者發(fā)現(xiàn)在需要檢索的數(shù)據(jù)集上,使用 top-5 數(shù)據(jù)塊作為訓(xùn)練上下文會帶來一些改進。但在非檢索數(shù)據(jù)集上的性能卻有所下降??傮w而言,這兩種模型的性能相當。這是因為在第二階段的調(diào)整中加入了 top-5 檢索數(shù)據(jù)塊,使其與需要檢索的推理階段保持一致,從而提高了 Avg-ret 分數(shù)。
表 6 展示了關(guān)于檢索上下文 / 語塊數(shù)量、上下文排序和不同檢索器如何影響對話質(zhì)量保證結(jié)果的消融研究。
表 7 展示了本文模型與 OpenAI 模型在 QuAC 和 DoQA 數(shù)據(jù)集上進行了比較。
表 8 顯示了 ChatQA-70B 和 GPT-4 輸出的四個示例。
第一個例子是一個簡單的信息尋求問題,ChatQA-70B 和 GPT-4 都給出了正確的答案。在第二個例子中,模型需要找到隱含信息(以藍色高亮顯示)來給出答案。GPT-4 在給出答案時傾向于保守,它回答說上下文沒有提供關(guān)于年齡的確切信息,這也是正確的。
第三個和第四個例子都要求模型具有良好的表格理解和推理能力。在第三個例子中,ChatQA-70B 通過比較保護區(qū)的大小和 3100 公頃給出了正確的答案,而 GPT-4 則未能做到這一點。在第四個例子中,ChatQA-70B 正確列出了三個日期,但漏掉了一個日期,而 GPT-4 則正確回答了這個問題。