自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

四年了,基礎開源模型沒有真正進步,指令調優(yōu)大模型評估驚人發(fā)現

人工智能 新聞
指令調優(yōu)大語言模型的性能到底怎么樣呢?本研究提出了一個全新的評估套件,對它們在解決問題、寫作和對齊人類價值觀等方面進行了全面評估,結果可能超乎你的預料。

指令調優(yōu)大語言模型的出現標志著 NLP 領域迎來一個重要轉折點。從 ChatGPT 這類會話助手到解決復雜問題,這些指令調優(yōu)大模型的變革能力在應用中矚目。此類模型還包括 GPT-4,它的精通范圍不局限于語言理解,還能解決數學、編碼、醫(yī)學和法律等不同領域的任務。

雖然它們具有非凡的能力和適應性,但其全部潛力仍有待全面了解。這種情況主要源于許多模型的黑箱性質以及目前缺乏深入和全面的評估研究。

為應對這些挑戰(zhàn),并對模型的能力進行更加深入的了解,新加坡科技設計大學和阿里達摩院(新加坡)的研究者提出了一個新的評估套件 INSTRUCTEVAL。該套件用于對指令調優(yōu)大語言模型進行全面評估,并且超越了早期評估方法的限制。評估策略在其系統(tǒng)和整體方法上與之前的研究大不相同,不僅審查了模型的解決問題和寫作能力,還嚴格評判了它們與人類價值觀的一致性。


圖片

  • 論文地址:2306.04757.pdf (arxiv.org)
  • GITHUB 地址: https://github.com/declare-lab/instruct-eval
  • LEADERBOARD 地址: https://declare-lab.github.io/instruct-eval/ 

評估方法的核心是考慮影響模型性能的各種因素,包括開發(fā)模型的預訓練基礎、用于改進模型的指令調優(yōu)數據的性質和質量、以及采用的具體訓練方法。通過對這些因素慎微的探究,研究者試圖闡明決定模型性能的關鍵因素,進而理解如何更好地利用這些模型來滿足我們的需求。

本文的研究發(fā)現強調了指令數據質量對模型性能縮放的關鍵影響。開源模型已經展現出令人驚嘆的寫作能力,這表明它們有潛力為各種領域做出非凡貢獻。當然,本文的研究也有相當大的改進空間,特別是在模型的解決問題能力和與人類價值觀的一致性方面。這一觀察強調了整體評估和模式開發(fā)的重要性。

開源指令 LLM

研究者在下表 1 中收集了開源基礎 LLM 的細節(jié),并考慮到了模型架構、大小和數據規(guī)模等預訓練因素。

圖片

可以說,指令調優(yōu)的核心是用于訓練基礎 LLM 的指令數據,比如質量、數量、多樣性和格式等都是可以決定指令模型行為的因素。研究者在下表 2 中收集了一些開源指令數據集的細節(jié)。


圖片

在考慮到為指令 LLM 提供支持的預訓練基礎模型和數據集之后,研究者在下表 3 中提供了開源指令模型的整體概述。


圖片

評估指令 LLM 面臨哪些挑戰(zhàn)?

首先是難以理解的黑箱模型。雖然 GPT-4 等指令 LLM 獲得了廣泛關注,但很多模型都選擇閉源并僅限于通過 API 訪問。此外,閉源模型的創(chuàng)建者往往不透露架構、指令數據集和訓練方法等模型細節(jié)。

其次是壓倒性的開源模型,在 GPT-4 等閉源模型令人印象深刻的演示刺激下,開源社區(qū)已經展開了狂熱的模型開發(fā),以期實現語言模型技術的民主化。雖然研究者對此備受鼓舞,但卻深深擔憂新模型的開發(fā)速度可能超過評估研究的進展。

接著是指令調優(yōu)的多重考慮。為了全面了解指令 LLM,需要我們考慮可能影響它們行為的多樣化因素,比如預訓練、指令數據和訓練方法。雖然以往的工作在某些領域進行過深入研究,比如指令數據集。但研究者認為應該綜合考慮多種因素才能達到更完整的理解。

最后是廣泛的能力范圍。雖然指令 LLM 研究取得進展,我們自然能觀察到它們通用能力的增強。最近的研究表明,LLM 可以通過指令調優(yōu)來解決很多領域的問題,甚至可以使用外部工具來增強它們的能力。因此可以預見到,對指令 LLM 進行綜合評估變得越來越重要,同時也越來越具有挑戰(zhàn)性。

 INSTRUCTEVAL 基準套件

為了解決評估指令 LLM 的挑戰(zhàn),本文引入一個更全面的評估套件 INSTRUCTEVAL。為了涵蓋廣泛的通用能力,研究者在解決問題、寫作和對齊人類價值觀方面對模型進行了測試,具體如下圖 1 所示。

圖片

評估解決問題的能力

為了評估指令 LLM 解決問題的能力,研究者采用了多個基準,涵蓋了現實世界中不同主題的測試、復雜的指令、算術、編程和因果關系。為了在基準上表現良好,模型需要世界知識、多步推理的能力、創(chuàng)造力等。

評估寫作能力

除了解決問題的能力,指令 LLM 在寫作任務中展現的能力也十分具有前景,如寫信或倫理辯論。研究評估了不同寫作場景下的通用寫作能力,包括信息性寫作、專業(yè)寫作、議論文寫作和創(chuàng)意寫作。議論文寫作需要模型對倫理和社會問題的立場進行論述,而創(chuàng)意寫作涉及多種寫作格式,如故事、詩歌和歌曲。

為了構建寫作基準 IMPACT,研究者為每個寫作類別標注了 50 個 prompt。但是寫作任務的答案很長,且通常沒有唯一正確答案,這對嚴格的標準化評估來說是個大難題。其次,由于成本高、不同評價人之間可能存在不一致以及不可復現等原因,人工評價是不可擴展的。

 評估與人類價值觀的一致性

為研究指令調優(yōu)對模型識別符合大眾偏好需求的能力的影響,研究者在 INSTRUCTEVAL 中整合了有用、誠實和無害 (Helpful、Honest 和 Harmless) 基準,以評估人類價值觀對指示模型的理解。這些值包括:

  • 有用:始終致力于人類最大利益。
  • 誠實:始終盡力傳達準確的信息,避免欺騙人類。
  • 無害:始終盡力避免任何傷害人類的行為。

下表 8 中列出了每個類別的例子:

圖片

評估結果

解決問題

為了評估解決問題的能力,研究者在下表 5 中的基礎上對 10 多種開源模型進行了評估。此外,為了全面分析模型性能,他們充分考慮了指令 LLM 的預訓練基礎、指令數據和訓練方法。

首先,由于指令調優(yōu) LLM 是從它們各自的基礎 LLM 中訓練而來,因此在分析整體性能時考慮預訓練基礎至關重要。研究者觀察到,堅實的預訓練基礎是在解決問題任務上表現出色的必要條件。其次,研究者發(fā)現雖然與預訓練相比,指令調優(yōu)對性能的影響更大,但它也并不是「靈丹妙藥」。最后,訓練方法也會影響模型性能和計算效率。研究者相信,參數高效的訓練方法更有潛力實現擴展性更強和更高效的指令調優(yōu)。


圖片

這些結果也引起了業(yè)內人士的關注,前谷歌大腦高級研究科學家、RekaAILabs 聯合創(chuàng)始人兼首席科學家 Yi Tay 發(fā)現,「近來關于新基礎開源模型的討論很多,但自 2019 年的 T5 模型以來卻沒有出現真正的進步?!?/span>

他總結道,Flan-T5 擊敗了一切,包括 Alpaca(基于 LLama)、Flan-Alpaca 以及 Mosiac-Chat/MPT、Dolly。如果你從「計算匹配」(compute-match)的角度來看,則編碼器 - 解碼器應該處于不同(較低)的權重級別?;旧希現lan-T5 3 B 像是一個 1B+ 解碼器,Flan-UL2 更像一個 8B+ 模型。從這個角度來看,差距如此之大。此外 Flan-UL2 在大多數指標上超越了 Alpaca-Lora 30B,盡管前者要小得多,計算量實際上也少數倍。

Yi Tay 表示,這并不完全是 Flan 系列模型,更多的是相關基礎模型。關鍵是基礎的 T5 模型,具有 1 萬億 token。此外還有多語言的 mT5 和 uMT5 模型,它們也都表現非常好?;A模型不是長上下文的,但 Flan 弱化了這一點。T5/UL2 的弱點是多樣性較弱,僅接受 C4 訓練。但令人驚訝的是自 2019 年以來 C4-only 基線模型的表現如此地強大。

最后可能在計算匹配時,T5 >> Llama。唯一的問題是 T5 沒有 30B 和 65B 的版本。


圖片

推特:https://twitter.com/YiTayML/status/1668302949276356609?s=20

寫作能力

研究者在下表 6 中提供了寫作能力的評估結果。整體來說,研究者發(fā)現模型在信息性、專業(yè)性、議論文和創(chuàng)意性寫作中表現一致,展現出了它們的通用寫作能力。令人驚訝的是,具有更強問題解決能力的模型可能不具備更好的寫作能力。值得注意的是,Flan-Alpaca 的問題解決能力較弱,但經過 GPT-3 的合成指令調優(yōu)后,其在寫作方面明顯優(yōu)于 Flan-T5。

研究者假設,盡管合成數據中存在著潛在噪聲,但合成指令的更高多樣性可以更好地泛化到現實世界的寫作 prompt。與 Flan-T5,Flan-Alpaca 的相關性分數有了更顯著提高,由此證明了這一點。開源指令 LLM 可以生成與 ChatGPT 具有可比相關性的答案,但在連貫性方面存在不足。這表明開源模型可以理解寫作 prompt,但在生成輸入的連貫性方面有所欠缺。


圖片

與人類價值觀的一致性

為了評估指令 LLM 與人類價值觀、偏好的一致性,研究者在下表 7 中對一些開源模型進行了評估。他們首先發(fā)現,與無害相比,基礎模型通常更與有用和誠實對齊。

此外 Flan-T5 和 Flan-Alpaca 等基于 T5 的模型經過指令調優(yōu)之后,更傾向于有用而非誠實。這些結果強調了提前確定指令 LLM 的對齊分布非常具有挑戰(zhàn)性,即使在提供特定指令時也是如此。


圖片

通過分析下表 8 中的模型預測案例研究,研究者發(fā)現在保持指令 LLM 和人類價值觀一致方面還有非常大的改進空間。


圖片

更多技術和實驗細節(jié)請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-12-07 10:52:44

開源安全漏洞惡意攻擊

2023-07-09 14:50:48

模型調優(yōu)

2023-11-03 07:47:12

機器資源大模型:

2024-08-15 15:20:00

模型生成

2024-02-26 00:00:00

Gemma模型Google

2023-10-30 15:55:16

自動化人工智能

2024-06-18 14:01:17

2023-03-06 16:12:59

ChatGPT人工智能

2025-02-28 12:32:42

2025-03-05 03:00:00

DeepSeek大模型調優(yōu)

2024-08-13 12:49:29

2015-07-27 09:31:34

程序員

2025-04-30 16:48:07

2024-11-04 15:54:16

2021-06-03 10:03:52

NASA網絡攻擊黑客

2017-08-01 16:01:44

遷移學習深度學習數據

2023-06-06 15:42:13

Optuna開源

2017-02-05 10:51:13

2009-06-11 10:05:52

IT人職場程序員
點贊
收藏

51CTO技術棧公眾號