自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟教小模型推理進階版:Orca 2性能媲美10倍參數(shù)模型,已開源

人工智能 新聞
站在巨人的肩膀上會讓你看的更遠,而通過讓大規(guī)模語言模型來「教」較小規(guī)模的語言模型進行推理,也會是事半功倍的效果。

如你我所見,像 GPT-4、PaLM 等前沿語言模型已經(jīng)展現(xiàn)了出色的推理能力,例如回答復(fù)雜問題、生成解釋,甚至解決需要多步推理的問題,這些能力曾被認為是 AI 無法達到的。這樣的能力在較小的語言模型中并不明顯,因此現(xiàn)在的挑戰(zhàn)就是如何利用對大型語言模型不斷增長的知識,進而提升較小模型的能力。

之前微軟研究院推出了 Orca,它是擁有 130 億參數(shù)的語言模型,通過模仿更強大 LLM 的逐步推理過程,展現(xiàn)了強大的推理能力。

現(xiàn)在研究者再接再厲推出了 Orca 2,繼續(xù)探索如何通過改進訓(xùn)練信號來提升較小語言模型的推理能力。

圖片


  • 論文地址:https://arxiv.org/pdf/2311.11045.pdf
  • Hugging Face 地址 1:https://huggingface.co/microsoft/Orca-2-13b
  • Hugging Face 地址 2:https://huggingface.co/microsoft/Orca-2-7b

訓(xùn)練小型語言模型的研究通常依賴于模仿學(xué)習,以復(fù)現(xiàn)更強大模型的輸出。過分強調(diào)模仿可能會限制較小模型的潛力。研究者的想法是致力于教導(dǎo)小型語言模型在不同任務(wù)中使用不同的解決策略,這些策略可能與更大模型使用的不同。更大的模型可能對復(fù)雜任務(wù)直接提供答案,但較小模型或許沒有相同的能力。

在 Orca 2 中,研究者教給模型各種推理技巧(逐步推理、先回憶再生成、回憶 - 推理 - 生成、直接回答等),這樣做旨在幫助模型學(xué)會為每個任務(wù)確定最有效的解決策略。

研究者使用「包括大約 100 個任務(wù)和超過 36,000 個獨特提示」的全面集合的 15 個不同基準來評估 Orca 2。在 Zero-shot 環(huán)境中對高級推理能力進行評估的復(fù)雜任務(wù)中,Orca 2 明顯超越了相似規(guī)模的模型,并達到了與 5-10 倍大型模型相似或更好的性能水平。Orca 2 已經(jīng)開源,以鼓勵人們在較小語言模型的開發(fā)、評估和對齊方面進行更深入的研究。

Orca 2 有兩個規(guī)模(70 億和 130 億參數(shù)),均通過在定制高質(zhì)量合成數(shù)據(jù)上對相應(yīng)的 LLaMA 2 基礎(chǔ)模型進行微調(diào)而創(chuàng)建。

圖片

圖 1:Orca 2(7B 和 13B)與 LLaMA-2-Chat(13B 和 70B)以及 WizardLM(13B 和 70B)在各種基準測試上的結(jié)果 (zero-shot),涵蓋了語言理解、常識推理、多步推理、數(shù)學(xué)問題解決等。Orca 2 模型的表現(xiàn)不遜于或超越包括 5-10 倍更大的模型在內(nèi)的所有其他模型。這里所有模型都使用相同尺寸的 LLaMA 2 基礎(chǔ)模型。 

圖片

圖 2:演示 Orca 2、其基礎(chǔ)模型 LLaMA 2、LLaMA 2-Chat 和 ChatGPT(GPT-3.5-Turbo)對一個推理問題的響應(yīng)的示例。LLaMA 2 和 LLaMA 2-Chat 模型的響應(yīng)分別使用 replicate.com/meta/llama-2-13b 和 chat.lmsys.org 生成。

技術(shù)細節(jié)

Orca 2 可以給出一個有力的推測即不同的任務(wù)可能受益于不同的解決策略(如逐步處理、回憶后生成、回憶 - 推理 - 生成、提取 - 生成和直接回答),并且大型模型采用的解決策略可能不是較小模型的最佳選擇。例如,雖然像 GPT-4 這樣的模型可能輕松生成直接回答,但是較小的模型可能缺乏這種能力,需要采用不同的方法,如逐步思考。

因此,單純地教導(dǎo)較小模型「模仿」更強大模型的推理行為可能并不是最優(yōu)的選擇。雖然將較小模型訓(xùn)練成逐步解釋答案已被證明是有益的,但在多種策略上進行訓(xùn)練使其能夠更靈活地選擇適合任務(wù)的策略。

研究者使用「謹慎推理」(Cautious Reasoning)來指代決定為給定任務(wù)選擇哪種解決策略的行為,包括直接生成答案,或者采用多種「慢思考」策略之一(如逐步、猜測和檢查或先解釋后回答等)。

以下是訓(xùn)練謹慎推理 LLM 的過程:

1. 從多樣化的任務(wù)集開始。

2. 依據(jù) Orca 的性能,決定哪些任務(wù)需要哪種解決策略(例如直接回答、逐步處理、先解釋后回答等)。

3. 為每個任務(wù)編寫相應(yīng)于所選策略的特定系統(tǒng)指導(dǎo),以獲得每個任務(wù)的「教師」系統(tǒng)的響應(yīng)。

4. 提示擦除:在訓(xùn)練時,用不包含如何處理任務(wù)細節(jié)的通用指令替換「學(xué)生」系統(tǒng)的指令。

注意一點,第 3 步中廣泛的獲取「教師」系統(tǒng)的響應(yīng):它可以利用多個調(diào)用、非常詳細的指令等。

關(guān)鍵思想是:在沒有詳細說明如何處理任務(wù)的原始系統(tǒng)指導(dǎo)的情況下,學(xué)生模型將被鼓勵學(xué)習該基本策略以及它所涉及的推理能力。研究者將這一技術(shù)稱為「提示擦除」,因為它去除了教師模型構(gòu)建其推理的結(jié)構(gòu)。借助這一技術(shù),研究者實現(xiàn)了 Orca 2—— 一個謹慎的推理模型。

Orca 2 使用擴展的、高度定制的合成數(shù)據(jù)集進行訓(xùn)練。生成的訓(xùn)練數(shù)據(jù)用以教導(dǎo) Orca 2 各種推理技巧,例如逐步處理、回憶后生成、回憶 - 推理 - 生成、提取 - 生成和直接回答方法,同時也教導(dǎo)它為不同的任務(wù)選擇不同的解決策略。

訓(xùn)練數(shù)據(jù)是從更有能力的「教師」系統(tǒng)模型獲取的。研究者可以通過非常詳細的指導(dǎo)甚至多次調(diào)用來獲取「教師」系統(tǒng)的響應(yīng),這取決于任務(wù)和模型縮期望的行為。在沒有原始指導(dǎo)的情況下,即沒有詳細說明如何處理任務(wù),「學(xué)生」系統(tǒng)模型將被鼓勵學(xué)習該基本策略以及它所激發(fā)的推理能力。

實驗結(jié)果

推理

推理能力在確定 LLMs 的功效方面至關(guān)重要。研究者通過進行各種基準測試,如 AGI Eval、BigBench-Hard(BBH)、DROP、RACE、GSM8K 和 CRASS,來評估 Orca 2 模型的推理能力。這些基準測試的平均性能如下圖 4 所示。

圖片

通過比較 Orca 2 與其它模型,研究者有以下發(fā)現(xiàn):

超越相同規(guī)模的模型。Orca-2-13B 在 zero-shot 推理任務(wù)上顯著優(yōu)于相同規(guī)模的模型。相對于 LLaMA-2-Chat-13B,Orca-2-13B 提升了 47.54%,相對于 WizardLM-13B 提升 28.15%。值得注意的是,這三個模型 Orca-2-13B、LLaMA-2-Chat-13B 和 WizardLM-13B 都基于相同的基礎(chǔ)模型,這也凸顯了 Orca 2 采用的訓(xùn)練過程的有效性。

媲美 5-10 倍更大的模型。Orca-2-13B 超越了 LLaMA-2-Chat-70B 的性能,并且在表現(xiàn)上與 WizardLM-70B 和 ChatGPT 相當。在所有推理任務(wù)上,Orca-2-7B 要么更好,要么與 LLaMA2-Chat-70B 相當。

謹慎的系統(tǒng)消息提供小幅增益。使用謹慎的系統(tǒng)消息對 7B 和 13B 模型都比空系統(tǒng)消息提供了小幅增益。

知識與語言理解

MMLU、ARC-Easy 和 ARC-Challenge 評估 LLMs 的語言理解、知識和推理。與其他基準一樣,研究者僅與經(jīng)過指令調(diào)整的模型進行比較,進行 zero-shot 評估。下表 2 顯示了知識和語言理解基準的結(jié)果??傮w而言,我們可以觀察到與推理任務(wù)相似的趨勢。

圖片

文本補全

除了衡量高級推理能力的基準外,研究者使用 HellaSwag 和 LAMBADA 來衡量文本補全能力。HellaSwag 以多項選擇題的形式測量文本補全技能,而 LAMBADA 是一個單詞補全任務(wù)。

下圖 5 顯示了不同模型在文本補全基準上的表現(xiàn)。在 HellaSwag 上,Orca-2-7B 和 Orca 2-13B 表現(xiàn)出色,優(yōu)于 13B 和 70B 基準。Orca-2-13B 相對于 LLaMA-2-Chat-13B 提高了 33.13%,相對于 WizardLM-13B 提高了 61.94%。

圖片

多輪開放式對話

研究者在多輪會話設(shè)置中評估 LLMs 的能力,使用了 MT Bench 數(shù)據(jù)集。每輪得分和 MTBench 的平均得分如下表 3 所示。

圖片

Orca-2-13B 與其他 13B 模型相比表現(xiàn)相當。Orca-2-13B 的平均第二輪得分低于第一輪得分,這可以歸因于其訓(xùn)練數(shù)據(jù)中缺乏對話。然而,Orca 2 仍然能夠參與對話,并通過將多個 zero-shot 示例打包到相同的輸入序列中,增強這種能力。提高 Orca 2 的多輪對話能力將是研究者未來工作的一部分。

特定背景下的表現(xiàn)

生成在特定背景下有根據(jù)的響應(yīng)是許多 LLM 應(yīng)用程序中期望的屬性。研究者使用三個不同的任務(wù)進行此評估,涵蓋基于查詢的會議總結(jié)、Web 問答(生成并具有長格式答案)和醫(yī)生 - 患者對話總結(jié)。提取式總結(jié)和具體問題回答經(jīng)常被用作評估具體背景性的測試平臺。

下圖 6 展示了研究者在進行實驗的三個基準上,不同模型的幻覺率結(jié)果平均值比較。

圖片

Orca-2-13B 在所有 Orca 2 變體以及其他 13B 和 70B 的 LLM 中表現(xiàn)出最低的幻覺率。與 LLaMA-2-13B 和 WizardLM-13B 模型相比,Orca-2-13B 的幻覺率分別降低了 76.92% 和 61.71%。盡管在本研究中涉及的三個任務(wù)中,謹慎的系統(tǒng)消息增加了幻覺率。

通過人工分析,研究者發(fā)現(xiàn)在由謹慎系統(tǒng)消息引導(dǎo)的推理過程中,Orca 2 可能會推斷上下文中可用的信息,并使用推斷出的內(nèi)容來創(chuàng)建摘要。生成的內(nèi)容在事實上通常是準確的,但它們沒有得到上下文的支持。

更多細節(jié)請參見原論文。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2020-02-24 10:51:25

微軟開源Windows

2022-12-23 10:50:20

模型開源

2018-12-06 10:07:49

微軟機器學(xué)習開源

2025-03-10 08:30:00

AI模型訓(xùn)練

2024-07-15 09:00:00

2024-07-08 13:04:01

2023-05-30 14:17:00

模型推理

2023-12-13 12:55:39

模型數(shù)據(jù)

2024-10-22 18:07:43

LLMs開源大模型

2023-12-11 15:40:32

PyTorch代碼大模型

2025-03-27 10:28:32

2021-09-30 11:27:58

模型人工智能神經(jīng)網(wǎng)絡(luò)

2024-12-03 15:51:45

2023-06-06 14:09:32

模型開源

2021-12-31 09:34:22

PyTorchtransformer模型

2020-09-22 15:17:59

谷歌Android技術(shù)

2019-06-10 00:45:01

谷歌開源圖像識別

2023-05-15 09:43:49

模型數(shù)據(jù)

2023-08-18 14:34:00

研究模型

2025-03-06 10:14:39

點贊
收藏

51CTO技術(shù)棧公眾號