自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「模仿學習」只會套話?解釋微調(diào)+130億參數(shù)Orca:推理能力打平ChatGPT

人工智能 新聞
用GPT-4輔助訓練小模型,想會推理還得用「解釋微調(diào)」。

自ChatGPT API開放后,大量的研究都選擇利用ChatGPT和GPT-4等大型基礎模型(LFM)的輸出作為訓練數(shù)據(jù),然后通過模仿學習來提升小模型的能力。

但由于模仿信號流于表面、訓練數(shù)據(jù)量不夠大、缺乏嚴格的評估標準等問題,小模型的實際性能被高估了。

從效果上來看,小模型更傾向于模仿LFM的輸出風格,而非推理過程。

圖片

論文鏈接:https://arxiv.org/pdf/2306.02707.pdf

為了應對這些挑戰(zhàn),微軟最近發(fā)布了一篇長達51頁論文,提出了一個130億參數(shù)的Orca模型,可以學習模仿LFMs的推理過程。

研究人員為大模型設計了豐富的訓練信號,使得Orca可以從GPT-4中學習到解釋痕跡、逐步的思維過程、復雜的指令等,并由ChatGPT的教師協(xié)助指導;并通過采樣和選擇來挖掘大規(guī)模且多樣化的模仿數(shù)據(jù),可以進一步提升漸進式學習效果。

在實驗評估中,Orca超過了其他SOTA指令微調(diào)模型,在BigBench Hard(BBH)等復雜的零樣本推理基準中實現(xiàn)了比Vicuna-13B翻倍的性能表現(xiàn),在AGIEval上也實現(xiàn)了42%的性能提升。

圖片

此外,Orca在BBH基準上還實現(xiàn)了與ChatGPT持平的性能,在SAT、LSAT、GRE和GMAT等專業(yè)和學術考試中只有4%的性能差距,并且都是在沒有思維鏈的零樣本設置下測量的。

圖片

研究結果表明,讓模型從分步解釋中學習,無論這些解釋是由人類還是更高級的人工智能模型產(chǎn)生的,都是提高模型能力和技能的一個有前景的研究方向。

解釋微調(diào)(Explanation Tuning)

數(shù)據(jù)集構造

在訓練數(shù)據(jù)中,每個實例都包括三部分,即系統(tǒng)消息、用戶查詢和LFM回復。

系統(tǒng)消息(system message)放置在提示中開頭的部分,提供給LFM基本的上下文、引導以及其他相關的細節(jié)。

系統(tǒng)消息可以用來改變回復的長度、描述AI助手的性格、建立可接受和不可接受的LFM行為,并確定AI模型的回復結構。

研究人員手工制作了16條系統(tǒng)信息來設計LFM不同類型的回復,可以生成創(chuàng)造性的內(nèi)容以及解決信息查詢問題,最重要的是能夠根據(jù)提示生成解釋和逐步推理的答案。

圖片

用戶查詢(user query)定義了希望LFM執(zhí)行的實際任務。

為了獲得大量的、多樣化的用戶查詢,研究人員利用FLAN-v2集合,從中抽取500萬個用戶查詢(FLAN-5M),并收集ChatGPT的回復;然后進一步從500萬條指令中抽出100萬條指令(FLAN-1M),收集GPT-4的回復。

FLAN-v2集合由五個子集合組成,即CoT、NiV2、T0、Flan 2021和Dialogue,其中每個子集包含多個任務,每個任務都是一個查詢的集合。

每個子集合都與多個學術數(shù)據(jù)集相關,并且每個數(shù)據(jù)集都有一個或多個任務,主要關注零樣本和少樣本的查詢。

在這項工作中,研究人員只取樣訓練Orca的零樣本查詢,并且沒有從Dialogue子集中取樣,因為這些查詢往往缺乏背景,無法從ChatGPT中獲得有用的回復。

讓ChatGPT扮演Teaching Assistant

首先在FLAN-5M數(shù)據(jù)上訓練Orca(ChatGPT增強),隨后在FLAN-1M上進行第二階段的訓練(GPT-4增強)。

將ChatGPT作為中間的教師助手主要有兩個原因:

1. 能力差距

雖然GPT-4的參數(shù)量沒有公開,但130億參數(shù)的Orca肯定比GPT-4要小很多倍,而ChatGPT和Orca之間的能力差距更小,更適合作為中間教師,并且這種方式已經(jīng)被證明可以提高更小的學生模型在知識蒸餾中的模仿學習性能。

這種方式也可以看作是一種漸進式學習或課程學習,學生首先從較容易的例子中學習,然后再學習較難的例子,假定了較長的回復會比較短的回復更難模仿,可以從更大規(guī)模的教師模型中改進推理和逐步解釋能力。

2. 成本和時間

從Azure OpenAI API進行大規(guī)模數(shù)據(jù)收集時會受到一些限制,包括每分鐘請求的速率限制,防止流量過大;由于服務延遲問題,每分鐘可用的token數(shù)量有限;提示長度和token補全的金錢成本。

圖片

相比之下,ChatGPT API比GPT-4終端更快、更便宜,所以從ChatGPT上收集了比GPT-4多5倍的數(shù)據(jù)。

圖片

從ChatGPT和GPT-4對應于不同系統(tǒng)消息的回復長度分布中可以觀察到,GPT-4的回復平均比ChatGPT長1.5倍,使得Orca能夠逐步從教師解釋的復雜性中學習,并通過消融實驗證明了教師幫助的影響。

訓練

在分詞階段,研究人員利用LLaMA的字節(jié)對編碼(BPE)分詞器來處理輸入的樣本,其中多位數(shù)字會被分割成多個單數(shù)字,并回落到字節(jié)來分解未知的UTF-8字符。

為了處理可變長度的序列,在LLaMA分詞器的詞匯表中引入了一個填充詞[[PAD]],最終的詞匯表包含32001個token

為了優(yōu)化訓練過程并有效利用可用的計算資源,研究人員利用了packing技術,將多個輸入實例串聯(lián)成一個序列后再訓練模型。

在packing的過程中,串聯(lián)序列的總長度不超過max_len=2048 tokens,對輸入的樣本進行隨機打亂后將分成幾組,每組串聯(lián)序列的長度最多為max_len

考慮到訓練數(shù)據(jù)中增強指令的長度分布,每個序列的打包系數(shù)為2.7

為了訓練Orca,研究人員選擇只計算教師模型生成token的損失,也就是說學習生成以系統(tǒng)信息和任務指令為條件的回復,可以確保模型專注于從最相關和最有信息的token中學習,提高了訓練過程的整體效率和效果。

最后在20個裝有80GB內(nèi)存的NVIDIA A100 GPU上訓練Orca,先在FLAN-5M(ChatGPT增強)上訓練4個epoch,花了160個小時;然后在FLAN-1M(GPT-4增強)上繼續(xù)訓練4個epoch

由于流量限制、終端負載以及回復的長度問題,從GPT-3.5-turbo(ChatGPT)和GPT-4的多個終端收集數(shù)據(jù)分別用了2周和3周的時間。

實驗部分

研究人員主要驗證了Orca在推理上的能力。

圖片

在AGIEval的實驗中可以看到,Orca的表現(xiàn)與Text-da-Vinci-003相當,并實現(xiàn)了ChatGPT 88%的性能表現(xiàn),不過明顯落后于GPT-4

對于分析和推理任務,Vicuna的表現(xiàn)明顯更差,只保留了62%的ChatGPT質(zhì)量,表明這種開源語言模型的推理能力很差。

雖然Orca與Text-da-Vinci-003的表現(xiàn)相當,但仍然比ChatGPT低5分,Orca在與數(shù)學有關的任務(在SAT、GRE、GMAT中)上與ChatGPT表現(xiàn)出較大的差距。

與Vicuna相比,Orca顯示出更強的性能,在每個類別上都超過了Vicuna,平均有42%的相對提高。

GPT-4的性能遠遠超過了所有其他模型,但在這個基準中仍有很大的提升空間,目前所有模型的性能都明顯低于人類的得分。

圖片

Orca的性能根據(jù)系統(tǒng)信息的類型有很大的不同,對于訓練的模型來說,空的系統(tǒng)消息往往效果很好。

圖片

Orca在不同任務的325個樣本中超越了ChatGPT(Orca-beats-ChatGPT例子),其中大部分來自LogiQA(29%),而其他LSAT任務和SAT-英語任務各占不到10%

在Big-Bench Hard Results數(shù)據(jù)集上的推理評估結果顯示,Orca在所有任務中的綜合表現(xiàn)上略好于ChatGPT,但明顯落后于GPT-4;比Vicuna性能高出113%

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-03-31 13:55:00

模型智能

2024-12-03 15:51:45

2023-11-07 14:07:51

GPT-4大語言模型

2023-10-28 13:36:48

模型ChatGPT

2023-07-19 15:01:14

GPT-4LaMA2參數(shù)

2023-12-03 08:49:38

微軟開源

2023-07-18 15:00:00

AI代碼

2024-07-04 15:32:13

2023-10-31 12:29:25

模型訓練

2023-06-06 07:03:02

2023-08-25 09:34:24

模型訓練

2023-04-23 09:43:22

2024-12-09 13:40:26

2023-10-23 15:27:09

OpenAIChatGPT

2023-04-07 09:28:31

模型訓練

2023-04-04 13:17:00

GPUCMU開源

2023-04-26 13:56:17

模型ChatGPT

2023-10-07 10:41:54

語言模型微調(diào)BitFit

2023-07-21 12:57:40

ChatGPT能力檢測

2024-05-11 11:36:02

點贊
收藏

51CTO技術棧公眾號