自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯坦福新作:無指令調(diào)優(yōu)的指令遵循

人工智能 新聞
本文中,來自斯坦福大學(xué)的研究者更進(jìn)一步探索了這樣一種想法,即指令遵循甚至可以隱式地從語言模型中產(chǎn)生,即通過并非明確設(shè)計(jì)的方法產(chǎn)生。

指令調(diào)優(yōu)(Instruction tuning)是一種優(yōu)化技術(shù),通過對模型的輸入進(jìn)行微調(diào),以使其更好地適應(yīng)特定任務(wù)。先前的研究表明,指令調(diào)優(yōu)樣本效率是很高效的,只需要大約 1000 個(gè)指令-響應(yīng)對或精心制作的提示和少量指令-響應(yīng)示例即可。

本文中,來自斯坦福大學(xué)的研究者更進(jìn)一步探索了這樣一種想法,即指令遵循甚至可以隱式地從語言模型中產(chǎn)生,即通過并非明確設(shè)計(jì)的方法產(chǎn)生。本文發(fā)現(xiàn)了兩種執(zhí)行隱式指令調(diào)優(yōu)的適應(yīng)形式,與顯式指令調(diào)優(yōu)相比,它們似乎存在缺陷:(1)響應(yīng)調(diào)優(yōu),僅對響應(yīng)進(jìn)行訓(xùn)練;(2)單任務(wù)調(diào)優(yōu),僅對來自狹窄目標(biāo)領(lǐng)域的數(shù)據(jù)進(jìn)行訓(xùn)練,如詩歌生成。

圖片


  • 論文標(biāo)題:Instruction Following without Instruction Tuning
  • 論文地址:https://arxiv.org/pdf/2409.14254
  • 博客地址:https://nlp.stanford.edu/~johnhew/instruction-following.html

首先,該研究證明,響應(yīng)調(diào)優(yōu)(僅對響應(yīng)進(jìn)行訓(xùn)練而不對其指令進(jìn)行條件限制)足以產(chǎn)生指令遵循。特別是使用 LIMA 數(shù)據(jù)集進(jìn)行調(diào)優(yōu),在 AlpacaEval 2 上的評估表明,響應(yīng)調(diào)優(yōu)模型與指令調(diào)優(yōu)模型相比,有43%的勝率,在同等性能下則對應(yīng) 50% 的勝率。

響應(yīng)調(diào)優(yōu)不提供有關(guān)從指令到響應(yīng)映射的明確信息,只提供有關(guān)所需響應(yīng)分布的信息。這表明,指令-響應(yīng)映射可以在預(yù)訓(xùn)練期間學(xué)習(xí),但所有理想響應(yīng)的概率都太低而無法生成。

從響應(yīng)調(diào)優(yōu)的結(jié)果來看,指令調(diào)優(yōu)的關(guān)鍵部分是得到期望響應(yīng)的分布。然而,作者發(fā)現(xiàn)這也不重要。對單任務(wù)、窄域數(shù)據(jù)進(jìn)行微調(diào),例如將英語請求映射到Python片段,或者從詩歌標(biāo)題生成詩歌,也會產(chǎn)生廣泛的指令遵循行為。

也就是說,盡管訓(xùn)練只生成 Python 代碼或詩歌,但模型在收到指令后仍會生成傳記或食譜。例如,經(jīng)過詩歌調(diào)優(yōu)的 Llama-2-7B 在 AlpacaEval 2 中與經(jīng)過指令調(diào)優(yōu)的 Llama-2-7B 勝出 23.7%,而基礎(chǔ)模型勝出率為 2.4%。

總之,本文結(jié)果表明, 即使適應(yīng)方法本意不在于產(chǎn)生指令遵循行為,它們也可能隱式地做到這一點(diǎn)。

圖片

論文作者之一John Hewitt 表示:這是他在斯坦福 NLP 的最后一篇論文。Hewitt即將加入哥倫比亞大學(xué)擔(dān)任助理教授。圖片

實(shí)驗(yàn)設(shè)置

指令調(diào)優(yōu)。指令調(diào)優(yōu)可以對一個(gè)語言模型的參數(shù)θ進(jìn)行微調(diào),以調(diào)整它的行為并針對查詢給出包含相關(guān)有幫助答案的響應(yīng)。給定包含指令和對應(yīng)響應(yīng)的一組示例D_ins = {instruction_i , response_i }^k _i=1,指令調(diào)優(yōu)可以優(yōu)化:

圖片 

指令格式。在語言模型實(shí)踐中,指令和響應(yīng)之間的區(qū)別通過輸入中的格式化token來指定。研究者使用了 Tulu 格式。之所以會介紹指令格式,是因?yàn)樗赡軐恼Z言模型中產(chǎn)生指令遵循行為的難易程度很重要。

圖片 
定義指令遵循行為。研究者區(qū)分了指令遵循行為和非指令遵循行為,實(shí)際上存在一系列更好和更糟糕的響應(yīng),沒有單一的界限。為了保證一定程度的系統(tǒng)性,他們使用了以下評估設(shè)置

AlpacaEval vs 可比較的指令調(diào)優(yōu)模型。研究者根據(jù)AlpacaEval LLM-as-a-judge框架來測量每個(gè)模型與可比較指令調(diào)優(yōu)模型在長度控制方面的正面交鋒勝率。

貪婪解碼。研究者從模型中貪婪地解碼,以觀察指令遵循響應(yīng)什么時(shí)候最有可能是模型的延續(xù)。

響應(yīng)調(diào)優(yōu)產(chǎn)生指令遵循

在本章中,研究者探討了響應(yīng)調(diào)優(yōu),即僅對響應(yīng)進(jìn)行微調(diào),而無需任何相應(yīng)的指令。

響應(yīng)調(diào)優(yōu)方法,給定包含指令和對應(yīng)響應(yīng)的一組示例D_ins = {instructioni , response_i }^k_i=1,響應(yīng)調(diào)優(yōu)將指令字符串替換為空字符串,并優(yōu)化如下:


圖片 
研究者比較了指令調(diào)優(yōu)和響應(yīng)調(diào)優(yōu)。對于適應(yīng)數(shù)據(jù)集,研究者使用包含1030個(gè)訓(xùn)練示例的LIMA。對于基礎(chǔ)預(yù)訓(xùn)練模型,研究者使用了Llama-2-7B 和 OLMo-7B-Feb2024語言模型,并對這兩個(gè)模型的所有參數(shù)進(jìn)行微調(diào)。對于超參數(shù)選擇,研究者在為本文開發(fā)的held-out驗(yàn)證集上使用了 AlpacaEval 相對GPT-3.5-turbo的勝率。驗(yàn)證集部分手寫部分由GPT-4生成,包含各種知識、蒸餾、翻譯和行政指令,比如「給我安排兩天假期去玩《虛幻勇士》」。

結(jié)果發(fā)現(xiàn),響應(yīng)調(diào)優(yōu)的Llama-2-7B模型對指令調(diào)優(yōu)的Llama-2-7B的平均勝率是43.3%,而基礎(chǔ)模型對指令調(diào)優(yōu)模型的勝率為2.4%。對于OLMo-7B-Feb2024,響應(yīng)調(diào)優(yōu)模型對指令調(diào)優(yōu)模型的勝率為 43.7%, 而基礎(chǔ)模型的勝率為 4.7%。研究者在下圖2中提供了響應(yīng)調(diào)優(yōu)、指令調(diào)優(yōu)和基礎(chǔ)Llama-2-7B模型的示例。


圖片

對于Llama-2-7B 和 OLMo-7B-Feb2024 基礎(chǔ)模型,響應(yīng)調(diào)優(yōu)模型的行為比基礎(chǔ)模型更接近指令調(diào)優(yōu)模型。指令調(diào)優(yōu)始終優(yōu)于響應(yīng)調(diào)優(yōu),但差別不大。因此在調(diào)整過程中指定指令會帶來一些收益,但這對于產(chǎn)生基線水平的指令遵循行為并不重要。


響應(yīng)排序能力研究者提出了響應(yīng)排序能力:為一個(gè)指令的正確響應(yīng)分配的可能性高于一個(gè)其他隨機(jī)指令的預(yù)期響應(yīng)。對于獨(dú)立的指令-響應(yīng)對(instruction, response)~ D 和(instruction′ , response′)~ D 以及一個(gè)模型 pθ,若如下公式(3)所示,則響應(yīng)排序能力成立。圖片

由于這兩個(gè)概率可能都很小,因此即使沒有遵循指令的模型,響應(yīng)排序能力也可以成立。通過響應(yīng)調(diào)優(yōu)來增加預(yù)期響應(yīng)的概率,并且當(dāng)模型的很多指令具有響應(yīng)排序能力時(shí),可能會產(chǎn)生預(yù)期的響應(yīng)。

對于Alpaca訓(xùn)練集,研究者針對預(yù)訓(xùn)練、LIMA 指令調(diào)優(yōu)和響應(yīng)調(diào)優(yōu)模型,計(jì)算了它們指令對的響應(yīng)排序能力成立的可能性。結(jié)果表明,預(yù)訓(xùn)練模型的響應(yīng)排序能力成立的可能性與指令調(diào)優(yōu)模型類似。具體如下表2所示。圖片

單任務(wù)微調(diào)產(chǎn)生指令遵循

此方法與指令調(diào)優(yōu)相同,只是輸入和輸出的分布發(fā)生了變化。

研究發(fā)現(xiàn),在每個(gè)單任務(wù)微調(diào)數(shù)據(jù)集上對 Llama-2-7B 和 OLMo-7B-Feb2024 進(jìn)行微調(diào)都會導(dǎo)致一般的指令遵循行為,并且與基礎(chǔ)模型相比,指令調(diào)優(yōu)模型(表 3)的勝率明顯更高。
圖片 
在 OLMo-7B-Feb2024 和 Llama-2-7B上,對 GSM 數(shù)據(jù)集進(jìn)行微調(diào)可獲得最高的 AlpacaEval 勝率。圖 4 提供了模型輸出的示例。
圖片 
如圖 5 所示,對于非常類似于 GSM 的指令,模型輸出遵循 GSM 樣式及其使用的特定數(shù)學(xué)符號。然而,對于大多數(shù)指令,作者注意到輸出僅受到 GSM 的細(xì)微影響:它們具有普遍存在的 GSM 序列結(jié)尾樣式,以四個(gè)哈希和一個(gè)整數(shù)答案結(jié)尾,例如 ####1。


圖片

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請參閱原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-28 09:52:00

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2012-03-21 21:38:27

蘋果

2023-10-18 09:25:08

模型推理

2022-10-20 15:38:02

谷歌模型

2009-05-19 09:06:41

Apple斯坦福iPhone

2019-12-16 14:33:01

AI人工智能斯坦福

2024-12-03 10:30:00

AI模型

2022-02-09 10:06:21

觸覺設(shè)備計(jì)算機(jī)人工智能

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2024-03-29 09:00:00

大型語言模型ChatGPT

2017-11-28 14:18:29

2016-09-27 16:06:48

2018-12-03 09:35:26

互聯(lián)網(wǎng)

2024-04-08 00:01:00

機(jī)器人任務(wù)特斯拉

2024-04-24 09:47:36

2025-04-09 11:25:36

2021-03-10 14:48:27

人工智能

2021-03-05 10:57:33

AI 數(shù)據(jù)人工智能

2022-07-04 09:12:09

AI技術(shù)論文
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號