自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

人工智能 新聞
不增加算力需求,谷歌總結(jié)的指令微調(diào)方法能讓 8000 萬(wàn)到 5400 億參數(shù)的模型都顯著提升性能。

人工智能一個(gè)重要的目標(biāo)是開(kāi)發(fā)泛化能力強(qiáng)的模型。在自然語(yǔ)言處理(NLP)領(lǐng)域中,預(yù)訓(xùn)練語(yǔ)言模型在這方面取得了重大進(jìn)展。這類(lèi)模型往往通過(guò)微調(diào)來(lái)適應(yīng)新的任務(wù)。

近日,來(lái)自谷歌的研究者分析了多種指令微調(diào)方法,包括擴(kuò)展對(duì)指令微調(diào)的影響。實(shí)驗(yàn)表明,指令微調(diào)確實(shí)可以根據(jù)任務(wù)數(shù)量和模型大小實(shí)現(xiàn)良好的擴(kuò)展,最大到 5400 億參數(shù)的模型都能明顯受益,未來(lái)的研究應(yīng)該進(jìn)一步擴(kuò)大任務(wù)的數(shù)量和模型的大小。此外,該研究還分析了微調(diào)對(duì)模型執(zhí)行推理能力的影響,結(jié)果都是很吸引人的。

由此產(chǎn)生的 Flan-T5 對(duì) 1800 余種語(yǔ)言任務(wù)進(jìn)行了指令微調(diào),明顯提高了提示和多步推理能力,30 億參數(shù)跑基準(zhǔn)就能超過(guò) GPT-3 的 1750 億參數(shù)。

圖片

看起來(lái)谷歌又為大模型找到了一個(gè)能力提升的方向。不過(guò)這一研究不僅引來(lái)了機(jī)器學(xué)習(xí)社區(qū)的歡迎,也有 Gary Marcus 的吐槽:

圖片

谷歌的模型為什么把谷歌自己的著名科學(xué)家 Geoffrey Hinton 的出生日期搞錯(cuò)了?人家明明是 1947 年出生的老前輩。

論文作者之一的谷歌大腦首席科學(xué)家 Quoc Le 趕緊出來(lái)圓場(chǎng):是臨時(shí)工圖片做錯(cuò)了,在論文里 Flan-T5 模型其實(shí)沒(méi)有把 Geoff 的出生年月搞錯(cuò),有圖為證。

圖片

順便說(shuō)一句,出生于 1963 年的著名 AI 學(xué)者是 Jürgen Schmidhuber。

既然出錯(cuò)的不是 AI 模型,讓我們看看谷歌的新方法究竟能夠?yàn)轭A(yù)訓(xùn)練模型帶來(lái)哪些改變吧。

論文:Scaling Instruction-Finetuned Language Models 

圖片


  • 論文地址:https://arxiv.org/abs/2210.11416
  • 公開(kāi)模型:https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints

該研究使用 540B 參數(shù)模型訓(xùn)練 Flan-PaLM,將微調(diào)任務(wù)的數(shù)量增加到 1800 個(gè)以上,并包含思維鏈(CoT;Wei et al., 2022b)數(shù)據(jù)。經(jīng)過(guò)訓(xùn)練后的 Flan-PaLM 優(yōu)于 PaLM,在多個(gè)基準(zhǔn)測(cè)試中達(dá)到了新的 SOTA。在推理能力方面,F(xiàn)lan-PaLM 能夠利用 CoT 和自洽性(self-consistency;Wang et al., 2022c)在大規(guī)模多任務(wù)語(yǔ)言理解(MMLU; Hendrycks et al., 2020)上實(shí)現(xiàn) 75.2% 的準(zhǔn)確率。

圖片

此外,在一組具有挑戰(zhàn)性的開(kāi)放式生成問(wèn)題上,F(xiàn)lan-PaLM 的表現(xiàn)明顯優(yōu)于 PaLM,可用性大幅提高。

總體而言,谷歌的這項(xiàng)研究闡明了使用指令微調(diào)來(lái)提高模型性能的具體方法。

方法

具體來(lái)說(shuō),該研究主要關(guān)注影響指令微調(diào)的幾個(gè)方面,包括:(1)擴(kuò)展任務(wù)數(shù)量,(2)擴(kuò)展模型大小,以及(3)對(duì)思維鏈數(shù)據(jù)進(jìn)行微調(diào)。

該研究發(fā)現(xiàn)具有上述方面的指令微調(diào)顯著改進(jìn)了各種模型類(lèi)(PaLM、T5、U-PaLM)、prompting 設(shè)置(零樣本、少樣本、CoT)和評(píng)估基準(zhǔn)(MMLU、BBH、 TyDiQA、MGSM、開(kāi)放式生成)。例如,在 1.8K 任務(wù)上進(jìn)行指令微調(diào)的 Flan-PaLM 540B 大大優(yōu)于 PALM 540B(平均 + 9.4%)。Flan-PaLM 540B 在幾個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的性能,例如在五次 MMLU 上達(dá)到 75.2%。

研究者還公開(kāi)了 Flan-T5 檢查點(diǎn),即使與更大的模型(例如 PaLM 62B)相比,它也能實(shí)現(xiàn)強(qiáng)大的少樣本性能??傮w而言,指令微調(diào)是提高預(yù)訓(xùn)練語(yǔ)言模型的性能和可用性的通用方法。

圖片

圖 1. 研究人員在 1800 余個(gè)任務(wù)中對(duì)各種語(yǔ)言模型進(jìn)行了微調(diào),在有 / 缺乏樣本(零樣本和少樣本)以及有 / 沒(méi)有思維鏈的情況下進(jìn)行微調(diào),從而能夠在一系列評(píng)估場(chǎng)景中進(jìn)行泛化。

圖片

圖 2. 微調(diào)數(shù)據(jù)包括 473 個(gè)數(shù)據(jù)集、146 個(gè)任務(wù)類(lèi)別和共計(jì) 1836 個(gè)任務(wù)。

圖片

在數(shù)據(jù)微調(diào)和程序微調(diào)過(guò)程完成后,研究者根據(jù)模型大小對(duì)任務(wù)的性能來(lái)對(duì)比規(guī)模擴(kuò)展的影響。首先,對(duì)于所有三種模型大小,多任務(wù)指令微調(diào)與沒(méi)有微調(diào)相比性能有很大提高,增益范圍從 9.4% 到 15.5%。其次,增加微調(diào)任務(wù)的數(shù)量可以提高性能。

最后,我們可以看到將模型規(guī)模增加一個(gè)數(shù)量級(jí)(8B → 62B 或 62B → 540B)可以明顯提高微調(diào)和未微調(diào)模型的性能。

圖片

多任務(wù)指令微調(diào)相對(duì)于模型大?。▍?shù)量)和微調(diào)任務(wù)數(shù)量及規(guī)模擴(kuò)展對(duì)準(zhǔn)確率的影響。

圖片

增加微調(diào)數(shù)據(jù)中的任務(wù)數(shù)量可以提高 Flan-PaLM 在大多數(shù)評(píng)估基準(zhǔn)上的性能。

研究人員證明了在微調(diào)混合中包含九個(gè)帶有思維鏈 (CoT) 注釋的數(shù)據(jù)集可以提高推理能力。下表顯示 Flan-PaLM 的 CoT 提示能力在四個(gè)保留的評(píng)估基準(zhǔn)上優(yōu)于 PaLM。

圖片

該研究發(fā)現(xiàn)對(duì) CoT 數(shù)據(jù)進(jìn)行指令微調(diào)的另外一個(gè)好處是可以實(shí)現(xiàn)零樣本(zero-shot)推理,模型在沒(méi)有針對(duì) CoT 的少量樣本的情況下就自行產(chǎn)生了推理能力,這可能需要大量工程調(diào)教才能正確實(shí)現(xiàn)。

圖片

圖 6:PaLM 和 Flan-PaLM 在一組 23 個(gè)具有挑戰(zhàn)性的 BIG-Bench 任務(wù) (BBH) 上的 zero-shot 性能。Flan-PaLM 需要通過(guò)「讓我們一步一步思考」指令激活的思想鏈 (CoT) 生成。

為了展示新方法的通用性,谷歌訓(xùn)練了 T5、PaLM 和 U-PaLM,涵蓋了從 8000 萬(wàn)到 5400 億參數(shù)的模型體量范圍,發(fā)現(xiàn)所有模型都能大幅提升性能。

圖片

表 5. 指令微調(diào) (Flan) 在其他持續(xù)預(yù)訓(xùn)練方法之上提高了性能。

經(jīng)過(guò)測(cè)試,指令微調(diào)大大提高了所有模型類(lèi)型的歸一化平均性能,與非微調(diào)模型相比,T5 模型從指令微調(diào)中受益最多。這些結(jié)果對(duì)于某些基準(zhǔn)測(cè)試來(lái)說(shuō)是相當(dāng)強(qiáng)的——例如,F(xiàn)lan-T5-XL 只有 30 億參數(shù),就達(dá)到了 47.6% 的 MMLU 分?jǐn)?shù),超過(guò)了 GPT-3 1750 億參數(shù)的 43.9% 分?jǐn)?shù)。

除了 NLP 基準(zhǔn)之外,語(yǔ)言模型還能夠?yàn)殚_(kāi)放式問(wèn)題請(qǐng)求生成長(zhǎng)格式答案。在這一方面,標(biāo)準(zhǔn)的 NLP 基準(zhǔn)和用于評(píng)估它們的自動(dòng)指標(biāo)不足以衡量人類(lèi)的偏好。研究人員對(duì)此進(jìn)行了評(píng)估,創(chuàng)建了一個(gè)包含 190 個(gè)示例的評(píng)估集。該評(píng)估集包括以零樣本方式向模型提出的問(wèn)題,涉及五個(gè)具有挑戰(zhàn)性的類(lèi)別,每個(gè)類(lèi)別 20 個(gè)問(wèn)題:創(chuàng)造力、上下文推理、復(fù)雜推理、計(jì)劃和解釋。

對(duì)于其中的 60 個(gè)示例(來(lái)自復(fù)雜的推理、計(jì)劃和解釋類(lèi)別),該研究創(chuàng)建了一個(gè)帶有思維鏈觸發(fā)短語(yǔ)(例如,「讓我們一步一步思考」)的變體,作為微調(diào)是否進(jìn)行的另一個(gè)評(píng)估在 CoT 上啟用 zero-shot。除了上述 160 個(gè)零樣本輸入之外,研究中還包括 30 個(gè)用于測(cè)試少樣本能力的輸入,這些沒(méi)有指令微調(diào)的強(qiáng)語(yǔ)言模型已被證明在這些方面表現(xiàn)良好。

研究人員認(rèn)為,指令微調(diào)和規(guī)模擴(kuò)展均可以持續(xù)提升大語(yǔ)言模型性能,而微調(diào)對(duì)于推理能力至關(guān)重要,其還能泛化模型能力。通過(guò)指令微調(diào)與其他模型適應(yīng)技術(shù)(例如 UL2R)結(jié)合,谷歌在這項(xiàng)工作中提出了最強(qiáng)模型 Flan-U-PaLM。

重要的是,指令微調(diào)并不像模型規(guī)模擴(kuò)展一樣會(huì)大幅增加計(jì)算成本,例如對(duì)于 PaLM 540B,指令微調(diào)只需要 0.2% 的預(yù)訓(xùn)練計(jì)算,但卻可以將跨評(píng)估基準(zhǔn)的歸一化平均值提高 9.4%。使用指令微調(diào)的小型模型有時(shí)可以勝過(guò)沒(méi)有微調(diào)的大模型。

出于這些原因,研究人員建議對(duì)幾乎所有預(yù)訓(xùn)練的語(yǔ)言模型都進(jìn)行指令微調(diào)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2021-11-02 09:36:04

AI 數(shù)據(jù)人工智能

2021-09-08 17:23:33

谷歌模型開(kāi)發(fā)

2022-03-24 10:35:38

人工智能模型代碼

2021-08-12 16:27:04

模型人工智能深度學(xué)習(xí)

2024-12-13 14:03:44

模型訓(xùn)練AI

2021-09-30 11:20:01

AI 數(shù)據(jù)人工智能

2023-03-13 00:24:21

微軟活躍用戶(hù)OpenAI

2013-01-18 14:00:59

VMware

2021-06-28 15:40:16

神經(jīng)網(wǎng)絡(luò)大腦AI

2020-11-18 19:08:30

人工智能自然語(yǔ)言技術(shù)

2023-02-25 21:45:55

模型AI

2021-03-23 15:21:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2015-06-26 12:36:06

2013-03-25 14:10:02

Windows Blu

2021-12-10 15:46:18

谷歌模型人工智能

2014-07-11 15:43:35

IBM云計(jì)算大數(shù)據(jù)

2023-09-14 12:46:00

模型數(shù)據(jù)

2021-06-23 15:39:40

模型人工智能計(jì)算

2023-07-13 12:54:42

GPT-4OpenAI

2009-11-30 15:05:54

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)