自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="iy1o6"></ruby><style id="iy1o6"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

能勝任統(tǒng)計(jì)學(xué)家？Transformers超強(qiáng)學(xué)習(xí)機(jī)制「自動(dòng)算法選擇」

作者：機(jī)器之心 2023-07-18 15:02:50

人工智能新聞

Salesforce AI Research、北京大學(xué)和 UC 伯克利合作的最新論文，發(fā)現(xiàn) Transformer 模型在上下文中學(xué)習(xí)（in-context learning）的新機(jī)制：「自動(dòng)算法選擇」，類似統(tǒng)計(jì)與機(jī)器學(xué)習(xí)專家能夠現(xiàn)實(shí)完成的工作。

ChatGPT 等基于 Transformer 的大語言模型具備極強(qiáng)的在上下文中學(xué)習(xí)（In-Context Learning，ICL）的能力：輸入少量示例樣本，即能夠正確回答同類問題。如何理解這種 ICL 能力？

本文作者實(shí)驗(yàn)發(fā)現(xiàn)并證明一種 ICL 的新機(jī)制：自動(dòng)算法選擇，可以允許單一 Transformer 模型在不同輸入數(shù)據(jù)上選擇執(zhí)行完全不同的，適合該數(shù)據(jù)的學(xué)習(xí)算法，類似統(tǒng)計(jì)與機(jī)器學(xué)習(xí)專家能夠現(xiàn)實(shí)完成的工作?；诹炕?Transformer 構(gòu)造，文章一并給出 Transformer 實(shí)現(xiàn) ICL 的一套全面的統(tǒng)計(jì)理論，包含近似精度，預(yù)測表現(xiàn)，以及預(yù)訓(xùn)練的樣本復(fù)雜度。

圖片

論文地址：https://arxiv.org/abs/2306.04637

Transformer 能在 ICL 中完成機(jī)器學(xué)習(xí)任務(wù)

ChatGPT 等基于 Transformer 的大模型可以根據(jù)輸入的文本，自上下文中學(xué)習(xí)。如何系統(tǒng)地理解這種能力？NeurIPS 2022 的一篇論文（Garg et al. 2022）考察了 Transformer 從上下文中進(jìn)行機(jī)器學(xué)習(xí)任務(wù)的能力。

將 N 個(gè)訓(xùn)練樣本與 1 個(gè)測試樣本 (x_1, y_1, …, x_N, y_N, x_{N+1}) 作為一個(gè)序列輸入 Transformer，要求 Transformer 輸出 y_{N+1}。這些樣本來自簡單的統(tǒng)計(jì)模型，例如線性模型，但每個(gè)序列由不同的模型參數(shù)（w_\star）生成。Transformer 如果想總是正確地預(yù)測 y_{N+1}，那么就需要從訓(xùn)練樣本中學(xué)習(xí)真正的參數(shù) w_\star，并利用其進(jìn)行預(yù)測。

Garg et al. 發(fā)現(xiàn)，訓(xùn)練好的 Transformer 總是能夠精準(zhǔn)地預(yù)測 y_{N+1}，并且預(yù)測表現(xiàn)能夠媲美該數(shù)據(jù)上的最優(yōu)算法。例如線性模型上，Transformer 的預(yù)測效果可以媲美最小二乘法（Least Squares），稀疏線性模型上媲美 Lasso，決策樹上能超過 Gradient Boosting。

圖片

Figure 1: Transformer 能在 ICL 中完成機(jī)器學(xué)習(xí)任務(wù) (Garg et al. 2022)

Transformer 雖然在各個(gè)任務(wù)中實(shí)現(xiàn)最優(yōu)算法，然而這些算法都只是標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)算法，遠(yuǎn)不能完全解釋 ChatGPT 等大模型強(qiáng)大的 ICL 能力。還存在更強(qiáng)的機(jī)制嗎？

自動(dòng)算法選擇

現(xiàn)實(shí)生活中，統(tǒng)計(jì)學(xué)家與機(jī)器學(xué)習(xí)專家會(huì)如何分析數(shù)據(jù)？給定一個(gè)數(shù)據(jù)集，統(tǒng)計(jì)學(xué)家會(huì)先確定數(shù)據(jù)的結(jié)構(gòu)，規(guī)模等，然后根據(jù)數(shù)據(jù)的特點(diǎn)選擇最適合的算法。如果不確定哪個(gè)算法合適，則會(huì)同時(shí)嘗試多個(gè)算法，然后利用驗(yàn)證集（validation split）或交叉驗(yàn)證（cross-validation）等選擇表現(xiàn)最好的算法。

本文作者發(fā)現(xiàn)，Transformer 也能夠進(jìn)行類似的自動(dòng)算法選擇。自動(dòng)算法選擇允許一個(gè)單獨(dú)的 Transformer 模型，在不同的 ICL 問題上選擇不同的算法，類似統(tǒng)計(jì)學(xué)家可以現(xiàn)實(shí)完成的工作。

作者給出兩種一般的算法選擇機(jī)制，從理論上證明 Transformer 模型可以實(shí)現(xiàn)這兩個(gè)機(jī)制，并且實(shí)驗(yàn)上驗(yàn)證了 Transformer 能夠近似實(shí)現(xiàn)這兩種機(jī)制，達(dá)到了比單一機(jī)器學(xué)習(xí)算法更強(qiáng)的效果。

機(jī)制 1：用驗(yàn)證集做算法選擇

在這一機(jī)制中，Transformer 先將輸入數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集。接下來在訓(xùn)練集上同時(shí)執(zhí)行 K 個(gè)算法，然后在驗(yàn)證集上測試 K 個(gè)算法的表現(xiàn)，最終用表現(xiàn)最好的算法 k_star 給出預(yù)測。

Figure 2: 用驗(yàn)證集做算法選擇（右）及實(shí)例（左）。

應(yīng)用這一機(jī)制，Transformer 可以完成一大類算法選擇。如下圖當(dāng)中，通過恰當(dāng)?shù)念A(yù)訓(xùn)練，Transformer 可同時(shí)實(shí)現(xiàn)在兩個(gè)帶不同正則化的 ridge regression 算法，并對具體數(shù)據(jù)分布實(shí)現(xiàn)較優(yōu)的那個(gè)算法。進(jìn)一步，對這一任務(wù)，我們在理論上也能夠證明 Transformer 能夠近似整個(gè)任務(wù)的 Bayes 最優(yōu)表現(xiàn)。

Figure 3: 單一 Transformer 可以在兩個(gè)帶不同噪音的線性模型中同時(shí)接近最優(yōu)。在每個(gè)模型中，Transformer 的預(yù)測都接近該模型上 Bayes 最優(yōu)算法（帶不同正則化的 ridge regression）。

機(jī)制 2：提前對數(shù)據(jù)分布進(jìn)行檢驗(yàn)

在這一機(jī)制中，Transformer 通過提前檢驗(yàn)數(shù)據(jù)分布（如計(jì)算一些統(tǒng)計(jì)量），來決定恰當(dāng)?shù)乃惴ā＠缭谙聢D當(dāng)中，單一的 Transformer 可以在回歸問題上實(shí)現(xiàn)回歸算法（如線性回歸），在分類問題上實(shí)現(xiàn)分類算法（如 Logistic Regression）。

Figure 4: 提前對數(shù)據(jù)分布進(jìn)行檢驗(yàn)（右）及實(shí)例（左）。

Figure 5: 單一 Transformer 可以同時(shí)在回歸問題和分類問題上接近最優(yōu)表現(xiàn)：在回歸問題上表現(xiàn)接近最小二乘法，在分類問題上接近 Logistic Regression。

理論框架

除了自動(dòng)算法選擇，本文的另一大貢獻(xiàn)是給出了 Transformer 進(jìn)行 ICL 的一套完整的統(tǒng)計(jì)學(xué)習(xí)理論，涵蓋

Transformer 如何實(shí)現(xiàn)各種機(jī)器學(xué)習(xí)算法的具體構(gòu)造，如最小二乘法，Lasso，ridge regression，解廣義線性模型的凸優(yōu)化算法，神經(jīng)網(wǎng)絡(luò)上的梯度下降法等；
對上述 Transformer 大小（層數(shù)、attention head 個(gè)數(shù)、權(quán)重矩陣的范數(shù)）的精確界；
上述 Transformer 在標(biāo)準(zhǔn)統(tǒng)計(jì)假設(shè)下，在 ICL 中的預(yù)測表現(xiàn)；
Transformer 實(shí)現(xiàn)自動(dòng)算法選擇時(shí)類似的保證；
通過預(yù)訓(xùn)練 Transformer 達(dá)到上述效果的樣本復(fù)雜度。

這套理論給出了 Transformer 進(jìn)行 ICL 的一整套分析框架。作者相信這一框架可以推廣到一大類相關(guān)問題當(dāng)中，給出類似的理論保證。

結(jié)語

本文從理論和實(shí)驗(yàn)上發(fā)現(xiàn) Transformer 模型在 ICL 中能夠進(jìn)行自動(dòng)算法選擇，并給出了一整套進(jìn)行 ICL 的理論框架。

基于本文的結(jié)論還有很大的探索空間，例如其它進(jìn)行 ICL 或自動(dòng)算法選擇的機(jī)制；在 ICL 中逼近 Bayes 最優(yōu)表現(xiàn)的其它機(jī)制；預(yù)訓(xùn)練的 Transformer 如何實(shí)現(xiàn)算法選擇的內(nèi)部機(jī)理；對其它 ICL 任務(wù)的分析。作者相信，對這些問題的進(jìn)一步探索，能對大模型有更多有趣的發(fā)現(xiàn)。

作者簡介

本文作者 Yu Bai 現(xiàn)任 Salesforce Research 資深研究科學(xué)家。Fan Chen 本科畢業(yè)于北京大學(xué)，即將博士入學(xué)麻省理工大學(xué)。Huan Wang、Caiming Xiong 分別現(xiàn)任 Salesforce Research 研究主管及副總裁。Song Mei 現(xiàn)任加州大學(xué)伯克利統(tǒng)計(jì)系助理教授。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營