自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="z8cjy"></center>

<button id="z8cjy"></button>

<del id="z8cjy"></del>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型物種進(jìn)化圖轉(zhuǎn)瘋了：8位華人打造，一眼看懂“界門綱目”，原來BERT后代已絕種

作者：豐色蕭簫 2023-05-08 12:43:14

人工智能新聞

與谷歌和Meta“多線布局”不同，OpenAI從GPT-1開始，就堅(jiān)定其中一條技術(shù)路線，如今成功走在這條路線的最前沿……

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

這幾天，一張名為“大語言模型進(jìn)化樹”的動圖在學(xué)術(shù)圈瘋轉(zhuǎn)：

它清晰梳理了2018到2023五年間所有的大語言模型“代表作”，并將這些模型架構(gòu)分成三大類，進(jìn)化結(jié)果一目了然：

業(yè)界頗具影響力的谷歌BERT，從一開始就走向了“岔路”，如今在生成AI領(lǐng)域已瀕臨淘汰；

與谷歌和Meta“多線布局”不同，OpenAI從GPT-1開始，就堅(jiān)定其中一條技術(shù)路線，如今成功走在這條路線的最前沿……

有網(wǎng)友調(diào)侃，在大模型沒有成功之前，大家都只是在參與一場“賭局”：

還有網(wǎng)友感嘆，兩年后會進(jìn)化成什么樣子簡直不敢想象。

我們扒了扒，發(fā)現(xiàn)這張圖原來來自于最近一篇爆火的綜述論文《在實(shí)踐中利用大模型的力量》：

論文不僅詳細(xì)闡述了現(xiàn)代大語言模型LLM這5年的發(fā)展歷程，還針對當(dāng)下大伙兒最焦慮的“如何選用LLM”這一關(guān)鍵問題，給出了詳細(xì)解答。

比如在自然語言理解任務(wù)中，微調(diào)模型通常是比LLM更好的選擇，不過LLM可以提供強(qiáng)大的泛化能力；而在知識型密集任務(wù)中，LLM學(xué)到了更豐富的現(xiàn)實(shí)世界知識，所以比微調(diào)模型更適合。

所有的一切都被濃縮成了一張圖，簡直不要太清晰明了。

整體來說，論文分為三個(gè)部分，對大語言模型是如何發(fā)展的（模型實(shí)用指南）、大模型性能究竟受什么影響（數(shù)據(jù)實(shí)用指南）、以及什么場景用什么類型的模型（NLP任務(wù)實(shí)用指南）這幾個(gè)重點(diǎn)分別進(jìn)行了詳細(xì)介紹。

我們逐個(gè)來看看。

“BERT派”和“GPT派”二分天下

首先來解讀一下上面的LLM發(fā)展進(jìn)化史，也就是論文中的《模型實(shí)用指南》。

根據(jù)論文，大模型發(fā)展主要可以分為兩類，作者們將它命名為“BERT派”和“GPT派”：

其中，“BERT派”的特征是模型中有編碼器架構(gòu)，具體分為編解碼器（Encoder-Decoder）和只有編碼器（Encoder-only）兩類架構(gòu)；

“GPT派”則主張扔掉編碼器，架構(gòu)中只保留解碼器（Decoder-only）。

最初“BERT派”占據(jù)上風(fēng)。但以BERT為代表的Encoder-only路線發(fā)展慘淡，相關(guān)研究到2020年就逐漸消失。

隨后，GPT-3的出現(xiàn)，徹底轉(zhuǎn)變了大語言模型領(lǐng)域的風(fēng)向，OpenAI為代表的“GPT派”開始發(fā)展壯大，并成為如今LLM中發(fā)展最順利的一支。

根據(jù)這一想法，作者們將它做成了一張完整的樹狀圖，記錄了這些年大模型各大路線的發(fā)展興衰。

而這張圖也成為了谷歌和OpenAI在大模型這場戰(zhàn)爭的“記錄圖”。

顯然，谷歌在只有解碼器、只有編碼器和編解碼器三個(gè)方向都有不少布局，然而如今，大模型依舊是“一條路走到頭”、只搞Decoder-Only的OpenAI占據(jù)上風(fēng)：

△圖中有個(gè)bug，ALBERT是谷歌開發(fā)的

然而與此相對，我們也能發(fā)現(xiàn)，大模型整體呈現(xiàn)出“越來越封閉”的狀態(tài)，而這很大程度上要?dú)w功于“Open”AI的表現(xiàn)。

不過在這些大廠里，Meta開源還是做得不錯(cuò)的，只有幾十人的HuggingFace也成了重要力量：

當(dāng)然，這并不意味著“BERT派”已經(jīng)整體落于下風(fēng)，畢竟編解碼器這個(gè)分支發(fā)展得也還不錯(cuò)，包括清華GLM和谷歌T5都是這個(gè)領(lǐng)域的代表開源模型。

未來這幾大LLM路線的發(fā)展速度是否會發(fā)生變化，還是一個(gè)未知數(shù)。

那么，影響大模型性能的關(guān)鍵因素究竟是什么呢？

如何判斷LLM性能好壞？

論文認(rèn)為，影響LLM性能的關(guān)鍵因素依舊是數(shù)據(jù)。

什么樣的數(shù)據(jù)？

根據(jù)LLM不同階段，數(shù)據(jù)類型也主要分為三種，包括預(yù)訓(xùn)練數(shù)據(jù)、微調(diào)數(shù)據(jù)和測試/用戶數(shù)據(jù)。

數(shù)據(jù)類型不同，對模型的影響作用也并不一樣，甚至能直接決定大模型的最佳適用范圍，論文在《數(shù)據(jù)實(shí)用指南》有具體闡述。

首先是預(yù)訓(xùn)練數(shù)據(jù)。它相當(dāng)于大語言模型的“基底”，既決定了LLM的“語言功底”，又會極大影響LLM在下游任務(wù)的表現(xiàn)。

一方面是LLM的“語言功底”，指大語言模型對單詞的知識、語法、句法和語義的理解能力，以及上下文和生成連續(xù)文本的能力。

為了鍛煉LLM這部分能力，數(shù)據(jù)需要全面展現(xiàn)人類知識、語言和文化。

另一方面是LLM在下游任務(wù)的表現(xiàn)，這部分對于如何選擇LLM應(yīng)用思路起著至關(guān)重要的作用。

為了鍛煉LLM這部分能力，需要考慮預(yù)訓(xùn)練數(shù)據(jù)的多樣性，尤其是完成特定下游任務(wù)需要的“特定”數(shù)據(jù)，例如用社交媒體數(shù)據(jù)訓(xùn)練出的LLM問答能力、用代碼數(shù)據(jù)訓(xùn)練出的LLM邏輯和代碼填充能力等。

其次是微調(diào)數(shù)據(jù)。這部分?jǐn)?shù)據(jù)往往被用于“調(diào)試”特定任務(wù)性能，具體又分為零標(biāo)注數(shù)據(jù)、少量標(biāo)注數(shù)據(jù)和大量標(biāo)注數(shù)據(jù)。

其中，零標(biāo)注數(shù)據(jù)通常被用于零次學(xué)習(xí)（Zero-Shot Learning）中，即希望大模型能完成之前沒見過的任務(wù)，具備更強(qiáng)的“推理能力”；

少量標(biāo)注數(shù)據(jù)主要用于引導(dǎo)大模型出現(xiàn)推理能力的同時(shí)，更好地提升某些少樣本任務(wù)的性能，類似方法有元學(xué)習(xí)和遷移學(xué)習(xí)等；

大量標(biāo)注數(shù)據(jù)則用于提升特定任務(wù)性能，當(dāng)然這種情況下，微調(diào)模型和LLM都可以考慮使用它。

最后是測試/用戶數(shù)據(jù)。這部分?jǐn)?shù)據(jù)用于縮小模型訓(xùn)練效果和用戶需求之間的差距，典型方法包括RLHF，即人類反饋強(qiáng)化學(xué)習(xí)，能顯著增強(qiáng)LLM的泛化能力。

了解了三類數(shù)據(jù)對模型的不同影響，如何在實(shí)際任務(wù)中，選擇對應(yīng)的模型呢？

LLM還是微調(diào)模型？六大具體情況分析

接下來是本文重點(diǎn)部分：《NLP任務(wù)實(shí)用指南》。

在實(shí)際下游任務(wù)中，選擇直接用只經(jīng)過預(yù)訓(xùn)練的大模型LLM，還是用在此基礎(chǔ)上經(jīng)過特定數(shù)據(jù)集微調(diào)后的較小模型？

具體情況具體分析。

首先來看傳統(tǒng)自然語言理解（NLU）任務(wù)，包括文本分類、用于知識圖構(gòu)建的命名實(shí)體識別（NER），以及自然語言推理entailment prediction等。

先上結(jié)論：

在這類任務(wù)中，微調(diào)模型通常是比LLM更好的選擇，不過LLM可以提供強(qiáng)大的泛化能力。

具體而言，在大多數(shù)自然語言理解任務(wù)中，如果這些任務(wù)帶有豐富的、注釋良好的數(shù)據(jù)，并且在測試集上包含很少的分布外示例，那么微調(diào)模型性能更好。

不過對于不同的任務(wù)和數(shù)據(jù)集，兩者的差距還不完全一樣。

比如在文本分類中，LLM大多只是略遜于微調(diào)模型；而在情緒分析上，LLM和微調(diào)模型表現(xiàn)一樣好；毒性檢測上，則所有LLM都很差。

作者認(rèn)為，這種結(jié)果一是跟LLM的指令或prompt設(shè)計(jì)有關(guān)，二是微調(diào)模型的能力上限確實(shí)還很高。

當(dāng)然，也有LLM擅長的，一個(gè)是雜項(xiàng)文本分類，需要處理各種沒有明確關(guān)聯(lián)的內(nèi)容，更接近真實(shí)世界；另一個(gè)是對抗性自然語言推理（ANLI）。LLM對這種具有分布外和注釋稀疏的數(shù)據(jù)有良好的泛化能力，微調(diào)模型不行。

其次是生成任務(wù)，包括兩種：

第一種側(cè)重于對輸入文本進(jìn)行加工轉(zhuǎn)換，比如寫摘要和機(jī)器翻譯；第二種是開放式生成類，根據(jù)用戶需求從頭生成文本，比如寫故事、寫代碼等。

這類任務(wù)要求模型理解能力好，以及有創(chuàng)造性，LLM絕大多數(shù)情況都表現(xiàn)更好。

具體而言，對于寫摘要來說，盡管機(jī)器評估結(jié)果顯示LLM并沒有比微調(diào)更有優(yōu)勢，但在人類評估上它贏了。

在機(jī)器翻譯上，盡管LLM平均性能略低于一些商業(yè)翻譯工具，但它尤其擅長將一些預(yù)訓(xùn)練可能都沒見過的小語種翻譯成英語，比如羅馬尼亞語、羅曼什語、加利西亞語等等。

而開放式生成中，目前我們見到的很多作品都是基于沒有經(jīng)過微調(diào)的LLM生成的，比如GPT-4，其實(shí)力可見一斑，不用多說。

第三是知識密集型任務(wù)，這類任務(wù)強(qiáng)烈依賴背景知識、特定領(lǐng)域?qū)I(yè)知識或現(xiàn)實(shí)世界常識等，要解決它們早已超出簡單的模式識別或語法分析的范疇。

同樣，先說結(jié)論：

（1）LLM因具有豐富的現(xiàn)實(shí)世界知識所以更擅長知識密集型任務(wù)。
（2）當(dāng)需求與其所學(xué)知識不匹配時(shí)，或者面臨只需要上下文知識的任務(wù)時(shí)，LLM會遇到困難。在這種情況下，微調(diào)模型可以頂上。

具體而言，在一般的知識密集型任務(wù)中，LLM在幾乎所有數(shù)據(jù)集上都表現(xiàn)更好，這是數(shù)十億的訓(xùn)練token和參數(shù)給它帶來的。

比如在谷歌提出的大模型新基準(zhǔn)Big bench中的大多數(shù)任務(wù)中，它的性能優(yōu)于人類的平均水平，某些情況下，甚至可以與人類的最佳性能相媲美，比如提供有關(guān)印度教神話的事實(shí)、從元素周期表中預(yù)測元素名稱等。

不過，Big bench其中一些任務(wù)比如要求模型說出ASCII藝術(shù)表示的數(shù)字，或者是重新定義了一個(gè)公共符號，要求模型在原始含義和從定義中派生的含義之間進(jìn)行選擇時(shí)，LLM表現(xiàn)不如微調(diào)模型，甚至比隨機(jī)猜測還要差。

這是因?yàn)檫@類任務(wù)需要的知識與現(xiàn)實(shí)世界無關(guān)。

需要注意的是，如果“閉卷任務(wù)變成開卷”，給模型賦予檢索增強(qiáng)的能力，尺寸更小的微調(diào)模型的表現(xiàn)會比LLM更好。

在以上三類任務(wù)之外，作者還詳細(xì)分析了LLM擴(kuò)展（Scaling）方面的知識，以及我們在上面提及任務(wù)之外的其他任務(wù)和現(xiàn)實(shí)世界真實(shí)任務(wù)上的選擇。

這里就不一一展開了，奉上結(jié)論。

LLM擴(kuò)展：

當(dāng)模型規(guī)模呈指數(shù)級增長時(shí)，LLM將變得特別擅長算術(shù)推理和常識推理；
不過在許多情況下，由于人類理解還有限，擴(kuò)大規(guī)模后的LLM性能并不會隨之穩(wěn)步提升。

其他未歸類的雜項(xiàng)任務(wù)：

在與LLM的預(yù)訓(xùn)練目標(biāo)和數(shù)據(jù)相去甚遠(yuǎn)的任務(wù)中，微調(diào)模型或特定模型仍有空間；
LLM在模仿人類、數(shù)據(jù)評注和生成方面非常出色，也可以用于NLP任務(wù)中的質(zhì)量評估，并具有可解釋性的優(yōu)點(diǎn)。

現(xiàn)實(shí)任務(wù)：

這類任務(wù)面臨的挑戰(zhàn)包括嘈雜/非結(jié)構(gòu)化的輸入、用戶的請求可能包含多個(gè)隱含意圖等。

與微調(diào)模型相比，LLM更適合處理這些場景。然而，在現(xiàn)實(shí)世界中評估模型的有效性仍然是一個(gè)懸而未決的問題。

最后，還有一些總體準(zhǔn)則：

如果對成本敏感或有嚴(yán)格的延遲要求，考慮輕型的微調(diào)模型，而不是LLM；
LLM的零樣本方法無法從特定任務(wù)數(shù)據(jù)集進(jìn)行shortcut learning，但微調(diào)模型可以；
高度重視與LLM相關(guān)的安全問題，因?yàn)長LM會產(chǎn)生潛在有害或偏見輸出。

Over。

看完上面這些，是不是覺得條條框框有些不好記？

別急，如開頭所述，作者已經(jīng)將它們?nèi)繚饪s成了一張思維導(dǎo)圖，照著它來分析就好了！（手動狗頭）

8位華人作者

本文作者一共8位，全部是華人，分別來自亞馬遜、得克薩斯農(nóng)工大學(xué)和萊斯大學(xué)，其中5人是共同一作。

共同一作楊靖鋒（Jingfeng Yang），目前是亞馬遜應(yīng)用研究科學(xué)家，本科畢業(yè)于北大，碩士畢業(yè)于佐治亞理工學(xué)院，研究方向是NLP和機(jī)器學(xué)習(xí)。

此前，他還寫過一篇關(guān)于GPT-3和GPT-3.5的復(fù)現(xiàn)和使用指南，詳細(xì)解讀了為什么關(guān)于GPT-3的復(fù)現(xiàn)大部分會失敗、以及使用GPT-3.5和ChatGPT的最佳方式。

共同一作靳弘業(yè)（Hongye Jin），目前是得克薩斯農(nóng)工大學(xué)在讀博士生，本科畢業(yè)于北京大學(xué)，研究方向是機(jī)器學(xué)習(xí)等。

共同一作Ruixiang Tang，萊斯大學(xué)計(jì)算機(jī)科學(xué)四年級博士生，本科畢業(yè)于清華大學(xué)自動化系，研究方向是可信任AI，包括機(jī)器學(xué)習(xí)的可解釋性、公平性和魯棒性。

共同一作Xiaotian Han，得克薩斯農(nóng)工大學(xué)四年級博士生，本科畢業(yè)于山東大學(xué)通信工程，于北郵拿到計(jì)算機(jī)科學(xué)碩士學(xué)位，研究興趣是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。

共同一作Qizhang Feng，得克薩斯農(nóng)工大學(xué)博士生，本科畢業(yè)于華中科技大學(xué)，碩士畢業(yè)于杜克大學(xué)，研究方向是機(jī)器學(xué)習(xí)。

此外，亞馬遜應(yīng)用研究科學(xué)家姜昊茗（Haoming Jiang）、亞馬遜應(yīng)用科學(xué)主管Bing Yin和萊斯大學(xué)助理教授Xia Hu也參與了這次研究。

論文地址：https://arxiv.org/abs/2304.13712

大模型實(shí)用指南（持續(xù)更新中）：
https://github.com/Mooler0410/LLMsPracticalGuide

責(zé)任編輯：張燕妮來源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="kv84z"></ruby>