自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="dsks0"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

為啥ChatGPT讓LeCun酸成檸檬精？谷歌、Meta、OpenAI聊天機(jī)器人大PK！

作者：新智元 2023-01-27 13:56:29

做聊天機(jī)器人，OpenAI不是第一家，但絕對是最出風(fēng)頭的那個。谷歌、Meta、DeepMind、OpenAI的聊天機(jī)器人大PK，誰最牛？

?前幾天，Meta首席人工智能科學(xué)家Yann LeCun的一段對于ChatGPT的點評迅速傳遍圈內(nèi)外，引發(fā)了大波討論。

在Zoom的媒體和高管小型聚會上，LeCun給出了一段令人驚訝的評價：「就底層技術(shù)而言，ChatGPT并不是多么了不得的創(chuàng)新?！?/p>

「雖然在公眾眼中，它是革命性的，但是我們知道，它就是一個組合得很好的產(chǎn)品，僅此而已。」

ChatGPT不算什么創(chuàng)新

ChatGPT作為這幾個月的聊天機(jī)器人「頂流」，早就紅遍全世界，甚至切實改變了一部分人的職業(yè)生涯，以及學(xué)校教育的現(xiàn)狀。

全世界為它驚嘆的時候，LeCun對ChatGPT的點評居然如此「輕描淡寫」。

但其實，他的言論不無道理。

像ChatGPT這種數(shù)據(jù)驅(qū)動的人工智能系統(tǒng)，許多公司和研究型實驗室有。LeCun表示，OpenAI在這個領(lǐng)域并沒有多么獨樹一幟。

「除了谷歌和Meta之外，還有六家初創(chuàng)公司，基本上都擁有非常相似的技術(shù)?！筁eCun 補(bǔ)充道。

接著，LeCun小酸了一把——

「ChatGPT用的是以自監(jiān)督方式進(jìn)行預(yù)訓(xùn)練的Transformer架構(gòu)，而自監(jiān)督學(xué)習(xí)是本人長期以來一直提倡的，那會兒OpenAI還沒誕生呢?！?/p>

其中，Transformer是谷歌的發(fā)明。這種語言神經(jīng)網(wǎng)絡(luò)，正是GPT-3等大型語言模型的基礎(chǔ)。

而第一個神經(jīng)網(wǎng)絡(luò)語言模型，Yoshua Bengio早在20年前就提出了。Bengio的注意力機(jī)制后來被谷歌用于Transformer，之后更是成為了所有語言模型中的關(guān)鍵元素。

另外，ChatGPT用的是人類反饋強(qiáng)化學(xué)習(xí)（RLHF）的技術(shù)，也是由谷歌DeepMind實驗室開創(chuàng)的。

在LeCun看來，ChatGPT與其說是一個科學(xué)突破，不如說是一項成功的工程案例。

OpenAI的技術(shù)「在基礎(chǔ)科學(xué)方面并沒有什么創(chuàng)新性，它只是設(shè)計得很好而已?！?/p>

「當(dāng)然啦，我不會為此批評他們。」

我不是在批評OpenAI的工作，也不是在批評他們的主張。

我是想糾正公眾和媒體的看法，他們普遍認(rèn)為ChatGPT是一種創(chuàng)新且獨特的技術(shù)突破，然而事實并非如此。

在紐約時報記者Cade Metz的座談會上，LeCun感受到了好事者的疑問。

「你可能想問，為什么谷歌和Meta沒有類似的系統(tǒng)呢？我的回答是，如果谷歌和Meta推出這種會胡說八道的聊天機(jī)器人，損失會相當(dāng)慘重。」他笑著說。

無獨有偶，OpenAI被微軟等金主看好、身價飆升至290億美元的新聞一出，馬庫斯也連夜在博客上寫了一篇文章嘲諷。

在文中，馬庫斯爆出一句金句：你OpenAI能做啥谷歌做不到的事，值290億美元天價？

谷歌、Meta、DeepMind、OpenAI大PK！

話不多說，咱們把這幾家AI巨頭的聊天機(jī)器人都拉出來遛遛，用數(shù)據(jù)說話。

LeCun說許多公司和實驗室都有類似ChatGPT的AI聊天機(jī)器人，此言不虛。

ChatGPT并不是第一個基于語言模型的AI聊天機(jī)器人，它有很多「前輩」。

在OpenAI之前，Meta、谷歌、DeepMind等都發(fā)布了自己的聊天機(jī)器人，比如Meta的BlenderBot、谷歌的LaMDA、DeepMind的Sparrow。

還有一些團(tuán)隊，也公布了自己的開源聊天機(jī)器人計劃。比如，來自LAION的Open-Assistant。

在Huggingface的一篇博客中，幾位作者調(diào)查了關(guān)于RLHF、SFT、IFT、CoT（它們都是ChatGPT的關(guān)鍵詞）這些主題的重要論文，對它們進(jìn)行了分類和總結(jié)。

他們制成了一個表，根據(jù)公開訪問、訓(xùn)練數(shù)據(jù)、模型架構(gòu)和評估方向等細(xì)節(jié)，對BlenderBot、LaMDA、Sparrow和InstructGPT這些AI聊天機(jī)器人進(jìn)行了比較。

注意：因為ChatGPT沒有記錄，所以他們使用的是InstructGPT的細(xì)節(jié)，InstructGPT是一個來自O(shè)penAI的指令微調(diào)模型，可以被認(rèn)為是ChatGPT的基礎(chǔ)。

	LaMDA	BlenderBot 3	Sparrow	ChatGPT/ InstructGPT
組織機(jī)構(gòu)	Google	Meta	DeepMind	OpenAI
訪問權(quán)限	封閉	公開	封閉	有限
參數(shù)規(guī)模	1370億	1750億	700億	1750億
基礎(chǔ)模型	未知	OPT	Chinchilla	GPT-3.5
語料庫規(guī)模	2.81萬億	1000億	1.4萬億	未知
訪問網(wǎng)絡(luò)	??	??	??	??
監(jiān)督微調(diào)	??	??	??	??
微調(diào)數(shù)據(jù)規(guī)模	高質(zhì)量：6.4K 安全性：8K 落地性：4K IR: 49K	20個NLP數(shù)據(jù)集，范圍從18K到1.2M	未知	12.7K（ChatGPT可能更多）
RLHF	??	??	??	??
人工安全規(guī)則	?	??	?	??

不難發(fā)現(xiàn)，盡管在訓(xùn)練數(shù)據(jù)、基礎(chǔ)模型和微調(diào)方面存在許多差異，但這些聊天機(jī)器人都有一個共同點——遵循指令。

比如，你可以通過指令讓ChatGPT寫一首關(guān)于微調(diào)的詩。

可以看到，ChatGPT非常「識相」，寫詩都不忘拍一下LeCun和Hinton兩位祖師爺?shù)鸟R屁。

隨后激情洋溢地贊頌道：「微調(diào)啊，微調(diào)，你是一支美麗的舞蹈?！?/p>

從預(yù)測文本到遵循指令

通常情況下，基礎(chǔ)模型的語言建模，是不足以讓模型學(xué)會如何遵循用戶指令的。

在模型的訓(xùn)練中，研究人員除了會采用經(jīng)典的NLP任務(wù)（比如情感、文本分類、總結(jié)等），還會使用指令微調(diào)（IFT），也就是在非常多樣化的任務(wù)上通過文字指令對基礎(chǔ)模型進(jìn)行微調(diào)。

其中，這些指令示例由三個主要部分組成：指令、輸入和輸出。

輸入是可選的，有些任務(wù)只需要指令，如上面ChatGPT示例中的開放式生成。

當(dāng)一個輸入和輸出出現(xiàn)時，就形成了一個示例。對于一個給定的指令，可以有多個輸入和輸出示例。比如下面這個例子：

IFT的數(shù)據(jù)，通常是人類編寫的指令和使用語言模型引導(dǎo)的指令示例的集合。

在引導(dǎo)過程中，LM在few-shot（小樣本）的設(shè)置中被提示（如上圖），并被指示生成新的指令、輸入和輸出。

在每一輪中，模型會被提示從人工編寫和模型產(chǎn)生的樣本中選擇。

人類和模型對創(chuàng)建數(shù)據(jù)集的貢獻(xiàn)量像一個光譜一樣（見下圖）。

一端是純粹的模型生成的IFT數(shù)據(jù)集，如Unnatural Instructions，另一端是大量人工生成的指令，如Super-natural instructions。

介于這兩者之間的，是使用一套規(guī)模較小但質(zhì)量更高的種子數(shù)據(jù)集，然后進(jìn)行引導(dǎo)的工作，如Self-instruct。

為IFT整理數(shù)據(jù)集的另一種方式是，利用現(xiàn)有的關(guān)于各種任務(wù)（包括提示）的高質(zhì)量眾包NLP數(shù)據(jù)集，并使用統(tǒng)一的模式或不同的模板將這些數(shù)據(jù)集轉(zhuǎn)換成指令。

這方面的工作包括T0、自然指令數(shù)據(jù)集（Natural instructions dataset）、FLAN LM和OPT-IML。

自然指令數(shù)據(jù)集相關(guān)論文：https://arxiv.org/abs/2104.08773

對模型進(jìn)行微調(diào)

另一方面，OpenAI的InstructGPT、DeepMind的Sparrow和Anthropic的Constitutional AI都采用了基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF），也就是人類偏好的注釋。

在RLHF中，一組模型響應(yīng)根據(jù)人類反饋進(jìn)行排序（例如，選擇一個更受歡迎的文字簡介）。

接下來，研究人員在這些注釋過的響應(yīng)上訓(xùn)練一個偏好模型，為RL優(yōu)化器返回一個標(biāo)量獎勵。

最后，通過強(qiáng)化學(xué)習(xí)訓(xùn)練聊天機(jī)器人來模擬這個偏好模型。

思維鏈（CoT）提示，是指令示例的一個特例，它通過誘導(dǎo)聊天機(jī)器人逐步推理，以此來產(chǎn)生輸出。

用CoT進(jìn)行微調(diào)的模型，會使用帶有人類注釋的分步推理的指令數(shù)據(jù)集。

這就是那句著名的prompt——「let's think step by step」的起源。

下面的例子取自「Scaling Instruction-Finetuned Language Models」。其中，橙色突出了指令，粉色顯示了輸入和輸出，藍(lán)色是CoT推理。

論文指出，采用CoT微調(diào)的模型，在涉及常識、算術(shù)和符號推理的任務(wù)中表現(xiàn)得更好。

此外，CoT微調(diào)在敏感話題方面也非常有效（有時比RLHF做得更好），尤其是可以避免模型擺爛——「對不起，我無法回答」。

安全地遵循指令

正如剛才提到的，指令微調(diào)的語言模型并不能永遠(yuǎn)產(chǎn)生有用且安全的響應(yīng)。

比如，它會通過給出無用的回答來逃避，例如「對不起，我不明白」；或者對拋出敏感話題的用戶輸出不安全的響應(yīng)。

為了改善這種行為，研究人員通過監(jiān)督微調(diào)（SFT）的形式，在高質(zhì)量的人類注釋數(shù)據(jù)上對基礎(chǔ)語言模型進(jìn)行微調(diào)，從而提升模型的有用性和無害性。

SFT和IFT的聯(lián)系非常緊密。IFT可以看作是SFT的一個子集。在最近的文獻(xiàn)中，SFT階段經(jīng)常用于安全主題，而不是用于在IFT之后完成的特定指令主題。

在將來，它們的分類和描述應(yīng)該會有更清晰的用例。

另外，谷歌的LaMDA也是在一個有安全注釋的對話數(shù)據(jù)集上進(jìn)行微調(diào)的，該數(shù)據(jù)集有基于一系列規(guī)則的安全注釋。

這些規(guī)則通常由研究人員預(yù)先定義和開發(fā)，包含了一系列廣泛的主題，包括傷害、歧視、錯誤信息等。

AI聊天機(jī)器人的下一步

關(guān)于AI聊天機(jī)器人，目前仍有許多開放性問題有待探索，比如：

1. RL在從人類反饋中學(xué)習(xí)方面有多重要？我們能在IFT或SFT中通過更高質(zhì)量的數(shù)據(jù)訓(xùn)練獲得RLHF的性能嗎？

2. Sparrow中的SFT+RLHF，與LaMDA中僅僅使用SFT，兩者的安全性如何比較？

3. 鑒于我們已經(jīng)有了IFT、SFT、CoT和RLHF，那么還有多少預(yù)訓(xùn)練是必要的？有哪些權(quán)衡因素？最好的基礎(chǔ)模型是哪個（包括公開的和非公開的）？

4. 現(xiàn)在這些模型都是精心設(shè)計的，其中研究人員會專門搜索故障模式，并根據(jù)揭露的問題影響未來的訓(xùn)練（包括提示和方法）。我們?nèi)绾蜗到y(tǒng)地記錄這些方法的效果并進(jìn)行復(fù)現(xiàn)？

總結(jié)一下

1. 與訓(xùn)練數(shù)據(jù)相比，只需拿出非常小的一部分用于指令微調(diào)（幾百個數(shù)量級即可）。

2. 監(jiān)督微調(diào)利用人類注釋，可以讓模型的輸出更加安全和有用。

3. CoT微調(diào)提高了模型在逐步思考任務(wù)上的表現(xiàn)，并使模型不會總是逃避敏感問題。

參考資料：

https://huggingface.co/blog/dialog-agents

責(zé)任編輯：武曉燕來源：新智元

ChatGPT Meta OpenAI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="hmxyh"></sub>

<blockquote id="hmxyh"><i id="hmxyh"></i></blockquote>

<sub id="hmxyh"><p id="hmxyh"></p></sub>^{<blockquote id="hmxyh"></blockquote>}

<sub id="hmxyh"></sub>