自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="wzek0"><b id="wzek0"></b></pre>

<em id="wzek0"><b id="wzek0"></b></em>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

入門與 Follow GPT 的路徑分析：LLM 道阻且長，行則將至

作者：李俊毅 2023-05-12 14:36:35

本文試圖從技術(shù)角度，借助 GPT 的公開資料，解讀如何入門 GPT 以及相關(guān)大語言模型，形成自己對(duì)問題的認(rèn)知體系，加速對(duì)新知識(shí)的吸收和理解；并基于此討論 LLM 的使用，以及帶來的在產(chǎn)學(xué)研以及個(gè)人上帶來的影響；最后提出需要關(guān)注的幾個(gè)要點(diǎn)。

作為 CEO，Sam 將 OpenAI 的內(nèi)部氛圍組織的很好，有位 OpenAI 的前員工告訴拾象團(tuán)隊(duì)，當(dāng) 2018 年 GPT-2 的論文被駁回時(shí)，Sam 在團(tuán)隊(duì)周會(huì)上將拒信的內(nèi)容朗讀給所有員工，并告訴大家在通往成功的路上總會(huì)有阻礙，但是大家一定要有信念。
本文試圖從技術(shù)角度，借助 GPT 的公開資料，解讀如何入門 GPT 以及相關(guān)大語言模型，形成自己對(duì)問題的認(rèn)知體系，加速對(duì)新知識(shí)的吸收和理解； 并基于此討論 LLM 的使用，以及帶來的在產(chǎn)學(xué)研以及個(gè)人上帶來的影響；最后提出需要關(guān)注的幾個(gè)要點(diǎn)。

前言

基于當(dāng)前 GPT-4 的已公開能力，以及 OpenAI 內(nèi)部的一些消息，GPT-5 的能力會(huì)更加強(qiáng)大，但考慮到后續(xù)其他生態(tài)的配套等發(fā)展，下次發(fā)布可能會(huì)等生態(tài)的逐步完善和發(fā)展，而這個(gè)時(shí)候有可能會(huì)像 iphone4 一樣經(jīng)典。

最近這幾個(gè)月，大家都感覺各個(gè)研究機(jī)構(gòu)的人都不睡覺，你追我趕在瘋狂發(fā) paper，arxiv 這個(gè)平臺(tái)的出現(xiàn)滿足了他們的高產(chǎn)訴求。除了 paper，現(xiàn)在新的 git 項(xiàng)目，甚至新的公司都在層出不窮。奈何，他們前進(jìn)的步伐不受狙擊，所以如何才能更好更快的不被他們牽著鼻子走呢？

嗯，合理的方式，是將主要的脈絡(luò)抓清楚，對(duì)問題有自己的框架認(rèn)識(shí)。論文并非都需要讀，抓到關(guān)鍵 paper，合理利用大佬發(fā)布的博客，加速對(duì)問題的理解。在基礎(chǔ)了解之后，再閱讀最新的 paper。很快，就會(huì)發(fā)現(xiàn)，emm 大部分論文……讀起來變順暢了。

在這個(gè)基礎(chǔ)上，找到自己想要深入的點(diǎn)，再深入研究即可。

在 LLM 發(fā)展日新月異的今天，如何快速 follow，事半功倍，無論是針對(duì)技術(shù)還是非技術(shù)同學(xué)，都是一個(gè)需要思考的問題。

本文分為五個(gè)方面來切入，首先進(jìn)行基礎(chǔ)論文的分享和串講，這些是從技術(shù)上了解當(dāng)前 LLM 的基礎(chǔ)，有了他們才有可能可以快速 follow 新的知識(shí)；第二部分重點(diǎn)講復(fù)現(xiàn)和追趕，進(jìn)行這個(gè)工作重點(diǎn)需要考慮哪些方面；第三部分基于 LLM 理解它會(huì)帶來怎么樣的變革和影響；第四部分是幾個(gè)值得關(guān)注和討論的要點(diǎn)；最后一部分是 take away，總結(jié)要點(diǎn)。

本文適合讀者：想要 follow 新技術(shù)的技術(shù)/非技術(shù)從業(yè)者；想要檢驗(yàn)一個(gè)人是否在不懂裝懂……可以作為參考；作為建立對(duì) LLM 認(rèn)知體系的基礎(chǔ)，這樣每次看到新的知識(shí)是可以直接疊加進(jìn)去的。

基礎(chǔ)論文閱讀

首先我們要明白一個(gè)事情。論文，一般都是針對(duì)某幾個(gè) SOTA 問題，甚至是一個(gè) SOTA 問題的針對(duì)性討論，其中附帶了這個(gè)問題的前因后果，對(duì)其的實(shí)驗(yàn)論證和分析，以及給他人挖的坑，所以它天然就不是給初學(xué)者寫的東西啊。

在讀論文之前，先搞明白基礎(chǔ)，然后再有順序的，有根據(jù)，【有選擇】的讀論文，就不會(huì)出現(xiàn)理解上的困難。特意強(qiáng)調(diào)有選擇，是有一些論文已經(jīng)過時(shí)了，不用看了。除非要做相關(guān)問題研究，需要對(duì)比，或者了解前人做過的實(shí)驗(yàn)，否則，想學(xué)會(huì)怎么開汽車，或者學(xué)會(huì)怎么改裝汽車輪胎，確實(shí)不需要知道怎么養(yǎng)馬。

首先需要了解 LLM 的一些基礎(chǔ)知識(shí)，入門一定要從語言模型入門，這個(gè)只要是個(gè)學(xué)過數(shù)學(xué)的學(xué)生就能看懂的，而且是要了解 LLM 的基礎(chǔ)。

ChatGPT 原理介紹：

從語言模型走近 ChatGPT：https://zhuanlan.zhihu.com/p/608047052

網(wǎng)絡(luò)上有很整理的論文大集合，但這不是學(xué)習(xí)路線！https://github.com/Mooler0410/LLMsPracticalGuide

后面我將論文分為三大類，一類是與 ChatGPT 最相關(guān)的論文；一類則是與 OpenAI 有競(jìng)爭(zhēng)相關(guān)的論文；最后一類則是基于這些論文的基礎(chǔ)上，應(yīng)該關(guān)心的其他相關(guān)研究。

這里僅放最重要的與 ChatGPT 相關(guān)的論文，其他內(nèi)容放在最后的附錄中。

GPT 系列

【GPT-1】Improving Language Understanding by Generative Pre-Training.

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 2018.6

【GPT-2】Language Models are Unsupervised Multitask Learners.

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 2019.2

【GPT-3】Language Models are Few-Shot Learners.

https://arxiv.org/abs/2005.14165 2020.5

【CodeX】Evaluating Large Language Models Trained on Code.

https://arxiv.org/abs/2107.03374 2021.7

【W(wǎng)ebGPT】WebGPT: Browser-assisted question-answering with human feedback.

https://arxiv.org/abs/2112.09332 2021.11

【InstructGPT】Training language models to follow instructions with human feedback.

https://arxiv.org/pdf/2203.02155.pdf 2022.3

【ChatGPT】

blog: https://openai.com/blog/chatgpt 2022.11.30

【GPT-4】

https://arxiv.org/pdf/2303.08774.pdf 2023.3R

重要支持論文

【RLHF】Augmenting Reinforcement Learning with Human Feedback.

https://www.cs.utexas.edu/~ai-lab/pubs/ICML_IL11-knox.pdf 2011.7

【PPO】Proximal Policy Optimization Algorithms.

https://arxiv.org/abs/1707.06347 2017.7

ChatGPT 的誕生

從時(shí)間上我們看一下，在 iGPT 出現(xiàn)之前，先后嘗試了 CodeX、WebGPT 兩個(gè)工作，然后在這個(gè)基礎(chǔ)上訓(xùn)練了 iGPT 以及出圈的 cGPT。

下圖我們看到，自 2017 年 tranformer 這個(gè)特征提取器發(fā)表以來，基于它其實(shí)有三條經(jīng)典路線，GPT、T5、Bert。用直白的話講，Decoder-only的是 GPT 系列，encoder-only 的是 bert 系列，而 T5 則是原本的 en-de，是在 transformer 的基礎(chǔ)上發(fā)展來的。在這些信息的基礎(chǔ)上，我們可以看到 gpt、t5 和 bert 本身是三條不同的技術(shù)路線，自然他們?cè)谏瞄L的任務(wù)，各自的特點(diǎn)上也有所不同。

GPT：自回歸，適合做生成；由于其特點(diǎn)，為了在理解任務(wù)上達(dá)到和bert相同的效果，成本較高。
T5：en-de，理論上是結(jié)合了 GPT 和 BERT 的優(yōu)點(diǎn)，但會(huì)帶來參數(shù)的暴漲，訓(xùn)練成本很高，google 提出后并未過多發(fā)展，性價(jià)比相比 GPT 暫時(shí)未知（但我覺得潛力很大）；T5 統(tǒng)一了 NLP 任務(wù)的形式，一切都可以是 Text2Text 的形式，與 GPT 解決問題的思路是一致的。
Bert：自編碼，不適合做生成，在理解任務(wù)上 finetune 形式性價(jià)比很高。

當(dāng)前我們來核心看看 cGPT 是怎么誕生的，其他就先不管了。

GPT1 到 GPT3，CodeX、WebGPT、InstructGPT 是關(guān)鍵的幾個(gè)論文，也是我們能夠最直接了解到 OpenAI 當(dāng)前工作進(jìn)展的幾個(gè)開源工作，而 RLHF 與 PPO 則是訓(xùn)練方法相關(guān)的論文，為了達(dá)到 cGPT 的效果，這些訓(xùn)練方法起到了重要的作用。

GPT（GPT-1）：這是 GPT 系列的第一個(gè)模型，發(fā)布于 2018 年。GPT-1 擁有 1.17 億參數(shù)，其突破性之處在于引入了單向上下文建模，通過預(yù)測(cè)下一個(gè)詞來生成連貫文本。

從此時(shí)起，讓 NLP 進(jìn)入了預(yù)訓(xùn)練大語言模型+finetune 的時(shí)代。

GPT-2：發(fā)布于 2019 年，GPT-2 具有 15 億參數(shù)，相較于 GPT-1 有很大的改進(jìn)。它使用了更大的訓(xùn)練數(shù)據(jù)集，提升了模型在處理不同語言任務(wù)和生成連貫文本方面的能力。當(dāng)時(shí)，GPT-2 因其生成能力強(qiáng)大而引起關(guān)注，甚至引發(fā)了有關(guān)潛在濫用風(fēng)險(xiǎn)的討論。
開放了 API，開源了一個(gè)相對(duì)小的模型，沒有開源論文中的所有模型
論證了 zero-shot 的效果和 promising 的前景
開始了大數(shù)據(jù)，大模型的演進(jìn)之路
GPT-3：發(fā)布于 2020 年，GPT-3 是當(dāng)時(shí)最大、最強(qiáng)大的自然語言處理模型之一。它擁有 1750 億參數(shù)，對(duì)比 GPT-2 有很大的擴(kuò)展。GPT-3 在多種任務(wù)中表現(xiàn)出色，如代碼生成、文本生成、問答等，甚至可以在未經(jīng)微調(diào)的情況下完成某些任務(wù)。盡管 GPT-3 取得了顯著的進(jìn)步，但仍存在一些問題，如偶爾產(chǎn)生有害或不相關(guān)的內(nèi)容。（開始 close AI）
提出了 in-context learning，避免 fintune 會(huì)將模型的信息遺忘，導(dǎo)致能力下降。泛化性變?nèi)酢?/p>
帶領(lǐng)了 Prompt 的興起（其實(shí) GPT/bert 的時(shí)候就已經(jīng)有了初步的 prompt，當(dāng)時(shí)為了構(gòu)建一些任務(wù)或者訓(xùn)練樣本，會(huì)對(duì)數(shù)據(jù)做一些小改動(dòng)）。
CodeX：發(fā)布于 2021，基于 GPT-3 finetune 得來，專門用于提高軟件開發(fā)和編程的效率和質(zhì)量，也是 Copilot 背后的技術(shù)支持。相關(guān)研究發(fā)現(xiàn)，在大量科學(xué)文獻(xiàn) / 代碼上進(jìn)行訓(xùn)練可以顯著提高基礎(chǔ)模型的推理/編碼能力。
在給定數(shù)據(jù)集 HumanEval 上論證了 LLM 在解決代碼編寫問題上的可能性，在 repeated sampling 機(jī)制下 Codex 能解決大部分的編程問題。
引起廣泛關(guān)注和討論：CodeX 的發(fā)布引起了廣泛的關(guān)注和討論，認(rèn)為它將極大地改變軟件開發(fā)和編程的方式。但同時(shí)也引發(fā)了一些擔(dān)憂和問題。
這個(gè)工作的誕生為后續(xù) ChatGPT 強(qiáng)大的代碼能力埋下了伏筆（我理解也是堅(jiān)定了 OpenAI 的信心）。
代碼的強(qiáng)邏輯性和規(guī)范性，猜測(cè)有利于 LLM 的能力優(yōu)化。
WebGPT：同樣在 2021 年，基于 GPT-3 finetune 得來，是一次與 Bing 的強(qiáng)聯(lián)合，利用 Bing API 創(chuàng)建了一個(gè)模型和交互的搜索瀏覽環(huán)境，先利用 Bing API 進(jìn)行信息檢索，然后將檢索的結(jié)果+問題交給 LLM 進(jìn)行解答（這個(gè)過程會(huì)重復(fù)進(jìn)行，由模型決策，pre-autogpt）。
收集了用戶行為數(shù)據(jù)，用來教模型決策（嗅到了 autogpt 的味道）。
這里和后續(xù)的 cGPT 其實(shí)很像，都是對(duì)問題的回答，但用了 Bing 的檢索結(jié)果作為 LLM 的 Prompt。
這篇論文的訓(xùn)練方法中用到了基于 BC 的 SFT（這里的 BC 就是用戶行為數(shù)據(jù) Behavior cloning），基于 BC 模型訓(xùn)練了一個(gè)RM模型，從而將 RM 輸出的獎(jiǎng)勵(lì)（懲罰）使用 PPO 算法在對(duì) BC 模型進(jìn)行微調(diào)，以進(jìn)一步提高模型的學(xué)習(xí)效果。
這篇工作就是 iGPT 的前序工作，只是在 iGPT 中將對(duì)齊的內(nèi)容/目標(biāo)做了改動(dòng)，里面暴露了很多數(shù)據(jù)收集分析上的細(xì)節(jié)，同時(shí)也是LLM和搜索的一個(gè)結(jié)合的重要工作。
果然是微軟的一個(gè)研究院。
InstructGPT：較為詳細(xì)的介紹了 iGPT，大家也是認(rèn)為這個(gè)工作是 cGPT 的重點(diǎn)暴露，因?yàn)?cGPT 號(hào)稱和 iGPT 的技術(shù)點(diǎn)幾乎一模一樣。而iGPT的核心主要有三點(diǎn)：
Alignment：與用戶對(duì)齊的理念，好的技術(shù)方案設(shè)計(jì)和執(zhí)行導(dǎo)致了其良好的效果。這一點(diǎn)非常關(guān)鍵
SFT 訓(xùn)練(supervised fine-tuning)：收集prompt&Answer pair（對(duì)于 cGPT 來說，prompt&answer 的格式是 dialogue format 的），基于這些數(shù)據(jù)對(duì) LM 進(jìn)行 SFT 訓(xùn)練(supervised fine-tuning)
RLHF：

RM：獎(jiǎng)勵(lì)模型的訓(xùn)練(reward model training)。基于收集好的 prompt，讓 SFT 好的模型輸出結(jié)果，然后人工標(biāo)注好，讓 RM 學(xué)習(xí)哪些標(biāo)注好的數(shù)據(jù)是正確的
PPO：近端策略優(yōu)化模型( reinforcement learning via proximal policy optimization)：基于上面訓(xùn)練好的兩個(gè)模型，讓 SFT 對(duì) prompt 進(jìn)行輸出，然后基于 RM 給出的分?jǐn)?shù)作為模型自我迭代的依據(jù)，從而不斷優(yōu)化模型。

cGPT：理論上和 instructGPT 是并行關(guān)系，只是在數(shù)據(jù)格式上有所不同：We mixed this new dialogue dataset with the InstructGPT dataset, which we transformed into a dialogue format.

從上面的工作我們可以看到，18 年開始，確定一個(gè)技術(shù)方向，在這個(gè)過程中不斷的嘗試，不斷基于之前的工作進(jìn)行修正，探索，一步一步前進(jìn)，這個(gè)過程很有趣，最終得到了 cGPT。

技術(shù)點(diǎn)概括

我們?yōu)g覽一下以上的論文，可以總結(jié)出其取得當(dāng)前成績的關(guān)鍵點(diǎn)：

infra：需要提前建設(shè)

算力：硬件（錢和基礎(chǔ)設(shè)施支持。
工程：隨著數(shù)據(jù)上升，工程與算法的互相匹配實(shí)現(xiàn)就很重要。

數(shù)據(jù)：決定了上限：公開數(shù)據(jù)有很多，但具體如何收集，如何處理、分析應(yīng)用是關(guān)鍵。
從論文中，我們看到即便是公開數(shù)據(jù)，也花了很大的功夫去分析比如 train/test 之間的覆蓋，benchmark 對(duì)模型的評(píng)估與模型訓(xùn)練數(shù)據(jù)之間的關(guān)系等要素影響。
訓(xùn)練數(shù)據(jù)的選擇清洗很細(xì)節(jié)。
收集用戶標(biāo)注數(shù)據(jù)的時(shí)候，有很細(xì)節(jié)的設(shè)計(jì)，包括但不限于 gui，數(shù)據(jù)可靠性機(jī)制設(shè)計(jì)等。
決定了應(yīng)用效果。
算法：模型設(shè)計(jì)決定了能多逼近上限。
評(píng)估標(biāo)準(zhǔn)：（量化）評(píng)估模型性能。論文中雖然沒有提出一個(gè)評(píng)估標(biāo)準(zhǔn)，但是我們看到 OpenAI 做了大量的工作來分析模型性能，以及數(shù)據(jù)對(duì)模型性能的影響。有評(píng)估，才能知道模型當(dāng)前的進(jìn)展以及新的工作怎么發(fā)展。（參見 GLUE or CLUE）
Wrapper for 應(yīng)用：
技術(shù)應(yīng)用：Prompt-engineer；梳子模型（梳子的齒是prompts，橫著的齒根是 LLM 底座）。
業(yè)務(wù)應(yīng)用：ChatGPT 等。
商業(yè)化方式：除了產(chǎn)品使用會(huì)員制外，暫無明確路徑。
團(tuán)隊(duì)構(gòu)建：有動(dòng)力，有靈魂人物拍板，合理的商業(yè)化運(yùn)作（做事情是需要正反饋的）。

模型	介紹
GPT4	預(yù)計(jì)參數(shù)量 1-1.7w 億，支持文本和圖像，輸出文本（但是可以支持編程繪圖），在各項(xiàng)任務(wù)上表現(xiàn)更好
GPT3.5（instructGPT和chatGPT）	1750 億參數(shù)，文字輸入輸出；規(guī)范了 Alignment 這個(gè)概念，規(guī)范了訓(xùn)練流程：SFT、RLHF（RW+PPO）；基于上文，我們看到這里集合了 WebGPT 和 CodeX 的優(yōu)點(diǎn)。
GPT3	1750 億參數(shù)，文字輸入輸出。提出 in-context learning（0/few-shot）
GPT2	15 億參數(shù)，文字輸入輸出。弱化版 GPT3，也是大家摸索 GPT3 的重要參考
GPT1	1.17 億參數(shù)，文字輸入輸出，無監(jiān)督預(yù)訓(xùn)練，task oriented finetuning->下游任務(wù)上需要 finetune，沒有足夠泛化性，同時(shí) finetune 需要數(shù)據(jù)

復(fù)現(xiàn)與追趕

在當(dāng)前有一個(gè)真理可以記住，只要有人說：“論文都是公開的，技術(shù)都是現(xiàn)成的，只要有錢，給一定的時(shí)間，大家訓(xùn)練個(gè)大預(yù)言模型不是分分鐘的事情?！本鸵欢ㄊ峭庑小?/p>

ChatGPT 的工程、模型和算法細(xì)節(jié)沒有公開，數(shù)據(jù)處理細(xì)節(jié)沒有公開；當(dāng)前openAI已經(jīng)將相關(guān)技術(shù)作為商業(yè)機(jī)密進(jìn)行保留，從 GPT-3 就開始保密，至今已經(jīng)有三年。

當(dāng)前大模型調(diào)研

由于我們是想要跟進(jìn)最新的內(nèi)容，所以自然可以放棄很多過程指標(biāo)。之前講到，整體其實(shí)有兩條路線可以走，T5 和 GPT。我們以這樣的方式列出來。

對(duì)于應(yīng)用和學(xué)術(shù)，要以兩種視角來看待。應(yīng)用方，當(dāng)前一定關(guān)心的是ChatLLM，因?yàn)檫@是一個(gè)可以在淘金時(shí)代賣水以及最快測(cè)試應(yīng)用場(chǎng)景的基礎(chǔ)應(yīng)用；而技術(shù)視角，除了關(guān)心 chatLLM，還應(yīng)該關(guān)注其底層的 LLM 是什么，這才是基礎(chǔ)。

以下是截止成文的時(shí)候比較流行的工作，從開源程度，學(xué)習(xí)上手以及運(yùn)行的成本看，推薦學(xué)校出得，ChatGLM 和 Moss 或許會(huì)友好一點(diǎn)。

名稱	介紹	地址
Moss	復(fù)旦大學(xué)邱老師組發(fā)布的語言模型，支持對(duì)話，全部開源，推薦了解和學(xué)習(xí)。	https://github.com/OpenLMLab/MOSS
ChatYuan	元語智能發(fā)布，孵化于中文 NLP 開源社區(qū) CLUE。CLUE 整合大量中文資源，均由 NLP 自由開發(fā)/愛好者推動(dòng)，推薦了解。	https://github.com/clue-ai/ChatYuan
ChatGLM	清華大學(xué)發(fā)布。ChatGLM 版本多，效果好，可以在自己電腦上運(yùn)行，因此十分受歡迎。十分值得大家嘗試！中英雙語。另，推薦了解 GLM，chatGLM 的基座，yangzhilin（XLNet 作者）參與的工作https://arxiv.org/abs/2103.10360	https://github.com/THUDM/ChatGLM-6B/blob/main/README_en.md
OPT	MetaAI 發(fā)布，175B 模型，模型結(jié)構(gòu)與 GPT-3 基本一致，推薦了解，可以幫助理解 GPT-3。單語言。	https://github.com/facebookresearch/metaseq/tree/main/projects/OPT
Bloom	多語言， Bigscience 發(fā)布，與 GPT-3 基本一致，全部開源，訓(xùn)練框架使用 Megatron-DeepSpeed，效果也很好，推薦了解和試用	https://github.com/huggingface/transformers-bloom-inference
LamDA	137B 參數(shù)，google 發(fā)布。decoder-only，理論上與 ChatGPT 架構(gòu)相似。	https://github.com/conceptofmind/LaMDA-rlhf-pytorch
LLaMA	LLaMA 是著名的 MetaAI 開源的大語言預(yù)訓(xùn)練模型，也因?yàn)樗拈_源以及斯坦福發(fā)布的 Alpaca 工作，讓 LLaMA 成為最近這些天發(fā)布的模型的基礎(chǔ)（也就是說最近很多模型都是用 LLaMA 微調(diào)的）。而這個(gè)是 Decapoda Research 在 HuggingFace 上部署的。是將原始的預(yù)訓(xùn)練結(jié)果轉(zhuǎn)換成與 Transformers/HuggingFace 兼容的文件。	https://github.com/juncongmoo/pyllama
百度、阿里、訊飛等	當(dāng)前國內(nèi)的公司在不斷的發(fā)展和推進(jìn)，無論從使用上還是從底層技術(shù)上都推薦 follow。

大語言模型發(fā)展歷程：https://briefgpt.xyz/lm

如何復(fù)現(xiàn)

既然在開頭已經(jīng)吐槽過，那么我們這里直接說復(fù)現(xiàn)思路——當(dāng)一個(gè)強(qiáng)大的工程師，不需要思考，照著開源抄，就領(lǐng)先了 99% 的人。

從 GPT 已經(jīng)公開的資料來看，LM 這個(gè)模型基底結(jié)構(gòu)其實(shí)并不是最重要的，當(dāng)前我們已經(jīng)有的結(jié)構(gòu)，只要包括了 decoder，其實(shí)都可以做到文本生成，在很多細(xì)節(jié)上，也有多種優(yōu)化點(diǎn)。但當(dāng)前能讓 OpenAI 破局的，核心是如何構(gòu)建數(shù)據(jù)，如何收集數(shù)據(jù)，如何將這些數(shù)據(jù)用來做模型訓(xùn)練，才是關(guān)鍵和核心。這些是需要格外注意的。

From Scratch

從 0 開始，有兩種思路

一種是基于 GPT-2 或者 Bloom 等 GPT 系列的 LM，參考其發(fā)展路線，自行實(shí)現(xiàn)；
另一種則是基于當(dāng)前已經(jīng)摸索清楚路線，且開源的 Moss、LLama 等，依據(jù)實(shí)現(xiàn)。

聽起來比較簡單，需要重點(diǎn)解決的依然是上面提到過的一些要點(diǎn)：

數(shù)據(jù)：數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注等細(xì)節(jié)問題，包括成本與標(biāo)準(zhǔn)流程。
老師（算法細(xì)節(jié)）決定上限：當(dāng)前無開源模型解決 GPT-4，且 GPT4 并非 OpenAI 內(nèi)部最強(qiáng)的進(jìn)展。這部分的差異需要自行推導(dǎo)摸索。LLM 時(shí)代，暴力窮舉可能性，大力出奇跡來追趕 SOTA，特別算力受限，可能性不高。
工程：如何快速進(jìn)行訓(xùn)練和推理，是一個(gè)好問題。
其他：很重要，但在解決上面的問題才會(huì)出現(xiàn)的，比如安全、評(píng)估、成本優(yōu)化、效率等方面。

From a strong baseline

From scratch，講的是技術(shù)路線甚至代碼都已經(jīng) ready，但是模型是需要自己重新訓(xùn)練的，里面會(huì)有很多細(xì)節(jié)操作。

而從一個(gè)強(qiáng)有力的 baseline 開始，那么就是在一個(gè)已經(jīng)有的模型的基礎(chǔ)上進(jìn)行改良。

需要關(guān)注和解決的問題是：

同樣，上面提到的幾項(xiàng)也很關(guān)鍵，對(duì)每一項(xiàng)的理解都很重要，但對(duì)實(shí)現(xiàn)的全面性和細(xì)節(jié)都要求更低。
要往哪個(gè)方向 fine-tining。
未開源部分依然需要自行摸索。

相信的力量

最近聽一些分享/講座等，有說到想象力、愿力、心力。都差不多。本質(zhì)是需要有堅(jiān)定的信念才可以。

OpenAI 在 GPT-2 被退稿的時(shí)候依然能夠堅(jiān)持這個(gè)方向（其實(shí)GPT系列被退也沒錯(cuò)，Roberta 當(dāng)年也沒過，原因大差不差）。

有一些玄學(xué)，本質(zhì)是需要有靈魂人物來帶領(lǐng)。

評(píng)估的重要性

前面我們講到了評(píng)估，這一點(diǎn)很重要，直接決定了這些追趕和復(fù)現(xiàn)的團(tuán)隊(duì)是否有足夠明晰的目標(biāo)和標(biāo)尺來衡量自己的工作進(jìn)展，而這一點(diǎn)當(dāng)前很困難。

舉個(gè) ??

如果我們認(rèn)為高考可以反映一切，那么高考分?jǐn)?shù)高的，就應(yīng)該在一切上表現(xiàn)更好。那么我們干什么都可以直接用高考分?jǐn)?shù)來衡量了。

顯然，已知用人單位會(huì)從多個(gè)角度來考慮，高考分?jǐn)?shù)高，等于適應(yīng)環(huán)境，可以吃高考的苦，有較好的學(xué)習(xí)理解能力，在大學(xué)受到了較好的培養(yǎng)。更進(jìn)一步，會(huì)考慮到在哪個(gè)省份高考，從而更進(jìn)一步考慮其綜合能力，潛力，高考難度等……多種因素。所以說明高考分?jǐn)?shù)只能反映一部分能力。

所以當(dāng)模型僅被用于執(zhí)行單一任務(wù)的時(shí)候，我們可以出考題（benchmark）來評(píng)估其能力；
但當(dāng) LLM 成為一個(gè)綜合模型，我們想要將其應(yīng)用于多類型任務(wù)時(shí)候，就意味著需要進(jìn)行多維度考察；
而當(dāng)其成為一個(gè)對(duì)話應(yīng)用的時(shí)候，那么我們更希望可以對(duì)其進(jìn)行擬人化的考察，除了硬性能力，還希望可以 check 其是否更像人。

……所以就很麻煩。

可以參見以下報(bào)道，UCB 在引入 Elo 進(jìn)行評(píng)估，愛丁堡大學(xué)的 Fuyao 在研究從推理上評(píng)價(jià)模型能力，CLUE發(fā)布SuperCLUE進(jìn)行中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)。

https://36kr.com/p/2243109425885057
https://github.com/FranxYao/chain-of-thought-hub
https://mp.weixin.qq.com/s/6CDnyvMsEXtmsJ9CEUn2Vw

LLM帶來的影響

LLM 的出現(xiàn)，給產(chǎn)學(xué)界帶來了沖擊，此時(shí)思考它的出現(xiàn)到底帶來了什么樣的影響。由于每個(gè)人所處情況不同，我們可以從不同的視角來看待這個(gè)問題。

首先，得用，這樣才能獲取第一手感知；其次思考這個(gè)的出現(xiàn)給學(xué)術(shù)界帶來了什么；接下來考慮它會(huì)對(duì)整個(gè)產(chǎn)學(xué)界帶來什么影響；然后考慮給個(gè)人帶來的影響；最后基于這些因素，考慮基于 LLM 的公司或者產(chǎn)品會(huì)是怎么樣的。

如何使用模型

這里講如何使用模型，核心是如何按照自己的想法激活其能力，這里就需要了解 in-context learning，了解 Pormpt。

In-Context Learning 是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)概念，指不調(diào)整模型自身參數(shù)，而是在 Prompt 上下文中包含特定問題相關(guān)的信息，就可以賦予模型解決新問題能力的一種方式。這個(gè)主要是在 few/one-shot 的情況下，給定的示例。所以我認(rèn)為叫做 ICL 不夠貼切，應(yīng)該叫做 In Context Inference。

Prompt：Prompt（引導(dǎo)詞），是一段自然語言描述的文本，它作為AI模型的重要輸入來指導(dǎo)模型生成內(nèi)容。Prompt 的質(zhì)量對(duì)于模型生成效果有較大影響。（本質(zhì)上 prompt 和 instruct 是一種東西，一個(gè)概念，主要是看如何構(gòu)造 prompt）。

有了這兩個(gè)基礎(chǔ)概念之后，我們就發(fā)現(xiàn)，其核心要做的是設(shè)計(jì) Prompt 來讓LLM（包括 chatLLM）發(fā)揮出我們想要其發(fā)揮的能力。市場(chǎng)上有很多資料，同樣我們抓主要矛盾：

一條 prompt 的組成要素：

Instruction：一個(gè)特定的任務(wù)或者指令
context：示例、上下文、甚至知識(shí)（庫）
Input data：就是提問，比如搜索一些東西的時(shí)候，輸入的問題（有時(shí)候和instruction重疊）
Output Indicator：輸出格式

prompt 的編寫技巧：精準(zhǔn)，正面輸出信息，不要使用反問等手法；嘗試使用 COT-step by step。
多輪 prompt refine：這里要表達(dá)的是，基于第一次的prompt以及對(duì)應(yīng)的結(jié)果，重新設(shè)計(jì)第二輪 prompt，通過多輪 refine 來獲取更加符合預(yù)期的結(jié)果。
APE(Automatic Prompt Engineer)：自動(dòng) prompt 生成。
注意：一條 prompt 在不同的 LLM 上的表現(xiàn)是可以不同的

推薦吳恩達(dá)的課程：https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/

給學(xué)術(shù)界帶來了什么

研究方向的變化：大模型 LLM 領(lǐng)域，有哪些可以作為學(xué)術(shù)研究方向? - 知乎(https://www.zhihu.com/question/595298808/answer/2982013608)
由于當(dāng)前 LLM 對(duì)資金以及數(shù)據(jù)的訴求，大學(xué)這樣的學(xué)術(shù)場(chǎng)所未來是否依然適合作為相關(guān)研究的孵化地，要打一個(gè)問號(hào)；是否工業(yè)實(shí)驗(yàn)室更適合。
LLM 只是一個(gè)縮影，LLM 可能會(huì)應(yīng)用到很多領(lǐng)域；也可能會(huì)有很多與LLM類似的領(lǐng)域，或許未來這些都不適合在高校進(jìn)行研究。
給國內(nèi)學(xué)術(shù)界：當(dāng)新的技術(shù)爆發(fā)越來越多呈現(xiàn)在各個(gè)領(lǐng)域散點(diǎn)出現(xiàn)，如何給大眾以良好的土壤并激發(fā)他們的創(chuàng)新熱情將會(huì)是一個(gè)很值得研究的命題。

給整體的產(chǎn)學(xué)界/工業(yè)界帶來了什么

簡單來說，分為三大類影響：

從事 LLM 底層技術(shù)開發(fā)：需要快速 follow 技術(shù)，盡快建立生態(tài)，獲取生態(tài)主導(dǎo)權(quán)的 LLM 將會(huì)建立壁壘。
從事基于 LLM 的應(yīng)用開發(fā)：理解業(yè)務(wù)，理解用戶，并將這部分理解以及用戶反饋數(shù)據(jù)用于對(duì)自己應(yīng)用的優(yōu)化，形成閉環(huán)飛輪（已有模糊技術(shù)路線但尚待驗(yàn)證），這將會(huì)是自己的壁壘。
在這個(gè)環(huán)境下，“賣水賣鏟子”的市場(chǎng)會(huì)異?；钴S。

在這個(gè)三類影響下，借助陸奇分享的 ppt，用下圖來看看全面形態(tài)。左下角就是 LLM 底層技術(shù)，在他的基礎(chǔ)上無論是 ChatGPT 還是相應(yīng)的 playground 等，都屬于應(yīng)用，盡管有應(yīng)用內(nèi)應(yīng)用（比如 chatgpt-plugin），而在往上一層走，就到了 copilot 等產(chǎn)品層面。

從這圖上看，這個(gè) OpenAI 的生態(tài)當(dāng)前已經(jīng)初步形成，也就是說它的競(jìng)爭(zhēng)壁壘已經(jīng)初步建立。如果說這真的是一個(gè)操作系統(tǒng)級(jí)別的革命的話，那么未來市場(chǎng)上一定只會(huì)存在有限家公司有各自的生態(tài)，比如蘋果和安卓。

可以說，在新的時(shí)代下，公司之間競(jìng)爭(zhēng)的依然是用戶。LLM 競(jìng)爭(zhēng)開發(fā)者，應(yīng)用競(jìng)爭(zhēng)下游用戶，賣水賣鏟子的競(jìng)爭(zhēng)前兩個(gè)的淘金者。這些用戶會(huì)產(chǎn)生數(shù)據(jù)，而如何將這些數(shù)據(jù)用在模型上，是一個(gè)依然值得研究的問題。

結(jié)合 LLM 進(jìn)行的服務(wù)，當(dāng)前思路主要有兩種：

一種是以 LLM 作為 backbone，對(duì)其生產(chǎn)的結(jié)果進(jìn)行后處理以確保符合預(yù)期；
一種是當(dāng)前的主流系統(tǒng)作為 backbone，利用 LLM 做優(yōu)化（即將前者輸出作為 prompt 構(gòu)成）。

基于這樣的思路，也就能看到，將數(shù)據(jù)融合進(jìn)去的思路，要么融合到LLM中去，要么融合到確定性結(jié)果中去（知識(shí)庫）。

第二種思路，就是深度學(xué)習(xí)當(dāng)前掛靠到各個(gè)業(yè)務(wù)的方式。但若說LLM是一個(gè)操作系統(tǒng)級(jí)別的變化，那一定不會(huì)止步于此，未來會(huì)是什么樣子的呢？還需要思考。

個(gè)人從業(yè)者的影響

對(duì)于個(gè)人來說，快速了解相關(guān)技術(shù)，建立自己的認(rèn)知體系，加快對(duì)新知識(shí)的 follow 最關(guān)鍵。
在這個(gè)基礎(chǔ)上，選定自己的定位和角色，快速出擊。明顯看到生態(tài)壁壘、用戶和業(yè)務(wù)壁壘依然可行，要快速找到建立的方向并貫徹執(zhí)行。

對(duì)傳統(tǒng)的互聯(lián)網(wǎng)技術(shù)同學(xué)來說，以下是可以參考的技術(shù)棧。對(duì)于非技術(shù)同學(xué)來說，則是要好好感受和使用大模型的能力。這是一個(gè)需要技術(shù)和非技術(shù)同學(xué)一起探索新需求和應(yīng)用的時(shí)代，都需要對(duì)新的技術(shù)進(jìn)行理解和把握，才能提出有價(jià)值的應(yīng)用。

未來基于 LLM 的公司/產(chǎn)品會(huì)是什么樣子的

上圖是一個(gè)比較粗糙的示意圖。在新的浪潮下，要找到自己的公司的定位在哪里。從之前陸奇分享的 OpenAI 的生態(tài)中，我們可以看到很多東西，將其整合抽象簡化，那么在當(dāng)前的時(shí)代，我們的工作有上圖中描述的：

APP：應(yīng)用層。除了應(yīng)用外，由于 cGPT 的出現(xiàn)，那么在 UI 上會(huì)有很大變化，除了語言外，要留意語音巨大的潛力。
Inspire Ability：能力激發(fā)層。由于我們基于 Maas 進(jìn)行上層開發(fā)設(shè)計(jì)，那么如何能夠激發(fā)模型的能力，放大模型的能力（plugin），對(duì)模型能力進(jìn)行補(bǔ)充（事實(shí)性等 KB），則是這一層重點(diǎn)要做的工作。
MaaS：除了模型本身能力的優(yōu)化，訓(xùn)練/推理的速度和成本，上層開發(fā)者生態(tài)友好性等都是重點(diǎn)問題。簡單的衡量標(biāo)準(zhǔn)，就是別人是否愿意在你的 MaaS 上進(jìn)行后續(xù)開發(fā)。
DATA 層：這一層很關(guān)鍵，因?yàn)樗P(guān)系到了能力是否可以長期迭代，某種意義上也是壁壘是否可以形成的關(guān)鍵要素。

應(yīng)該關(guān)注的幾個(gè)要點(diǎn)

如何理解推理能力

重點(diǎn)參考 or 復(fù)制：

https://yaofu.notion.site/6dafe3f8d11445ca9dcf8a2ca1c5b199

本文是 fuyao 分享的關(guān)于復(fù)雜推理相關(guān)的分析，其認(rèn)為這是 GPT 這樣的 LLM 成為下一代計(jì)算平臺(tái) / 操作系統(tǒng)的關(guān)鍵能力。其中關(guān)于 Code/Math 等相關(guān)的分析特別有趣，推薦閱讀。

在科學(xué)文獻(xiàn)/代碼上進(jìn)行訓(xùn)練可能會(huì)提高推理能力，這部分的討論很有趣，也很符合直覺。

Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models

在來自 Arxiv 論文的 38.5B 的 token 上繼續(xù)訓(xùn)練 PaLM 540B。
在 MATH （一個(gè)需要使用 LaTeX 格式回答問題的困難數(shù)據(jù)集），上的得分為 33.6（GPT-4 的得分是 42.5）。

Taylor et. al. 2022. Galactica: A Large Language Model for Science
在包含論文、代碼、參考資料、知識(shí)庫和其他內(nèi)容的 106B token 上預(yù)訓(xùn)練一個(gè) 120B 語言模型。
在 MATH 上的表現(xiàn)為 20.4（Minerva 33.6，GPT-4 42.5）。
Chen et. al. 2021. Codex: Evaluating Large Language Models Trained on Code
在 159GB 代碼數(shù)據(jù)上繼續(xù)訓(xùn)練 12B GPT-3 模型，提高了 HumanEval 數(shù)據(jù)集上的代碼性能。

LLM 作為下一代操作系統(tǒng)是什么意思

首先，雖然炒的沸沸揚(yáng)揚(yáng)，如果真的類比操作系統(tǒng)，當(dāng)前新的 os 的具體形態(tài)并不清晰，承載物究竟是什么樣子，看起來在高速發(fā)展，但如果停滯不前的話（假設(shè)當(dāng)前技術(shù)發(fā)展中遇到了不可預(yù)知的難題）也很難承載操作系統(tǒng)這樣的重任。

但是我們可以看到，在當(dāng)前 LLM 遠(yuǎn)超過歷史模型能力的加持下，在當(dāng)前已經(jīng)給交互帶來事實(shí)性沖擊的基礎(chǔ)上，未來一定有大的變化。只是這個(gè)變化大概率還會(huì)有一次大的技術(shù)升級(jí)或者融合，畢竟 GPT-4 才剛發(fā)布，從這個(gè)角度看，已公開技術(shù)上還有肉眼可見的發(fā)展空間。

最后，我們將其認(rèn)定為操作系統(tǒng)，那么最后一定只有有限家，大家分別在不同領(lǐng)域各領(lǐng)風(fēng)騷。走得早和走的好都很重要。

從這一點(diǎn)上看，所謂生態(tài)先行就顯得尤為重要，誰能先把生態(tài)搭建，搶占用戶心智，自然就可以建立一種無形的壁壘。就好比安卓和蘋果，tensorflow 和 pytorch。這一點(diǎn)對(duì)于國內(nèi)的同行來說應(yīng)該是當(dāng)前最為緊急的。

學(xué)習(xí)社區(qū)的緊迫性

當(dāng)前以 fuyao 為代表的 notion 交互，國外流行的 twitter 交互加劇了當(dāng)前在專業(yè)領(lǐng)域內(nèi)的小范圍通過文本交互和討論的氛圍。
陸奇的每一次演講都在瘋狂更新資料，組建大模型日?qǐng)?bào)團(tuán)隊(duì)專門分享日?qǐng)?bào)以跟進(jìn)前沿信息
各路大佬每隔一段時(shí)間就會(huì)出來一次，每天都有新的 blog、新的論文、新的產(chǎn)品甚至公司出現(xiàn)
大家對(duì)學(xué)習(xí)社區(qū)的渴求程度，對(duì)溝通和思維碰撞的渴求越來越高；但由于個(gè)人的實(shí)際知識(shí)背景不同，導(dǎo)致同頻討論越發(fā)困難，如何能夠有同時(shí)具備以下特點(diǎn)的學(xué)習(xí)社區(qū)，是一個(gè)很好的問題：

如何建立小型、敏捷的互動(dòng)學(xué)習(xí)
大型、專業(yè)的分享社區(qū)

如何找到 MaaS 擅長的應(yīng)用

以自然語言為先來設(shè)計(jì)產(chǎn)品。在新的時(shí)代，一定有其擅長的產(chǎn)品或者領(lǐng)域。上面講到了基于 LLM 的公司/產(chǎn)品會(huì)對(duì)既有產(chǎn)品生態(tài)形成降維打擊，那么如何才能找到擅長的部分呢？陸奇在5月7日北京的分享上給出了他的認(rèn)識(shí)。

首先基于傳統(tǒng)認(rèn)識(shí)，應(yīng)用一定是技術(shù)推動(dòng)+需求拉動(dòng)發(fā)展的，且要利用好大模型的優(yōu)勢(shì)。從三個(gè)維度分析，信息、模型以及行動(dòng)。信息一定是基礎(chǔ)，而模型（知識(shí)+思考整合+輸出）影響越大的部分，大模型的優(yōu)勢(shì)就越明顯。而行動(dòng)，當(dāng)前僅在數(shù)字化系統(tǒng)內(nèi)部是 ok 的，譬如 autoGPT。
第二點(diǎn)則是應(yīng)用上的壁壘，要將對(duì)數(shù)據(jù)使用的結(jié)果能夠反饋到使用的各個(gè)環(huán)節(jié)，才能夠形成正向飛輪從而不斷迭代優(yōu)化。
能夠做到有多好，核心在于認(rèn)知能力和對(duì)工具的使用能力。

OpenAI 的發(fā)展歷史

陸奇分享了自己的一個(gè)認(rèn)識(shí)，OpenAI 有自己的思想體系，所以現(xiàn)在必須要能自己做科研，自己寫代碼，自己做平臺(tái)和商業(yè)化。

商業(yè)化

本文沒有討論商業(yè)模式，這是一個(gè)很重要的點(diǎn)，在這個(gè)時(shí)代，誰先探索出合適的商業(yè)模式，就可以形成利潤閉環(huán)，從而快速迭代自身業(yè)務(wù)。

一些思考可以參見：https://zhuanlan.zhihu.com/p/611867921

Take away

當(dāng)前 LLM 進(jìn)展迅速，首先搞清楚 LLM 是大預(yù)言模型，chatgpt 是基于 LLM 做的一個(gè)應(yīng)用導(dǎo)向的產(chǎn)品。抓住基礎(chǔ)，然后 follow sota，才能看懂聽懂
搞清楚核心競(jìng)爭(zhēng)力：

做 LLM 的：技術(shù)可以領(lǐng)先，但無法成為壁壘。但是生態(tài)可以成為壁壘，讓用戶靠你來養(yǎng)活自己。這是競(jìng)爭(zhēng)的核心要素。
做 LLM 上的應(yīng)用：需要將用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)進(jìn)行閉環(huán)，加速模型在業(yè)務(wù)上的表現(xiàn)，這個(gè)是存在壁壘的，如何可以很好的閉環(huán)，是一件值得研究的事情。
研究者：從業(yè)者和研究者。獨(dú)到的見解（有點(diǎn)虛）。換句話說應(yīng)該更加強(qiáng)調(diào)認(rèn)知能力和執(zhí)行力，對(duì)于很多知識(shí)的學(xué)習(xí)可以放下，工具性質(zhì)的使用能力需要很強(qiáng)。

由于數(shù)據(jù)的重要性，所以如何形成自己好的數(shù)據(jù)處理 framework or pipeline 是一個(gè)關(guān)鍵問題。
aiot 未來一定有大機(jī)會(huì)，當(dāng)信息獲取與理解，模型思考與決策這樣的能力都具備的時(shí)候，那么切入到實(shí)際的 action 中就顯得十分重要而合理。
當(dāng)前 ChatGPT 的出現(xiàn)，其實(shí)很像一個(gè)咨詢的角色，究竟是提升咨詢的效率還是替換咨詢的角色，是一個(gè)很好的問題。
人嘛，最重要的是開心

附錄：

論文合集

OpenAI系列

重點(diǎn)

[1]【GPT-1】Improving Language Understanding by Generative Pre-Training.

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 2018.6

[2]【GPT-2】Language Models are Unsupervised Multitask Learners.

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 2019.2

[3]【GPT-3】Language Models are Few-Shot Learners.

https://arxiv.org/abs/2005.14165 2020.5

[4]【CodeX】Evaluating Large Language Models Trained on Code
https://arxiv.org/abs/2107.03374 2021.7

[5]【W(wǎng)ebGPT】WebGPT: Browser-assisted question-answering with human feedback.

https://arxiv.org/abs/2112.09332 2021.11

[6]【InstructGPT】Training language models to follow instructions with human feedback.

https://arxiv.org/pdf/2203.02155.pdf 2022.3

[7]【ChatGPT】 blog: https://openai.com/blog/chatgpt 2022.11.30

[8]【GPT-4】https://arxiv.org/pdf/2303.08774.pdf 2023.3R

[9]【RLHF】Augmenting Reinforcement Learning with Human Feedback.

https://www.cs.utexas.edu/~ai-lab/pubs/ICML_IL11-knox.pdf 2011.7

[10]【PPO】Proximal Policy Optimization Algorithms.

https://arxiv.org/abs/1707.06347 2017.7

其他可關(guān)注論文

[1] Fine-tuning language models from human preferences.

pdf(https://arxiv.org/abs/1909.08593)

code(https://github.com/openai/lm-human-preferences) 2019.9

[2] Learning to summarize from human feedback.

pdf(https://arxiv.org/abs/2009.01325)

code(https://github.com/openai/summarize-from-feedback) 2020.9

[3] Text and Code Embeddings by Contrastive Pre-Training

pdf(https://arxiv.org/abs/2201.10005) 2022.1

[4] Efficient Training of Language Models to Fill in the Middle

pdf(https://arxiv.org/abs/2207.14255) 2022.7

[5] Training Verifiers to Solve Math Word Problems

pdf(https://arxiv.org/abs/2110.14168) 2021.10

[6] Recursively Summarizing Books with Human Feedback

pdf(https://arxiv.org/abs/2109.10862) 2021.9

[7] Generating Long Sequences with Sparse Transformers

pdf(https://arxiv.org/abs/1904.10509) 2019.4

可關(guān)注工作

[1] GPT-3: Its Nature, Scope, Limits, and Consequences

https://link.springer.com/article/10.1007/s11023-020-09548-1?trk=public_post_comment-text

[2] Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models

https://arxiv.org/abs/2102.02503 2021.2

[3] Generative Language Modeling for Automated Theorem Proving

https://arxiv.org/abs/2009.03393 2020.9

[4] Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets

https://cdn.openai.com/palms.pdf 2022.6

[5] Scaling Laws for Neural Language Models

https://arxiv.org/abs/2001.08361 2020.1

[6] ChatGPT is not all you need. A State of the Art Review of large Generative AI models

https://arxiv.org/abs/2301.04655 【說你行很麻煩，不行卻很容易】

[7] In context learning survey

pdf https://arxiv.org/abs/2301.00234 2022.11

[8] Reasoning with Language Model Prompting- A Survey

https://arxiv.org/abs/2212.09597

竟對(duì)模型：介紹了其他流行的語言模型，如 BERT、XLNet、RoBERTa、ELECTRA、Sparrow等

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(https://arxiv.org/pdf/1810.04805.pdf)

【LaMda】 LaMDA: Language Models for Dialog Applications.
pdf(https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2201.08239) 2022.1
【Sparrow】 Improving alignment of dialogue agents via targeted human judgements. pdf(https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2209.14375) 2022.9
【T5】Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer https://arxiv.org/pdf/1910.10683.pdf
DeepSpeed-Chat. Blog(https://github.com/microsoft/DeepSpeedExamples/tree/master/applications/DeepSpeed-Chat)
GPT4All. Repo(https://github.com/nomic-ai/gpt4all)
OpenAssitant. Repo(https://github.com/LAION-AI/Open-Assistant)
ChatGLM. Repo(https://github.com/THUDM/ChatGLM-6B)
MOSS. Repo(https://github.com/OpenLMLab/MOSS)
Lamini. Repo(https://github.com/lamini-ai/lamini/) Blog (https://lamini.ai/blog/introducing-lamini)
Finetuned language models are zero-shot learners pdf(https://arxiv.org/abs/2109.01652) 2021.9
Scaling Instruction-Finetuned Language Models. pdf(https://arxiv.org/abs/2210.11416) 2022.10
XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa: A Robustly Optimized BERT Pretraining Approach
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
Longformer: The Long-Document Transformer
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
Reformer: The Efficient Transformer
Attention Is All You Need(https://arxiv.org/abs/1706.03762.pdf)：Transformer (Google AI blog post)(https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)
Music Transformer: Generating music with long-term structure(https://arxiv.org/pdf/1809.04281.pdf)
https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(https://arxiv.org/abs/2201.11903)
PaLM: Scaling Language Modeling with Pathways
OPT: Open Pre-trained Transformer Language Models
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
LaMDA "LaMDA: Language Models for Dialog Applications" . 2021. Paper(https://arxiv.org/abs/2201.08239)
LLaMA "LLaMA: Open and Efficient Foundation Language Models" . 2023. Paper(https://arxiv.org/abs/2302.13971v1)
GPT-4 "GPT-4 Technical Report" . 2023. Paper(http://arxiv.org/abs/2303.08774v2)
BloombergGPT BloombergGPT: A Large Language Model for Finance, 2023, Paper(https://arxiv.org/abs/2303.17564)
GPT-NeoX-20B: "GPT-NeoX-20B: An Open-Source Autoregressive Language Model" . 2022. Paper(https://arxiv.org/abs/2204.06745)

責(zé)任編輯：龐桂玉來源：字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<thead id="v30mt"></thead>

<abbr id="v30mt"><menu id="v30mt"></menu></abbr>