入門與 Follow GPT 的路徑分析:LLM 道阻且長,行則將至
作為 CEO,Sam 將 OpenAI 的內(nèi)部氛圍組織的很好,有位 OpenAI 的前員工告訴拾象團(tuán)隊(duì),當(dāng) 2018 年 GPT-2 的論文被駁回時(shí),Sam 在團(tuán)隊(duì)周會(huì)上將拒信的內(nèi)容朗讀給所有員工,并告訴大家在通往成功的路上總會(huì)有阻礙,但是大家一定要有信念。
本文試圖從技術(shù)角度,借助 GPT 的公開資料,解讀如何入門 GPT 以及相關(guān)大語言模型,形成自己對(duì)問題的認(rèn)知體系,加速對(duì)新知識(shí)的吸收和理解; 并基于此討論 LLM 的使用,以及帶來的在產(chǎn)學(xué)研以及個(gè)人上帶來的影響;最后提出需要關(guān)注的幾個(gè)要點(diǎn)。
前言
基于當(dāng)前 GPT-4 的已公開能力,以及 OpenAI 內(nèi)部的一些消息,GPT-5 的能力會(huì)更加強(qiáng)大,但考慮到后續(xù)其他生態(tài)的配套等發(fā)展,下次發(fā)布可能會(huì)等生態(tài)的逐步完善和發(fā)展,而這個(gè)時(shí)候有可能會(huì)像 iphone4 一樣經(jīng)典。
最近這幾個(gè)月,大家都感覺各個(gè)研究機(jī)構(gòu)的人都不睡覺,你追我趕在瘋狂發(fā) paper,arxiv 這個(gè)平臺(tái)的出現(xiàn)滿足了他們的高產(chǎn)訴求。除了 paper,現(xiàn)在新的 git 項(xiàng)目,甚至新的公司都在層出不窮。奈何,他們前進(jìn)的步伐不受狙擊,所以如何才能更好更快的不被他們牽著鼻子走呢?
嗯,合理的方式,是將主要的脈絡(luò)抓清楚,對(duì)問題有自己的框架認(rèn)識(shí)。論文并非都需要讀,抓到關(guān)鍵 paper,合理利用大佬發(fā)布的博客,加速對(duì)問題的理解。在基礎(chǔ)了解之后,再閱讀最新的 paper。很快,就會(huì)發(fā)現(xiàn),emm 大部分論文……讀起來變順暢了。
在這個(gè)基礎(chǔ)上,找到自己想要深入的點(diǎn),再深入研究即可。
在 LLM 發(fā)展日新月異的今天,如何快速 follow,事半功倍,無論是針對(duì)技術(shù)還是非技術(shù)同學(xué),都是一個(gè)需要思考的問題。
本文分為五個(gè)方面來切入,首先進(jìn)行基礎(chǔ)論文的分享和串講,這些是從技術(shù)上了解當(dāng)前 LLM 的基礎(chǔ),有了他們才有可能可以快速 follow 新的知識(shí);第二部分重點(diǎn)講復(fù)現(xiàn)和追趕,進(jìn)行這個(gè)工作重點(diǎn)需要考慮哪些方面;第三部分基于 LLM 理解它會(huì)帶來怎么樣的變革和影響;第四部分是幾個(gè)值得關(guān)注和討論的要點(diǎn);最后一部分是 take away,總結(jié)要點(diǎn)。
本文適合讀者:想要 follow 新技術(shù)的技術(shù)/非技術(shù)從業(yè)者;想要檢驗(yàn)一個(gè)人是否在不懂裝懂……可以作為參考;作為建立對(duì) LLM 認(rèn)知體系的基礎(chǔ),這樣每次看到新的知識(shí)是可以直接疊加進(jìn)去的。
基礎(chǔ)論文閱讀
首先我們要明白一個(gè)事情。論文,一般都是針對(duì)某幾個(gè) SOTA 問題,甚至是一個(gè) SOTA 問題的針對(duì)性討論,其中附帶了這個(gè)問題的前因后果,對(duì)其的實(shí)驗(yàn)論證和分析,以及給他人挖的坑,所以它天然就不是給初學(xué)者寫的東西啊。
在讀論文之前,先搞明白基礎(chǔ),然后再有順序的,有根據(jù),【有選擇】的讀論文,就不會(huì)出現(xiàn)理解上的困難。特意強(qiáng)調(diào)有選擇,是有一些論文已經(jīng)過時(shí)了,不用看了。除非要做相關(guān)問題研究,需要對(duì)比,或者了解前人做過的實(shí)驗(yàn),否則,想學(xué)會(huì)怎么開汽車,或者學(xué)會(huì)怎么改裝汽車輪胎,確實(shí)不需要知道怎么養(yǎng)馬。
首先需要了解 LLM 的一些基礎(chǔ)知識(shí),入門一定要從語言模型入門,這個(gè)只要是個(gè)學(xué)過數(shù)學(xué)的學(xué)生就能看懂的,而且是要了解 LLM 的基礎(chǔ)。
ChatGPT 原理介紹:
從語言模型走近 ChatGPT:https://zhuanlan.zhihu.com/p/608047052
網(wǎng)絡(luò)上有很整理的論文大集合,但這不是學(xué)習(xí)路線!https://github.com/Mooler0410/LLMsPracticalGuide
后面我將論文分為三大類,一類是與 ChatGPT 最相關(guān)的論文;一類則是與 OpenAI 有競(jìng)爭(zhēng)相關(guān)的論文;最后一類則是基于這些論文的基礎(chǔ)上,應(yīng)該關(guān)心的其他相關(guān)研究。
這里僅放最重要的與 ChatGPT 相關(guān)的論文,其他內(nèi)容放在最后的附錄中。
- GPT 系列
【GPT-1】Improving Language Understanding by Generative Pre-Training.
https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 2018.6
【GPT-2】Language Models are Unsupervised Multitask Learners.
【GPT-3】Language Models are Few-Shot Learners.
https://arxiv.org/abs/2005.14165 2020.5
【CodeX】Evaluating Large Language Models Trained on Code.
https://arxiv.org/abs/2107.03374 2021.7
【W(wǎng)ebGPT】WebGPT: Browser-assisted question-answering with human feedback.
https://arxiv.org/abs/2112.09332 2021.11
【InstructGPT】Training language models to follow instructions with human feedback.
https://arxiv.org/pdf/2203.02155.pdf 2022.3
【ChatGPT】
blog: https://openai.com/blog/chatgpt 2022.11.30
【GPT-4】
https://arxiv.org/pdf/2303.08774.pdf 2023.3R
- 重要支持論文
【RLHF】Augmenting Reinforcement Learning with Human Feedback.
https://www.cs.utexas.edu/~ai-lab/pubs/ICML_IL11-knox.pdf 2011.7
【PPO】Proximal Policy Optimization Algorithms.
https://arxiv.org/abs/1707.06347 2017.7
ChatGPT 的誕生
從時(shí)間上我們看一下,在 iGPT 出現(xiàn)之前,先后嘗試了 CodeX、WebGPT 兩個(gè)工作,然后在這個(gè)基礎(chǔ)上訓(xùn)練了 iGPT 以及出圈的 cGPT。
下圖我們看到,自 2017 年 tranformer 這個(gè)特征提取器發(fā)表以來,基于它其實(shí)有三條經(jīng)典路線,GPT、T5、Bert。用直白的話講,Decoder-only的是 GPT 系列,encoder-only 的是 bert 系列,而 T5 則是原本的 en-de,是在 transformer 的基礎(chǔ)上發(fā)展來的。在這些信息的基礎(chǔ)上,我們可以看到 gpt、t5 和 bert 本身是三條不同的技術(shù)路線,自然他們?cè)谏瞄L的任務(wù),各自的特點(diǎn)上也有所不同。
- GPT:自回歸,適合做生成;由于其特點(diǎn),為了在理解任務(wù)上達(dá)到和bert相同的效果,成本較高。
- T5:en-de,理論上是結(jié)合了 GPT 和 BERT 的優(yōu)點(diǎn),但會(huì)帶來參數(shù)的暴漲,訓(xùn)練成本很高,google 提出后并未過多發(fā)展,性價(jià)比相比 GPT 暫時(shí)未知(但我覺得潛力很大);T5 統(tǒng)一了 NLP 任務(wù)的形式,一切都可以是 Text2Text 的形式,與 GPT 解決問題的思路是一致的。
- Bert:自編碼,不適合做生成,在理解任務(wù)上 finetune 形式性價(jià)比很高。
當(dāng)前我們來核心看看 cGPT 是怎么誕生的,其他就先不管了。
GPT1 到 GPT3,CodeX、WebGPT、InstructGPT 是關(guān)鍵的幾個(gè)論文,也是我們能夠最直接了解到 OpenAI 當(dāng)前工作進(jìn)展的幾個(gè)開源工作,而 RLHF 與 PPO 則是訓(xùn)練方法相關(guān)的論文,為了達(dá)到 cGPT 的效果,這些訓(xùn)練方法起到了重要的作用。
- GPT(GPT-1):這是 GPT 系列的第一個(gè)模型,發(fā)布于 2018 年。GPT-1 擁有 1.17 億參數(shù),其突破性之處在于引入了單向上下文建模,通過預(yù)測(cè)下一個(gè)詞來生成連貫文本。
- 從此時(shí)起,讓 NLP 進(jìn)入了預(yù)訓(xùn)練大語言模型+finetune 的時(shí)代。
- GPT-2:發(fā)布于 2019 年,GPT-2 具有 15 億參數(shù),相較于 GPT-1 有很大的改進(jìn)。它使用了更大的訓(xùn)練數(shù)據(jù)集,提升了模型在處理不同語言任務(wù)和生成連貫文本方面的能力。當(dāng)時(shí),GPT-2 因其生成能力強(qiáng)大而引起關(guān)注,甚至引發(fā)了有關(guān)潛在濫用風(fēng)險(xiǎn)的討論。
開放了 API,開源了一個(gè)相對(duì)小的模型,沒有開源論文中的所有模型
論證了 zero-shot 的效果和 promising 的前景
開始了大數(shù)據(jù),大模型的演進(jìn)之路
GPT-3:發(fā)布于 2020 年,GPT-3 是當(dāng)時(shí)最大、最強(qiáng)大的自然語言處理模型之一。它擁有 1750 億參數(shù),對(duì)比 GPT-2 有很大的擴(kuò)展。GPT-3 在多種任務(wù)中表現(xiàn)出色,如代碼生成、文本生成、問答等,甚至可以在未經(jīng)微調(diào)的情況下完成某些任務(wù)。盡管 GPT-3 取得了顯著的進(jìn)步,但仍存在一些問題,如偶爾產(chǎn)生有害或不相關(guān)的內(nèi)容。(開始 close AI)
提出了 in-context learning,避免 fintune 會(huì)將模型的信息遺忘,導(dǎo)致能力下降。泛化性變?nèi)酢?/p>
帶領(lǐng)了 Prompt 的興起(其實(shí) GPT/bert 的時(shí)候就已經(jīng)有了初步的 prompt,當(dāng)時(shí)為了構(gòu)建一些任務(wù)或者訓(xùn)練樣本,會(huì)對(duì)數(shù)據(jù)做一些小改動(dòng))。
CodeX:發(fā)布于 2021,基于 GPT-3 finetune 得來,專門用于提高軟件開發(fā)和編程的效率和質(zhì)量,也是 Copilot 背后的技術(shù)支持。相關(guān)研究發(fā)現(xiàn),在大量科學(xué)文獻(xiàn) / 代碼上進(jìn)行訓(xùn)練可以顯著提高基礎(chǔ)模型的推理/編碼能力。
在給定數(shù)據(jù)集 HumanEval 上論證了 LLM 在解決代碼編寫問題上的可能性,在 repeated sampling 機(jī)制下 Codex 能解決大部分的編程問題。
引起廣泛關(guān)注和討論:CodeX 的發(fā)布引起了廣泛的關(guān)注和討論,認(rèn)為它將極大地改變軟件開發(fā)和編程的方式。但同時(shí)也引發(fā)了一些擔(dān)憂和問題。
這個(gè)工作的誕生為后續(xù) ChatGPT 強(qiáng)大的代碼能力埋下了伏筆(我理解也是堅(jiān)定了 OpenAI 的信心)。
代碼的強(qiáng)邏輯性和規(guī)范性,猜測(cè)有利于 LLM 的能力優(yōu)化。
WebGPT:同樣在 2021 年,基于 GPT-3 finetune 得來,是一次與 Bing 的強(qiáng)聯(lián)合,利用 Bing API 創(chuàng)建了一個(gè)模型和交互的搜索瀏覽環(huán)境,先利用 Bing API 進(jìn)行信息檢索,然后將檢索的結(jié)果+問題交給 LLM 進(jìn)行解答(這個(gè)過程會(huì)重復(fù)進(jìn)行,由模型決策,pre-autogpt)。
收集了用戶行為數(shù)據(jù),用來教模型決策(嗅到了 autogpt 的味道)。
這里和后續(xù)的 cGPT 其實(shí)很像,都是對(duì)問題的回答,但用了 Bing 的檢索結(jié)果作為 LLM 的 Prompt。
這篇論文的訓(xùn)練方法中用到了基于 BC 的 SFT(這里的 BC 就是用戶行為數(shù)據(jù) Behavior cloning),基于 BC 模型訓(xùn)練了一個(gè)RM模型,從而將 RM 輸出的獎(jiǎng)勵(lì)(懲罰)使用 PPO 算法在對(duì) BC 模型進(jìn)行微調(diào),以進(jìn)一步提高模型的學(xué)習(xí)效果。
這篇工作就是 iGPT 的前序工作,只是在 iGPT 中將對(duì)齊的內(nèi)容/目標(biāo)做了改動(dòng),里面暴露了很多數(shù)據(jù)收集分析上的細(xì)節(jié),同時(shí)也是LLM和搜索的一個(gè)結(jié)合的重要工作。
果然是微軟的一個(gè)研究院。
InstructGPT:較為詳細(xì)的介紹了 iGPT,大家也是認(rèn)為這個(gè)工作是 cGPT 的重點(diǎn)暴露,因?yàn)?cGPT 號(hào)稱和 iGPT 的技術(shù)點(diǎn)幾乎一模一樣。而iGPT的核心主要有三點(diǎn):
Alignment:與用戶對(duì)齊的理念,好的技術(shù)方案設(shè)計(jì)和執(zhí)行導(dǎo)致了其良好的效果。這一點(diǎn)非常關(guān)鍵
SFT 訓(xùn)練(supervised fine-tuning):收集prompt&Answer pair(對(duì)于 cGPT 來說,prompt&answer 的格式是 dialogue format 的),基于這些數(shù)據(jù)對(duì) LM 進(jìn)行 SFT 訓(xùn)練(supervised fine-tuning)
RLHF:
RM:獎(jiǎng)勵(lì)模型的訓(xùn)練(reward model training)。基于收集好的 prompt,讓 SFT 好的模型輸出結(jié)果,然后人工標(biāo)注好,讓 RM 學(xué)習(xí)哪些標(biāo)注好的數(shù)據(jù)是正確的
PPO:近端策略優(yōu)化模型( reinforcement learning via proximal policy optimization):基于上面訓(xùn)練好的兩個(gè)模型,讓 SFT 對(duì) prompt 進(jìn)行輸出,然后基于 RM 給出的分?jǐn)?shù)作為模型自我迭代的依據(jù),從而不斷優(yōu)化模型。
cGPT:理論上和 instructGPT 是并行關(guān)系,只是在數(shù)據(jù)格式上有所不同:We mixed this new dialogue dataset with the InstructGPT dataset, which we transformed into a dialogue format.
從上面的工作我們可以看到,18 年開始,確定一個(gè)技術(shù)方向,在這個(gè)過程中不斷的嘗試,不斷基于之前的工作進(jìn)行修正,探索,一步一步前進(jìn),這個(gè)過程很有趣,最終得到了 cGPT。
技術(shù)點(diǎn)概括
我們?yōu)g覽一下以上的論文,可以總結(jié)出其取得當(dāng)前成績的關(guān)鍵點(diǎn):
- infra:需要提前建設(shè)
- 算力:硬件(錢和基礎(chǔ)設(shè)施支持。
- 工程:隨著數(shù)據(jù)上升,工程與算法的互相匹配實(shí)現(xiàn)就很重要。
- 數(shù)據(jù):決定了上限:公開數(shù)據(jù)有很多,但具體如何收集,如何處理、分析應(yīng)用是關(guān)鍵。
從論文中,我們看到即便是公開數(shù)據(jù),也花了很大的功夫去分析比如 train/test 之間的覆蓋,benchmark 對(duì)模型的評(píng)估與模型訓(xùn)練數(shù)據(jù)之間的關(guān)系等要素影響。
訓(xùn)練數(shù)據(jù)的選擇清洗很細(xì)節(jié)。
收集用戶標(biāo)注數(shù)據(jù)的時(shí)候,有很細(xì)節(jié)的設(shè)計(jì),包括但不限于 gui,數(shù)據(jù)可靠性機(jī)制設(shè)計(jì)等。
決定了應(yīng)用效果。
算法:模型設(shè)計(jì)決定了能多逼近上限。
評(píng)估標(biāo)準(zhǔn):(量化)評(píng)估模型性能。論文中雖然沒有提出一個(gè)評(píng)估標(biāo)準(zhǔn),但是我們看到 OpenAI 做了大量的工作來分析模型性能,以及數(shù)據(jù)對(duì)模型性能的影響。有評(píng)估,才能知道模型當(dāng)前的進(jìn)展以及新的工作怎么發(fā)展。(參見 GLUE or CLUE)
Wrapper for 應(yīng)用:
技術(shù)應(yīng)用:Prompt-engineer;梳子模型(梳子的齒是prompts,橫著的齒根是 LLM 底座)。
業(yè)務(wù)應(yīng)用:ChatGPT 等。
商業(yè)化方式:除了產(chǎn)品使用會(huì)員制外,暫無明確路徑。
團(tuán)隊(duì)構(gòu)建:有動(dòng)力,有靈魂人物拍板,合理的商業(yè)化運(yùn)作(做事情是需要正反饋的)。
模型 | 介紹 |
GPT4 | 預(yù)計(jì)參數(shù)量 1-1.7w 億,支持文本和圖像,輸出文本(但是可以支持編程繪圖),在各項(xiàng)任務(wù)上表現(xiàn)更好 |
GPT3.5(instructGPT和chatGPT) | 1750 億參數(shù),文字輸入輸出;規(guī)范了 Alignment 這個(gè)概念,規(guī)范了訓(xùn)練流程:SFT、RLHF(RW+PPO);基于上文,我們看到這里集合了 WebGPT 和 CodeX 的優(yōu)點(diǎn)。 |
GPT3 | 1750 億參數(shù),文字輸入輸出。提出 in-context learning(0/few-shot) |
GPT2 | 15 億參數(shù),文字輸入輸出。弱化版 GPT3,也是大家摸索 GPT3 的重要參考 |
GPT1 | 1.17 億參數(shù),文字輸入輸出,無監(jiān)督預(yù)訓(xùn)練,task oriented finetuning->下游任務(wù)上需要 finetune,沒有足夠泛化性,同時(shí) finetune 需要數(shù)據(jù) |
復(fù)現(xiàn)與追趕
在當(dāng)前有一個(gè)真理可以記住,只要有人說:“論文都是公開的,技術(shù)都是現(xiàn)成的,只要有錢,給一定的時(shí)間,大家訓(xùn)練個(gè)大預(yù)言模型不是分分鐘的事情?!本鸵欢ㄊ峭庑小?/p>
ChatGPT 的工程、模型和算法細(xì)節(jié)沒有公開,數(shù)據(jù)處理細(xì)節(jié)沒有公開;當(dāng)前openAI已經(jīng)將相關(guān)技術(shù)作為商業(yè)機(jī)密進(jìn)行保留,從 GPT-3 就開始保密,至今已經(jīng)有三年。
當(dāng)前大模型調(diào)研
由于我們是想要跟進(jìn)最新的內(nèi)容,所以自然可以放棄很多過程指標(biāo)。之前講到,整體其實(shí)有兩條路線可以走,T5 和 GPT。我們以這樣的方式列出來。
對(duì)于應(yīng)用和學(xué)術(shù),要以兩種視角來看待。應(yīng)用方,當(dāng)前一定關(guān)心的是ChatLLM,因?yàn)檫@是一個(gè)可以在淘金時(shí)代賣水以及最快測(cè)試應(yīng)用場(chǎng)景的基礎(chǔ)應(yīng)用;而技術(shù)視角,除了關(guān)心 chatLLM,還應(yīng)該關(guān)注其底層的 LLM 是什么,這才是基礎(chǔ)。
以下是截止成文的時(shí)候比較流行的工作,從開源程度,學(xué)習(xí)上手以及運(yùn)行的成本看,推薦學(xué)校出得,ChatGLM 和 Moss 或許會(huì)友好一點(diǎn)。
名稱 | 介紹 | 地址 |
Moss | 復(fù)旦大學(xué)邱老師組發(fā)布的語言模型,支持對(duì)話,全部開源,推薦了解和學(xué)習(xí)。 | |
ChatYuan | 元語智能發(fā)布,孵化于中文 NLP 開源社區(qū) CLUE。CLUE 整合大量中文資源,均由 NLP 自由開發(fā)/愛好者推動(dòng),推薦了解。 | |
ChatGLM | 清華大學(xué)發(fā)布。ChatGLM 版本多,效果好,可以在自己電腦上運(yùn)行,因此十分受歡迎。十分值得大家嘗試!中英雙語。另,推薦了解 GLM,chatGLM 的基座,yangzhilin(XLNet 作者)參與的工作https://arxiv.org/abs/2103.10360 | |
OPT | MetaAI 發(fā)布,175B 模型,模型結(jié)構(gòu)與 GPT-3 基本一致,推薦了解,可以幫助理解 GPT-3。單語言。 | https://github.com/facebookresearch/metaseq/tree/main/projects/OPT |
Bloom | 多語言, Bigscience 發(fā)布,與 GPT-3 基本一致,全部開源,訓(xùn)練框架使用 Megatron-DeepSpeed,效果也很好,推薦了解和試用 | |
LamDA | 137B 參數(shù),google 發(fā)布。decoder-only,理論上與 ChatGPT 架構(gòu)相似。 | |
LLaMA | LLaMA 是著名的 MetaAI 開源的大語言預(yù)訓(xùn)練模型,也因?yàn)樗拈_源以及斯坦福發(fā)布的 Alpaca 工作,讓 LLaMA 成為最近這些天發(fā)布的模型的基礎(chǔ)(也就是說最近很多模型都是用 LLaMA 微調(diào)的)。而這個(gè)是 Decapoda Research 在 HuggingFace 上部署的。是將原始的預(yù)訓(xùn)練結(jié)果轉(zhuǎn)換成與 Transformers/HuggingFace 兼容的文件。 | |
百度、阿里、訊飛等 | 當(dāng)前國內(nèi)的公司在不斷的發(fā)展和推進(jìn),無論從使用上還是從底層技術(shù)上都推薦 follow。 |
大語言模型發(fā)展歷程:https://briefgpt.xyz/lm
如何復(fù)現(xiàn)
既然在開頭已經(jīng)吐槽過,那么我們這里直接說復(fù)現(xiàn)思路——當(dāng)一個(gè)強(qiáng)大的工程師,不需要思考,照著開源抄,就領(lǐng)先了 99% 的人。
從 GPT 已經(jīng)公開的資料來看,LM 這個(gè)模型基底結(jié)構(gòu)其實(shí)并不是最重要的,當(dāng)前我們已經(jīng)有的結(jié)構(gòu),只要包括了 decoder,其實(shí)都可以做到文本生成,在很多細(xì)節(jié)上,也有多種優(yōu)化點(diǎn)。但當(dāng)前能讓 OpenAI 破局的,核心是如何構(gòu)建數(shù)據(jù),如何收集數(shù)據(jù),如何將這些數(shù)據(jù)用來做模型訓(xùn)練,才是關(guān)鍵和核心。這些是需要格外注意的。
From Scratch
從 0 開始,有兩種思路
- 一種是基于 GPT-2 或者 Bloom 等 GPT 系列的 LM,參考其發(fā)展路線,自行實(shí)現(xiàn);
- 另一種則是基于當(dāng)前已經(jīng)摸索清楚路線,且開源的 Moss、LLama 等,依據(jù)實(shí)現(xiàn)。
聽起來比較簡單,需要重點(diǎn)解決的依然是上面提到過的一些要點(diǎn):
- 數(shù)據(jù):數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注等細(xì)節(jié)問題,包括成本與標(biāo)準(zhǔn)流程。
- 老師(算法細(xì)節(jié))決定上限:當(dāng)前無開源模型解決 GPT-4,且 GPT4 并非 OpenAI 內(nèi)部最強(qiáng)的進(jìn)展。這部分的差異需要自行推導(dǎo)摸索。LLM 時(shí)代,暴力窮舉可能性,大力出奇跡來追趕 SOTA,特別算力受限,可能性不高。
- 工程:如何快速進(jìn)行訓(xùn)練和推理,是一個(gè)好問題。
- 其他:很重要,但在解決上面的問題才會(huì)出現(xiàn)的,比如安全、評(píng)估、成本優(yōu)化、效率等方面。
From a strong baseline
From scratch,講的是技術(shù)路線甚至代碼都已經(jīng) ready,但是模型是需要自己重新訓(xùn)練的,里面會(huì)有很多細(xì)節(jié)操作。
而從一個(gè)強(qiáng)有力的 baseline 開始,那么就是在一個(gè)已經(jīng)有的模型的基礎(chǔ)上進(jìn)行改良。
需要關(guān)注和解決的問題是:
- 同樣,上面提到的幾項(xiàng)也很關(guān)鍵,對(duì)每一項(xiàng)的理解都很重要,但對(duì)實(shí)現(xiàn)的全面性和細(xì)節(jié)都要求更低。
- 要往哪個(gè)方向 fine-tining。
- 未開源部分依然需要自行摸索。
相信的力量
最近聽一些分享/講座等,有說到想象力、愿力、心力。都差不多。本質(zhì)是需要有堅(jiān)定的信念才可以。
OpenAI 在 GPT-2 被退稿的時(shí)候依然能夠堅(jiān)持這個(gè)方向(其實(shí)GPT系列被退也沒錯(cuò),Roberta 當(dāng)年也沒過,原因大差不差)。
有一些玄學(xué),本質(zhì)是需要有靈魂人物來帶領(lǐng)。
評(píng)估的重要性
前面我們講到了評(píng)估,這一點(diǎn)很重要,直接決定了這些追趕和復(fù)現(xiàn)的團(tuán)隊(duì)是否有足夠明晰的目標(biāo)和標(biāo)尺來衡量自己的工作進(jìn)展,而這一點(diǎn)當(dāng)前很困難。
舉個(gè) ??
如果我們認(rèn)為高考可以反映一切,那么高考分?jǐn)?shù)高的,就應(yīng)該在一切上表現(xiàn)更好。那么我們干什么都可以直接用高考分?jǐn)?shù)來衡量了。
顯然,已知用人單位會(huì)從多個(gè)角度來考慮,高考分?jǐn)?shù)高,等于適應(yīng)環(huán)境,可以吃高考的苦,有較好的學(xué)習(xí)理解能力,在大學(xué)受到了較好的培養(yǎng)。更進(jìn)一步,會(huì)考慮到在哪個(gè)省份高考,從而更進(jìn)一步考慮其綜合能力,潛力,高考難度等……多種因素。所以說明高考分?jǐn)?shù)只能反映一部分能力。
- 所以當(dāng)模型僅被用于執(zhí)行單一任務(wù)的時(shí)候,我們可以出考題(benchmark)來評(píng)估其能力;
- 但當(dāng) LLM 成為一個(gè)綜合模型,我們想要將其應(yīng)用于多類型任務(wù)時(shí)候,就意味著需要進(jìn)行多維度考察;
- 而當(dāng)其成為一個(gè)對(duì)話應(yīng)用的時(shí)候,那么我們更希望可以對(duì)其進(jìn)行擬人化的考察,除了硬性能力,還希望可以 check 其是否更像人。
……所以就很麻煩。
可以參見以下報(bào)道,UCB 在引入 Elo 進(jìn)行評(píng)估,愛丁堡大學(xué)的 Fuyao 在研究從推理上評(píng)價(jià)模型能力,CLUE發(fā)布SuperCLUE進(jìn)行中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)。
- https://36kr.com/p/2243109425885057
- https://github.com/FranxYao/chain-of-thought-hub
- https://mp.weixin.qq.com/s/6CDnyvMsEXtmsJ9CEUn2Vw
LLM帶來的影響
LLM 的出現(xiàn),給產(chǎn)學(xué)界帶來了沖擊,此時(shí)思考它的出現(xiàn)到底帶來了什么樣的影響。由于每個(gè)人所處情況不同,我們可以從不同的視角來看待這個(gè)問題。
首先,得用,這樣才能獲取第一手感知;其次思考這個(gè)的出現(xiàn)給學(xué)術(shù)界帶來了什么;接下來考慮它會(huì)對(duì)整個(gè)產(chǎn)學(xué)界帶來什么影響;然后考慮給個(gè)人帶來的影響;最后基于這些因素,考慮基于 LLM 的公司或者產(chǎn)品會(huì)是怎么樣的。
如何使用模型
這里講如何使用模型,核心是如何按照自己的想法激活其能力,這里就需要了解 in-context learning,了解 Pormpt。
In-Context Learning 是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)概念,指不調(diào)整模型自身參數(shù),而是在 Prompt 上下文中包含特定問題相關(guān)的信息,就可以賦予模型解決新問題能力的一種方式。這個(gè)主要是在 few/one-shot 的情況下,給定的示例。所以我認(rèn)為叫做 ICL 不夠貼切,應(yīng)該叫做 In Context Inference。
Prompt:Prompt(引導(dǎo)詞),是一段自然語言描述的文本,它作為AI模型的重要輸入來指導(dǎo)模型生成內(nèi)容。Prompt 的質(zhì)量對(duì)于模型生成效果有較大影響。(本質(zhì)上 prompt 和 instruct 是一種東西,一個(gè)概念,主要是看如何構(gòu)造 prompt)。
有了這兩個(gè)基礎(chǔ)概念之后,我們就發(fā)現(xiàn),其核心要做的是設(shè)計(jì) Prompt 來讓LLM(包括 chatLLM)發(fā)揮出我們想要其發(fā)揮的能力。市場(chǎng)上有很多資料,同樣我們抓主要矛盾:
- 一條 prompt 的組成要素:
- Instruction:一個(gè)特定的任務(wù)或者指令
- context:示例、上下文、甚至知識(shí)(庫)
- Input data:就是提問,比如搜索一些東西的時(shí)候,輸入的問題(有時(shí)候和instruction重疊)
- Output Indicator:輸出格式
- prompt 的編寫技巧:精準(zhǔn),正面輸出信息,不要使用反問等手法;嘗試使用 COT-step by step。
- 多輪 prompt refine:這里要表達(dá)的是,基于第一次的prompt以及對(duì)應(yīng)的結(jié)果,重新設(shè)計(jì)第二輪 prompt,通過多輪 refine 來獲取更加符合預(yù)期的結(jié)果。
- APE(Automatic Prompt Engineer):自動(dòng) prompt 生成。
- 注意:一條 prompt 在不同的 LLM 上的表現(xiàn)是可以不同的
推薦吳恩達(dá)的課程:https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/
給學(xué)術(shù)界帶來了什么
- 研究方向的變化:大模型 LLM 領(lǐng)域,有哪些可以作為學(xué)術(shù)研究方向? - 知乎(https://www.zhihu.com/question/595298808/answer/2982013608)
- 由于當(dāng)前 LLM 對(duì)資金以及數(shù)據(jù)的訴求,大學(xué)這樣的學(xué)術(shù)場(chǎng)所未來是否依然適合作為相關(guān)研究的孵化地,要打一個(gè)問號(hào);是否工業(yè)實(shí)驗(yàn)室更適合。
- LLM 只是一個(gè)縮影,LLM 可能會(huì)應(yīng)用到很多領(lǐng)域;也可能會(huì)有很多與LLM類似的領(lǐng)域,或許未來這些都不適合在高校進(jìn)行研究。
- 給國內(nèi)學(xué)術(shù)界:當(dāng)新的技術(shù)爆發(fā)越來越多呈現(xiàn)在各個(gè)領(lǐng)域散點(diǎn)出現(xiàn),如何給大眾以良好的土壤并激發(fā)他們的創(chuàng)新熱情將會(huì)是一個(gè)很值得研究的命題。
給整體的產(chǎn)學(xué)界/工業(yè)界帶來了什么
簡單來說,分為三大類影響:
- 從事 LLM 底層技術(shù)開發(fā):需要快速 follow 技術(shù),盡快建立生態(tài),獲取生態(tài)主導(dǎo)權(quán)的 LLM 將會(huì)建立壁壘。
- 從事基于 LLM 的應(yīng)用開發(fā):理解業(yè)務(wù),理解用戶,并將這部分理解以及用戶反饋數(shù)據(jù)用于對(duì)自己應(yīng)用的優(yōu)化,形成閉環(huán)飛輪(已有模糊技術(shù)路線但尚待驗(yàn)證),這將會(huì)是自己的壁壘。
- 在這個(gè)環(huán)境下,“賣水賣鏟子”的市場(chǎng)會(huì)異?;钴S。
在這個(gè)三類影響下,借助陸奇分享的 ppt,用下圖來看看全面形態(tài)。左下角就是 LLM 底層技術(shù),在他的基礎(chǔ)上無論是 ChatGPT 還是相應(yīng)的 playground 等,都屬于應(yīng)用,盡管有應(yīng)用內(nèi)應(yīng)用(比如 chatgpt-plugin),而在往上一層走,就到了 copilot 等產(chǎn)品層面。
從這圖上看,這個(gè) OpenAI 的生態(tài)當(dāng)前已經(jīng)初步形成,也就是說它的競(jìng)爭(zhēng)壁壘已經(jīng)初步建立。如果說這真的是一個(gè)操作系統(tǒng)級(jí)別的革命的話,那么未來市場(chǎng)上一定只會(huì)存在有限家公司有各自的生態(tài),比如蘋果和安卓。
可以說,在新的時(shí)代下,公司之間競(jìng)爭(zhēng)的依然是用戶。LLM 競(jìng)爭(zhēng)開發(fā)者,應(yīng)用競(jìng)爭(zhēng)下游用戶,賣水賣鏟子的競(jìng)爭(zhēng)前兩個(gè)的淘金者。這些用戶會(huì)產(chǎn)生數(shù)據(jù),而如何將這些數(shù)據(jù)用在模型上,是一個(gè)依然值得研究的問題。
結(jié)合 LLM 進(jìn)行的服務(wù),當(dāng)前思路主要有兩種:
- 一種是以 LLM 作為 backbone,對(duì)其生產(chǎn)的結(jié)果進(jìn)行后處理以確保符合預(yù)期;
- 一種是當(dāng)前的主流系統(tǒng)作為 backbone,利用 LLM 做優(yōu)化(即將前者輸出作為 prompt 構(gòu)成)。
基于這樣的思路,也就能看到,將數(shù)據(jù)融合進(jìn)去的思路,要么融合到LLM中去,要么融合到確定性結(jié)果中去(知識(shí)庫)。
第二種思路,就是深度學(xué)習(xí)當(dāng)前掛靠到各個(gè)業(yè)務(wù)的方式。但若說LLM是一個(gè)操作系統(tǒng)級(jí)別的變化,那一定不會(huì)止步于此,未來會(huì)是什么樣子的呢?還需要思考。
個(gè)人從業(yè)者的影響
- 對(duì)于個(gè)人來說,快速了解相關(guān)技術(shù),建立自己的認(rèn)知體系,加快對(duì)新知識(shí)的 follow 最關(guān)鍵。
- 在這個(gè)基礎(chǔ)上,選定自己的定位和角色,快速出擊。明顯看到生態(tài)壁壘、用戶和業(yè)務(wù)壁壘依然可行,要快速找到建立的方向并貫徹執(zhí)行。
對(duì)傳統(tǒng)的互聯(lián)網(wǎng)技術(shù)同學(xué)來說,以下是可以參考的技術(shù)棧。對(duì)于非技術(shù)同學(xué)來說,則是要好好感受和使用大模型的能力。這是一個(gè)需要技術(shù)和非技術(shù)同學(xué)一起探索新需求和應(yīng)用的時(shí)代,都需要對(duì)新的技術(shù)進(jìn)行理解和把握,才能提出有價(jià)值的應(yīng)用。
未來基于 LLM 的公司/產(chǎn)品會(huì)是什么樣子的
上圖是一個(gè)比較粗糙的示意圖。在新的浪潮下,要找到自己的公司的定位在哪里。從之前陸奇分享的 OpenAI 的生態(tài)中,我們可以看到很多東西,將其整合抽象簡化,那么在當(dāng)前的時(shí)代,我們的工作有上圖中描述的:
- APP:應(yīng)用層。除了應(yīng)用外,由于 cGPT 的出現(xiàn),那么在 UI 上會(huì)有很大變化,除了語言外,要留意語音巨大的潛力。
- Inspire Ability:能力激發(fā)層。由于我們基于 Maas 進(jìn)行上層開發(fā)設(shè)計(jì),那么如何能夠激發(fā)模型的能力,放大模型的能力(plugin),對(duì)模型能力進(jìn)行補(bǔ)充(事實(shí)性等 KB),則是這一層重點(diǎn)要做的工作。
- MaaS:除了模型本身能力的優(yōu)化,訓(xùn)練/推理的速度和成本,上層開發(fā)者生態(tài)友好性等都是重點(diǎn)問題。簡單的衡量標(biāo)準(zhǔn),就是別人是否愿意在你的 MaaS 上進(jìn)行后續(xù)開發(fā)。
- DATA 層:這一層很關(guān)鍵,因?yàn)樗P(guān)系到了能力是否可以長期迭代,某種意義上也是壁壘是否可以形成的關(guān)鍵要素。
應(yīng)該關(guān)注的幾個(gè)要點(diǎn)
如何理解推理能力
重點(diǎn)參考 or 復(fù)制:
https://yaofu.notion.site/6dafe3f8d11445ca9dcf8a2ca1c5b199
本文是 fuyao 分享的關(guān)于復(fù)雜推理相關(guān)的分析,其認(rèn)為這是 GPT 這樣的 LLM 成為下一代計(jì)算平臺(tái) / 操作系統(tǒng)的關(guān)鍵能力。其中關(guān)于 Code/Math 等相關(guān)的分析特別有趣,推薦閱讀。
在科學(xué)文獻(xiàn)/代碼上進(jìn)行訓(xùn)練可能會(huì)提高推理能力,這部分的討論很有趣,也很符合直覺。
- Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models
- 在來自 Arxiv 論文的 38.5B 的 token 上繼續(xù)訓(xùn)練 PaLM 540B。
- 在 MATH (一個(gè)需要使用 LaTeX 格式回答問題的困難數(shù)據(jù)集),上的得分為 33.6(GPT-4 的得分是 42.5)。
- Taylor et. al. 2022. Galactica: A Large Language Model for Science
在包含論文、代碼、參考資料、知識(shí)庫和其他內(nèi)容的 106B token 上預(yù)訓(xùn)練一個(gè) 120B 語言模型。
在 MATH 上的表現(xiàn)為 20.4(Minerva 33.6,GPT-4 42.5)。
Chen et. al. 2021. Codex: Evaluating Large Language Models Trained on Code
在 159GB 代碼數(shù)據(jù)上繼續(xù)訓(xùn)練 12B GPT-3 模型,提高了 HumanEval 數(shù)據(jù)集上的代碼性能。
LLM 作為下一代操作系統(tǒng)是什么意思
首先,雖然炒的沸沸揚(yáng)揚(yáng),如果真的類比操作系統(tǒng),當(dāng)前新的 os 的具體形態(tài)并不清晰,承載物究竟是什么樣子,看起來在高速發(fā)展,但如果停滯不前的話(假設(shè)當(dāng)前技術(shù)發(fā)展中遇到了不可預(yù)知的難題)也很難承載操作系統(tǒng)這樣的重任。
但是我們可以看到,在當(dāng)前 LLM 遠(yuǎn)超過歷史模型能力的加持下,在當(dāng)前已經(jīng)給交互帶來事實(shí)性沖擊的基礎(chǔ)上,未來一定有大的變化。只是這個(gè)變化大概率還會(huì)有一次大的技術(shù)升級(jí)或者融合,畢竟 GPT-4 才剛發(fā)布,從這個(gè)角度看,已公開技術(shù)上還有肉眼可見的發(fā)展空間。
最后,我們將其認(rèn)定為操作系統(tǒng),那么最后一定只有有限家,大家分別在不同領(lǐng)域各領(lǐng)風(fēng)騷。走得早和走的好都很重要。
從這一點(diǎn)上看,所謂生態(tài)先行就顯得尤為重要,誰能先把生態(tài)搭建,搶占用戶心智,自然就可以建立一種無形的壁壘。就好比安卓和蘋果,tensorflow 和 pytorch。這一點(diǎn)對(duì)于國內(nèi)的同行來說應(yīng)該是當(dāng)前最為緊急的。
學(xué)習(xí)社區(qū)的緊迫性
- 當(dāng)前以 fuyao 為代表的 notion 交互,國外流行的 twitter 交互加劇了當(dāng)前在專業(yè)領(lǐng)域內(nèi)的小范圍通過文本交互和討論的氛圍。
- 陸奇的每一次演講都在瘋狂更新資料,組建大模型日?qǐng)?bào)團(tuán)隊(duì)專門分享日?qǐng)?bào)以跟進(jìn)前沿信息
- 各路大佬每隔一段時(shí)間就會(huì)出來一次,每天都有新的 blog、新的論文、新的產(chǎn)品甚至公司出現(xiàn)
- 大家對(duì)學(xué)習(xí)社區(qū)的渴求程度,對(duì)溝通和思維碰撞的渴求越來越高;但由于個(gè)人的實(shí)際知識(shí)背景不同,導(dǎo)致同頻討論越發(fā)困難,如何能夠有同時(shí)具備以下特點(diǎn)的學(xué)習(xí)社區(qū),是一個(gè)很好的問題:
- 如何建立小型、敏捷的互動(dòng)學(xué)習(xí)
- 大型、專業(yè)的分享社區(qū)
如何找到 MaaS 擅長的應(yīng)用
以自然語言為先來設(shè)計(jì)產(chǎn)品。在新的時(shí)代,一定有其擅長的產(chǎn)品或者領(lǐng)域。上面講到了基于 LLM 的公司/產(chǎn)品會(huì)對(duì)既有產(chǎn)品生態(tài)形成降維打擊,那么如何才能找到擅長的部分呢?陸奇在5月7日北京的分享上給出了他的認(rèn)識(shí)。
- 首先基于傳統(tǒng)認(rèn)識(shí),應(yīng)用一定是技術(shù)推動(dòng)+需求拉動(dòng)發(fā)展的,且要利用好大模型的優(yōu)勢(shì)。從三個(gè)維度分析,信息、模型以及行動(dòng)。信息一定是基礎(chǔ),而模型(知識(shí)+思考整合+輸出)影響越大的部分,大模型的優(yōu)勢(shì)就越明顯。而行動(dòng),當(dāng)前僅在數(shù)字化系統(tǒng)內(nèi)部是 ok 的,譬如 autoGPT。
- 第二點(diǎn)則是應(yīng)用上的壁壘,要將對(duì)數(shù)據(jù)使用的結(jié)果能夠反饋到使用的各個(gè)環(huán)節(jié),才能夠形成正向飛輪從而不斷迭代優(yōu)化。
- 能夠做到有多好,核心在于認(rèn)知能力和對(duì)工具的使用能力。
OpenAI 的發(fā)展歷史
陸奇分享了自己的一個(gè)認(rèn)識(shí),OpenAI 有自己的思想體系,所以現(xiàn)在必須要能自己做科研,自己寫代碼,自己做平臺(tái)和商業(yè)化。
商業(yè)化
本文沒有討論商業(yè)模式,這是一個(gè)很重要的點(diǎn),在這個(gè)時(shí)代,誰先探索出合適的商業(yè)模式,就可以形成利潤閉環(huán),從而快速迭代自身業(yè)務(wù)。
一些思考可以參見:https://zhuanlan.zhihu.com/p/611867921
Take away
- 當(dāng)前 LLM 進(jìn)展迅速,首先搞清楚 LLM 是大預(yù)言模型,chatgpt 是基于 LLM 做的一個(gè)應(yīng)用導(dǎo)向的產(chǎn)品。抓住基礎(chǔ),然后 follow sota,才能看懂聽懂
- 搞清楚核心競(jìng)爭(zhēng)力:
- 做 LLM 的:技術(shù)可以領(lǐng)先,但無法成為壁壘。但是生態(tài)可以成為壁壘,讓用戶靠你來養(yǎng)活自己。這是競(jìng)爭(zhēng)的核心要素。
- 做 LLM 上的應(yīng)用:需要將用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)進(jìn)行閉環(huán),加速模型在業(yè)務(wù)上的表現(xiàn),這個(gè)是存在壁壘的,如何可以很好的閉環(huán),是一件值得研究的事情。
- 研究者:從業(yè)者和研究者。獨(dú)到的見解(有點(diǎn)虛)。換句話說應(yīng)該更加強(qiáng)調(diào)認(rèn)知能力和執(zhí)行力,對(duì)于很多知識(shí)的學(xué)習(xí)可以放下,工具性質(zhì)的使用能力需要很強(qiáng)。
- 由于數(shù)據(jù)的重要性,所以如何形成自己好的數(shù)據(jù)處理 framework or pipeline 是一個(gè)關(guān)鍵問題。
- aiot 未來一定有大機(jī)會(huì),當(dāng)信息獲取與理解,模型思考與決策這樣的能力都具備的時(shí)候,那么切入到實(shí)際的 action 中就顯得十分重要而合理。
- 當(dāng)前 ChatGPT 的出現(xiàn),其實(shí)很像一個(gè)咨詢的角色,究竟是提升咨詢的效率還是替換咨詢的角色,是一個(gè)很好的問題。
- 人嘛,最重要的是開心
附錄:
論文合集
OpenAI系列
重點(diǎn)
[1]【GPT-1】Improving Language Understanding by Generative Pre-Training.
https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 2018.6
[2]【GPT-2】Language Models are Unsupervised Multitask Learners.
https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 2019.2
[3]【GPT-3】Language Models are Few-Shot Learners.
https://arxiv.org/abs/2005.14165 2020.5
[4]【CodeX】Evaluating Large Language Models Trained on Code
https://arxiv.org/abs/2107.03374 2021.7
[5]【W(wǎng)ebGPT】WebGPT: Browser-assisted question-answering with human feedback.
https://arxiv.org/abs/2112.09332 2021.11
[6]【InstructGPT】Training language models to follow instructions with human feedback.
https://arxiv.org/pdf/2203.02155.pdf 2022.3
[7]【ChatGPT】 blog: https://openai.com/blog/chatgpt 2022.11.30
[8]【GPT-4】https://arxiv.org/pdf/2303.08774.pdf 2023.3R
[9]【RLHF】Augmenting Reinforcement Learning with Human Feedback.
https://www.cs.utexas.edu/~ai-lab/pubs/ICML_IL11-knox.pdf 2011.7
[10]【PPO】Proximal Policy Optimization Algorithms.
https://arxiv.org/abs/1707.06347 2017.7
其他可關(guān)注論文
[1] Fine-tuning language models from human preferences.
pdf(https://arxiv.org/abs/1909.08593)
code(https://github.com/openai/lm-human-preferences) 2019.9
[2] Learning to summarize from human feedback.
pdf(https://arxiv.org/abs/2009.01325)
code(https://github.com/openai/summarize-from-feedback) 2020.9
[3] Text and Code Embeddings by Contrastive Pre-Training
pdf(https://arxiv.org/abs/2201.10005) 2022.1
[4] Efficient Training of Language Models to Fill in the Middle
pdf(https://arxiv.org/abs/2207.14255) 2022.7
[5] Training Verifiers to Solve Math Word Problems
pdf(https://arxiv.org/abs/2110.14168) 2021.10
[6] Recursively Summarizing Books with Human Feedback
pdf(https://arxiv.org/abs/2109.10862) 2021.9
[7] Generating Long Sequences with Sparse Transformers
pdf(https://arxiv.org/abs/1904.10509) 2019.4
可關(guān)注工作
[1] GPT-3: Its Nature, Scope, Limits, and Consequences
https://link.springer.com/article/10.1007/s11023-020-09548-1?trk=public_post_comment-text
[2] Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models
https://arxiv.org/abs/2102.02503 2021.2
[3] Generative Language Modeling for Automated Theorem Proving
https://arxiv.org/abs/2009.03393 2020.9
[4] Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets
https://cdn.openai.com/palms.pdf 2022.6
[5] Scaling Laws for Neural Language Models
https://arxiv.org/abs/2001.08361 2020.1
[6] ChatGPT is not all you need. A State of the Art Review of large Generative AI models
https://arxiv.org/abs/2301.04655 【說你行很麻煩,不行卻很容易】
[7] In context learning survey
pdf https://arxiv.org/abs/2301.00234 2022.11
[8] Reasoning with Language Model Prompting- A Survey
https://arxiv.org/abs/2212.09597
竟對(duì)模型:介紹了其他流行的語言模型,如 BERT、XLNet、RoBERTa、ELECTRA、Sparrow等
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(https://arxiv.org/pdf/1810.04805.pdf)
- 【LaMda】 LaMDA: Language Models for Dialog Applications.
pdf(https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2201.08239) 2022.1 - 【Sparrow】 Improving alignment of dialogue agents via targeted human judgements. pdf(https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2209.14375) 2022.9
- 【T5】Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer https://arxiv.org/pdf/1910.10683.pdf
- DeepSpeed-Chat. Blog(https://github.com/microsoft/DeepSpeedExamples/tree/master/applications/DeepSpeed-Chat)
- GPT4All. Repo(https://github.com/nomic-ai/gpt4all)
- OpenAssitant. Repo(https://github.com/LAION-AI/Open-Assistant)
- ChatGLM. Repo(https://github.com/THUDM/ChatGLM-6B)
- MOSS. Repo(https://github.com/OpenLMLab/MOSS)
- Lamini. Repo(https://github.com/lamini-ai/lamini/) Blog (https://lamini.ai/blog/introducing-lamini)
- Finetuned language models are zero-shot learners pdf(https://arxiv.org/abs/2109.01652) 2021.9
- Scaling Instruction-Finetuned Language Models. pdf(https://arxiv.org/abs/2210.11416) 2022.10
- XLNet: Generalized Autoregressive Pretraining for Language Understanding
- RoBERTa: A Robustly Optimized BERT Pretraining Approach
- ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
- Longformer: The Long-Document Transformer
- ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
- Reformer: The Efficient Transformer
- Attention Is All You Need(https://arxiv.org/abs/1706.03762.pdf):Transformer (Google AI blog post)(https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)
- Music Transformer: Generating music with long-term structure(https://arxiv.org/pdf/1809.04281.pdf)
- https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(https://arxiv.org/abs/2201.11903)
- PaLM: Scaling Language Modeling with Pathways
- OPT: Open Pre-trained Transformer Language Models
- BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
- The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
- LaMDA "LaMDA: Language Models for Dialog Applications" . 2021. Paper(https://arxiv.org/abs/2201.08239)
- LLaMA "LLaMA: Open and Efficient Foundation Language Models" . 2023. Paper(https://arxiv.org/abs/2302.13971v1)
- GPT-4 "GPT-4 Technical Report" . 2023. Paper(http://arxiv.org/abs/2303.08774v2)
- BloombergGPT BloombergGPT: A Large Language Model for Finance, 2023, Paper(https://arxiv.org/abs/2303.17564)
- GPT-NeoX-20B: "GPT-NeoX-20B: An Open-Source Autoregressive Language Model" . 2022. Paper(https://arxiv.org/abs/2204.06745)