自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

入門與 Follow GPT 的路徑分析:LLM 道阻且長,行則將至

人工智能
本文試圖從技術(shù)角度,借助 GPT 的公開資料,解讀如何入門 GPT 以及相關(guān)大語言模型,形成自己對(duì)問題的認(rèn)知體系,加速對(duì)新知識(shí)的吸收和理解; 并基于此討論 LLM 的使用,以及帶來的在產(chǎn)學(xué)研以及個(gè)人上帶來的影響;最后提出需要關(guān)注的幾個(gè)要點(diǎn)。

作為 CEO,Sam 將 OpenAI 的內(nèi)部氛圍組織的很好,有位 OpenAI 的前員工告訴拾象團(tuán)隊(duì),當(dāng) 2018 年 GPT-2 的論文被駁回時(shí),Sam 在團(tuán)隊(duì)周會(huì)上將拒信的內(nèi)容朗讀給所有員工,并告訴大家在通往成功的路上總會(huì)有阻礙,但是大家一定要有信念。

本文試圖從技術(shù)角度,借助 GPT 的公開資料,解讀如何入門 GPT 以及相關(guān)大語言模型,形成自己對(duì)問題的認(rèn)知體系,加速對(duì)新知識(shí)的吸收和理解; 并基于此討論 LLM 的使用,以及帶來的在產(chǎn)學(xué)研以及個(gè)人上帶來的影響;最后提出需要關(guān)注的幾個(gè)要點(diǎn)。

前言

基于當(dāng)前 GPT-4 的已公開能力,以及 OpenAI 內(nèi)部的一些消息,GPT-5 的能力會(huì)更加強(qiáng)大,但考慮到后續(xù)其他生態(tài)的配套等發(fā)展,下次發(fā)布可能會(huì)等生態(tài)的逐步完善和發(fā)展,而這個(gè)時(shí)候有可能會(huì)像 iphone4 一樣經(jīng)典。

最近這幾個(gè)月,大家都感覺各個(gè)研究機(jī)構(gòu)的人都不睡覺,你追我趕在瘋狂發(fā) paper,arxiv 這個(gè)平臺(tái)的出現(xiàn)滿足了他們的高產(chǎn)訴求。除了 paper,現(xiàn)在新的 git 項(xiàng)目,甚至新的公司都在層出不窮。奈何,他們前進(jìn)的步伐不受狙擊,所以如何才能更好更快的不被他們牽著鼻子走呢?

嗯,合理的方式,是將主要的脈絡(luò)抓清楚,對(duì)問題有自己的框架認(rèn)識(shí)。論文并非都需要讀,抓到關(guān)鍵 paper,合理利用大佬發(fā)布的博客,加速對(duì)問題的理解。在基礎(chǔ)了解之后,再閱讀最新的 paper。很快,就會(huì)發(fā)現(xiàn),emm 大部分論文……讀起來變順暢了。

在這個(gè)基礎(chǔ)上,找到自己想要深入的點(diǎn),再深入研究即可。

在 LLM 發(fā)展日新月異的今天,如何快速 follow,事半功倍,無論是針對(duì)技術(shù)還是非技術(shù)同學(xué),都是一個(gè)需要思考的問題。

本文分為五個(gè)方面來切入,首先進(jìn)行基礎(chǔ)論文的分享和串講,這些是從技術(shù)上了解當(dāng)前 LLM 的基礎(chǔ),有了他們才有可能可以快速 follow 新的知識(shí);第二部分重點(diǎn)講復(fù)現(xiàn)和追趕,進(jìn)行這個(gè)工作重點(diǎn)需要考慮哪些方面;第三部分基于 LLM 理解它會(huì)帶來怎么樣的變革和影響;第四部分是幾個(gè)值得關(guān)注和討論的要點(diǎn);最后一部分是 take away,總結(jié)要點(diǎn)。

本文適合讀者:想要 follow 新技術(shù)的技術(shù)/非技術(shù)從業(yè)者;想要檢驗(yàn)一個(gè)人是否在不懂裝懂……可以作為參考;作為建立對(duì) LLM 認(rèn)知體系的基礎(chǔ),這樣每次看到新的知識(shí)是可以直接疊加進(jìn)去的。

基礎(chǔ)論文閱讀

首先我們要明白一個(gè)事情。論文,一般都是針對(duì)某幾個(gè) SOTA 問題,甚至是一個(gè) SOTA 問題的針對(duì)性討論,其中附帶了這個(gè)問題的前因后果,對(duì)其的實(shí)驗(yàn)論證和分析,以及給他人挖的坑,所以它天然就不是給初學(xué)者寫的東西啊。

在讀論文之前,先搞明白基礎(chǔ),然后再有順序的,有根據(jù),【有選擇】的讀論文,就不會(huì)出現(xiàn)理解上的困難。特意強(qiáng)調(diào)有選擇,是有一些論文已經(jīng)過時(shí)了,不用看了。除非要做相關(guān)問題研究,需要對(duì)比,或者了解前人做過的實(shí)驗(yàn),否則,想學(xué)會(huì)怎么開汽車,或者學(xué)會(huì)怎么改裝汽車輪胎,確實(shí)不需要知道怎么養(yǎng)馬。

首先需要了解 LLM 的一些基礎(chǔ)知識(shí),入門一定要從語言模型入門,這個(gè)只要是個(gè)學(xué)過數(shù)學(xué)的學(xué)生就能看懂的,而且是要了解 LLM 的基礎(chǔ)。

ChatGPT 原理介紹:

從語言模型走近 ChatGPT:https://zhuanlan.zhihu.com/p/608047052

圖片

網(wǎng)絡(luò)上有很整理的論文大集合,但這不是學(xué)習(xí)路線!https://github.com/Mooler0410/LLMsPracticalGuide

后面我將論文分為三大類,一類是與 ChatGPT 最相關(guān)的論文;一類則是與 OpenAI 有競(jìng)爭(zhēng)相關(guān)的論文;最后一類則是基于這些論文的基礎(chǔ)上,應(yīng)該關(guān)心的其他相關(guān)研究。

這里僅放最重要的與 ChatGPT 相關(guān)的論文,其他內(nèi)容放在最后的附錄中。

  1. GPT 系列

【GPT-1】Improving Language Understanding by Generative Pre-Training. 

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 2018.6

【GPT-2】Language Models are Unsupervised Multitask Learners.

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 2019.2

【GPT-3】Language Models are Few-Shot Learners. 

https://arxiv.org/abs/2005.14165 2020.5

【CodeX】Evaluating Large Language Models Trained on Code.

https://arxiv.org/abs/2107.03374 2021.7

【W(wǎng)ebGPT】WebGPT: Browser-assisted question-answering with human feedback. 

https://arxiv.org/abs/2112.09332 2021.11

【InstructGPT】Training language models to follow instructions with human feedback.

https://arxiv.org/pdf/2203.02155.pdf 2022.3

【ChatGPT】 

blog: https://openai.com/blog/chatgpt 2022.11.30

【GPT-4】

https://arxiv.org/pdf/2303.08774.pdf 2023.3R

  1. 重要支持論文

【RLHF】Augmenting Reinforcement Learning with Human Feedback. 

https://www.cs.utexas.edu/~ai-lab/pubs/ICML_IL11-knox.pdf 2011.7 

【PPO】Proximal Policy Optimization Algorithms.

https://arxiv.org/abs/1707.06347 2017.7

ChatGPT 的誕生

從時(shí)間上我們看一下,在 iGPT 出現(xiàn)之前,先后嘗試了 CodeX、WebGPT 兩個(gè)工作,然后在這個(gè)基礎(chǔ)上訓(xùn)練了 iGPT 以及出圈的 cGPT。

下圖我們看到,自 2017 年 tranformer 這個(gè)特征提取器發(fā)表以來,基于它其實(shí)有三條經(jīng)典路線,GPT、T5、Bert。用直白的話講,Decoder-only的是 GPT 系列,encoder-only 的是 bert 系列,而 T5 則是原本的 en-de,是在 transformer 的基礎(chǔ)上發(fā)展來的。在這些信息的基礎(chǔ)上,我們可以看到 gpt、t5 和 bert 本身是三條不同的技術(shù)路線,自然他們?cè)谏瞄L的任務(wù),各自的特點(diǎn)上也有所不同。

  • GPT:自回歸,適合做生成;由于其特點(diǎn),為了在理解任務(wù)上達(dá)到和bert相同的效果,成本較高。
  • T5:en-de,理論上是結(jié)合了 GPT 和 BERT 的優(yōu)點(diǎn),但會(huì)帶來參數(shù)的暴漲,訓(xùn)練成本很高,google 提出后并未過多發(fā)展,性價(jià)比相比 GPT 暫時(shí)未知(但我覺得潛力很大);T5 統(tǒng)一了 NLP 任務(wù)的形式,一切都可以是 Text2Text 的形式,與 GPT 解決問題的思路是一致的。
  • Bert:自編碼,不適合做生成,在理解任務(wù)上 finetune 形式性價(jià)比很高。

圖片

當(dāng)前我們來核心看看 cGPT 是怎么誕生的,其他就先不管了。

GPT1 到 GPT3,CodeX、WebGPT、InstructGPT 是關(guān)鍵的幾個(gè)論文,也是我們能夠最直接了解到 OpenAI 當(dāng)前工作進(jìn)展的幾個(gè)開源工作,而 RLHF 與 PPO 則是訓(xùn)練方法相關(guān)的論文,為了達(dá)到 cGPT 的效果,這些訓(xùn)練方法起到了重要的作用。

  • GPT(GPT-1):這是 GPT 系列的第一個(gè)模型,發(fā)布于 2018 年。GPT-1 擁有 1.17 億參數(shù),其突破性之處在于引入了單向上下文建模,通過預(yù)測(cè)下一個(gè)詞來生成連貫文本。
  • 從此時(shí)起,讓 NLP 進(jìn)入了預(yù)訓(xùn)練大語言模型+finetune 的時(shí)代。
  • GPT-2:發(fā)布于 2019 年,GPT-2 具有 15 億參數(shù),相較于 GPT-1 有很大的改進(jìn)。它使用了更大的訓(xùn)練數(shù)據(jù)集,提升了模型在處理不同語言任務(wù)和生成連貫文本方面的能力。當(dāng)時(shí),GPT-2 因其生成能力強(qiáng)大而引起關(guān)注,甚至引發(fā)了有關(guān)潛在濫用風(fēng)險(xiǎn)的討論。
  • 開放了 API,開源了一個(gè)相對(duì)小的模型,沒有開源論文中的所有模型

  • 論證了 zero-shot 的效果和 promising 的前景

  • 開始了大數(shù)據(jù),大模型的演進(jìn)之路


  • GPT-3:發(fā)布于 2020 年,GPT-3 是當(dāng)時(shí)最大、最強(qiáng)大的自然語言處理模型之一。它擁有 1750 億參數(shù),對(duì)比 GPT-2 有很大的擴(kuò)展。GPT-3 在多種任務(wù)中表現(xiàn)出色,如代碼生成、文本生成、問答等,甚至可以在未經(jīng)微調(diào)的情況下完成某些任務(wù)。盡管 GPT-3 取得了顯著的進(jìn)步,但仍存在一些問題,如偶爾產(chǎn)生有害或不相關(guān)的內(nèi)容。(開始 close AI)


  • 提出了 in-context learning,避免 fintune 會(huì)將模型的信息遺忘,導(dǎo)致能力下降。泛化性變?nèi)酢?/p>

  • 帶領(lǐng)了 Prompt 的興起(其實(shí) GPT/bert 的時(shí)候就已經(jīng)有了初步的 prompt,當(dāng)時(shí)為了構(gòu)建一些任務(wù)或者訓(xùn)練樣本,會(huì)對(duì)數(shù)據(jù)做一些小改動(dòng))。


  • CodeX:發(fā)布于 2021,基于 GPT-3 finetune 得來,專門用于提高軟件開發(fā)和編程的效率和質(zhì)量,也是 Copilot 背后的技術(shù)支持。相關(guān)研究發(fā)現(xiàn),在大量科學(xué)文獻(xiàn) / 代碼上進(jìn)行訓(xùn)練可以顯著提高基礎(chǔ)模型的推理/編碼能力。


  • 在給定數(shù)據(jù)集 HumanEval 上論證了 LLM 在解決代碼編寫問題上的可能性,在 repeated sampling 機(jī)制下 Codex 能解決大部分的編程問題。

  • 引起廣泛關(guān)注和討論:CodeX 的發(fā)布引起了廣泛的關(guān)注和討論,認(rèn)為它將極大地改變軟件開發(fā)和編程的方式。但同時(shí)也引發(fā)了一些擔(dān)憂和問題。

  • 這個(gè)工作的誕生為后續(xù) ChatGPT 強(qiáng)大的代碼能力埋下了伏筆(我理解也是堅(jiān)定了 OpenAI 的信心)。

  • 代碼的強(qiáng)邏輯性和規(guī)范性,猜測(cè)有利于 LLM 的能力優(yōu)化。


  • WebGPT:同樣在 2021 年,基于 GPT-3 finetune 得來,是一次與 Bing 的強(qiáng)聯(lián)合,利用 Bing API 創(chuàng)建了一個(gè)模型和交互的搜索瀏覽環(huán)境,先利用 Bing API 進(jìn)行信息檢索,然后將檢索的結(jié)果+問題交給 LLM 進(jìn)行解答(這個(gè)過程會(huì)重復(fù)進(jìn)行,由模型決策,pre-autogpt)。


  • 收集了用戶行為數(shù)據(jù),用來教模型決策(嗅到了 autogpt 的味道)。

  • 這里和后續(xù)的 cGPT 其實(shí)很像,都是對(duì)問題的回答,但用了 Bing 的檢索結(jié)果作為 LLM 的 Prompt。

  • 這篇論文的訓(xùn)練方法中用到了基于 BC 的 SFT(這里的 BC 就是用戶行為數(shù)據(jù) Behavior cloning),基于 BC 模型訓(xùn)練了一個(gè)RM模型,從而將 RM 輸出的獎(jiǎng)勵(lì)(懲罰)使用 PPO 算法在對(duì) BC 模型進(jìn)行微調(diào),以進(jìn)一步提高模型的學(xué)習(xí)效果。

  • 這篇工作就是 iGPT 的前序工作,只是在 iGPT 中將對(duì)齊的內(nèi)容/目標(biāo)做了改動(dòng),里面暴露了很多數(shù)據(jù)收集分析上的細(xì)節(jié),同時(shí)也是LLM和搜索的一個(gè)結(jié)合的重要工作。

  • 果然是微軟的一個(gè)研究院。


  • InstructGPT:較為詳細(xì)的介紹了 iGPT,大家也是認(rèn)為這個(gè)工作是 cGPT 的重點(diǎn)暴露,因?yàn)?cGPT 號(hào)稱和 iGPT 的技術(shù)點(diǎn)幾乎一模一樣。而iGPT的核心主要有三點(diǎn):


  • Alignment:與用戶對(duì)齊的理念,好的技術(shù)方案設(shè)計(jì)和執(zhí)行導(dǎo)致了其良好的效果。這一點(diǎn)非常關(guān)鍵


  • SFT 訓(xùn)練(supervised fine-tuning):收集prompt&Answer pair(對(duì)于 cGPT 來說,prompt&answer 的格式是 dialogue format 的),基于這些數(shù)據(jù)對(duì) LM 進(jìn)行 SFT 訓(xùn)練(supervised fine-tuning)


  • RLHF:

    • RM:獎(jiǎng)勵(lì)模型的訓(xùn)練(reward model training)。基于收集好的 prompt,讓 SFT 好的模型輸出結(jié)果,然后人工標(biāo)注好,讓 RM 學(xué)習(xí)哪些標(biāo)注好的數(shù)據(jù)是正確的

    • PPO:近端策略優(yōu)化模型( reinforcement learning via proximal policy optimization):基于上面訓(xùn)練好的兩個(gè)模型,讓 SFT 對(duì) prompt 進(jìn)行輸出,然后基于 RM 給出的分?jǐn)?shù)作為模型自我迭代的依據(jù),從而不斷優(yōu)化模型。


  • cGPT:理論上和 instructGPT 是并行關(guān)系,只是在數(shù)據(jù)格式上有所不同:We mixed this new dialogue dataset with the InstructGPT dataset, which we transformed into a dialogue format.


圖片

從上面的工作我們可以看到,18 年開始,確定一個(gè)技術(shù)方向,在這個(gè)過程中不斷的嘗試,不斷基于之前的工作進(jìn)行修正,探索,一步一步前進(jìn),這個(gè)過程很有趣,最終得到了 cGPT。

技術(shù)點(diǎn)概括

我們?yōu)g覽一下以上的論文,可以總結(jié)出其取得當(dāng)前成績的關(guān)鍵點(diǎn):

  • infra:需要提前建設(shè)
  • 算力:硬件(錢和基礎(chǔ)設(shè)施支持。
  • 工程:隨著數(shù)據(jù)上升,工程與算法的互相匹配實(shí)現(xiàn)就很重要。
  • 數(shù)據(jù):決定了上限:公開數(shù)據(jù)有很多,但具體如何收集,如何處理、分析應(yīng)用是關(guān)鍵。
  • 從論文中,我們看到即便是公開數(shù)據(jù),也花了很大的功夫去分析比如 train/test 之間的覆蓋,benchmark 對(duì)模型的評(píng)估與模型訓(xùn)練數(shù)據(jù)之間的關(guān)系等要素影響。

  • 訓(xùn)練數(shù)據(jù)的選擇清洗很細(xì)節(jié)。

  • 收集用戶標(biāo)注數(shù)據(jù)的時(shí)候,有很細(xì)節(jié)的設(shè)計(jì),包括但不限于 gui,數(shù)據(jù)可靠性機(jī)制設(shè)計(jì)等。

  • 決定了應(yīng)用效果。


  • 算法:模型設(shè)計(jì)決定了能多逼近上限。



  • 評(píng)估標(biāo)準(zhǔn):(量化)評(píng)估模型性能。論文中雖然沒有提出一個(gè)評(píng)估標(biāo)準(zhǔn),但是我們看到 OpenAI 做了大量的工作來分析模型性能,以及數(shù)據(jù)對(duì)模型性能的影響。有評(píng)估,才能知道模型當(dāng)前的進(jìn)展以及新的工作怎么發(fā)展。(參見 GLUE or CLUE)



  • Wrapper for 應(yīng)用:


  • 技術(shù)應(yīng)用:Prompt-engineer;梳子模型(梳子的齒是prompts,橫著的齒根是 LLM 底座)。

  • 業(yè)務(wù)應(yīng)用:ChatGPT 等。

  • 商業(yè)化方式:除了產(chǎn)品使用會(huì)員制外,暫無明確路徑。


  • 團(tuán)隊(duì)構(gòu)建:有動(dòng)力,有靈魂人物拍板,合理的商業(yè)化運(yùn)作(做事情是需要正反饋的)。


模型

介紹

GPT4

預(yù)計(jì)參數(shù)量 1-1.7w 億,支持文本和圖像,輸出文本(但是可以支持編程繪圖),在各項(xiàng)任務(wù)上表現(xiàn)更好

GPT3.5(instructGPT和chatGPT)

1750 億參數(shù),文字輸入輸出;規(guī)范了 Alignment 這個(gè)概念,規(guī)范了訓(xùn)練流程:SFT、RLHF(RW+PPO);基于上文,我們看到這里集合了 WebGPT 和 CodeX 的優(yōu)點(diǎn)。

GPT3

1750 億參數(shù),文字輸入輸出。提出 in-context learning(0/few-shot)

GPT2

15 億參數(shù),文字輸入輸出。弱化版 GPT3,也是大家摸索 GPT3 的重要參考

GPT1

1.17 億參數(shù),文字輸入輸出,無監(jiān)督預(yù)訓(xùn)練,task oriented finetuning->下游任務(wù)上需要 finetune,沒有足夠泛化性,同時(shí) finetune 需要數(shù)據(jù)

復(fù)現(xiàn)與追趕

在當(dāng)前有一個(gè)真理可以記住,只要有人說:“論文都是公開的,技術(shù)都是現(xiàn)成的,只要有錢,給一定的時(shí)間,大家訓(xùn)練個(gè)大預(yù)言模型不是分分鐘的事情?!本鸵欢ㄊ峭庑小?/p>

ChatGPT 的工程、模型和算法細(xì)節(jié)沒有公開,數(shù)據(jù)處理細(xì)節(jié)沒有公開;當(dāng)前openAI已經(jīng)將相關(guān)技術(shù)作為商業(yè)機(jī)密進(jìn)行保留,從 GPT-3 就開始保密,至今已經(jīng)有三年。

當(dāng)前大模型調(diào)研

由于我們是想要跟進(jìn)最新的內(nèi)容,所以自然可以放棄很多過程指標(biāo)。之前講到,整體其實(shí)有兩條路線可以走,T5 和 GPT。我們以這樣的方式列出來。

對(duì)于應(yīng)用和學(xué)術(shù),要以兩種視角來看待。應(yīng)用方,當(dāng)前一定關(guān)心的是ChatLLM,因?yàn)檫@是一個(gè)可以在淘金時(shí)代賣水以及最快測(cè)試應(yīng)用場(chǎng)景的基礎(chǔ)應(yīng)用;而技術(shù)視角,除了關(guān)心 chatLLM,還應(yīng)該關(guān)注其底層的 LLM 是什么,這才是基礎(chǔ)。

以下是截止成文的時(shí)候比較流行的工作,從開源程度,學(xué)習(xí)上手以及運(yùn)行的成本看,推薦學(xué)校出得,ChatGLM 和 Moss 或許會(huì)友好一點(diǎn)。

名稱

介紹

地址

Moss

復(fù)旦大學(xué)邱老師組發(fā)布的語言模型,支持對(duì)話,全部開源,推薦了解和學(xué)習(xí)。

https://github.com/OpenLMLab/MOSS

ChatYuan

元語智能發(fā)布,孵化于中文 NLP 開源社區(qū) CLUE。CLUE 整合大量中文資源,均由 NLP 自由開發(fā)/愛好者推動(dòng),推薦了解。

https://github.com/clue-ai/ChatYuan

ChatGLM

清華大學(xué)發(fā)布。ChatGLM

版本多,效果好,可以在自己電腦上運(yùn)行,因此十分受歡迎。十分值得大家嘗試!中英雙語。另,推薦了解 GLM,chatGLM 的基座,yangzhilin(XLNet 作者)參與的工作https://arxiv.org/abs/2103.10360

https://github.com/THUDM/ChatGLM-6B/blob/main/README_en.md

OPT

MetaAI 發(fā)布,175B 模型,模型結(jié)構(gòu)與 GPT-3 基本一致,推薦了解,可以幫助理解 GPT-3。單語言。

https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

Bloom

多語言, Bigscience 發(fā)布,與 GPT-3 基本一致,全部開源,訓(xùn)練框架使用 Megatron-DeepSpeed,效果也很好,推薦了解和試用

https://github.com/huggingface/transformers-bloom-inference

LamDA

137B 參數(shù),google 發(fā)布。decoder-only,理論上與 ChatGPT 架構(gòu)相似。

https://github.com/conceptofmind/LaMDA-rlhf-pytorch

LLaMA

LLaMA

是著名的 MetaAI 開源的大語言預(yù)訓(xùn)練模型,也因?yàn)樗拈_源以及斯坦福發(fā)布的 Alpaca 工作,讓 LLaMA 成為最近這些天發(fā)布的模型的基礎(chǔ)(也就是說最近很多模型都是用 LLaMA 微調(diào)的)。而這個(gè)是 Decapoda Research 在 HuggingFace 上部署的。是將原始的預(yù)訓(xùn)練結(jié)果轉(zhuǎn)換成與 Transformers/HuggingFace 兼容的文件。

https://github.com/juncongmoo/pyllama

百度、阿里、訊飛等

當(dāng)前國內(nèi)的公司在不斷的發(fā)展和推進(jìn),無論從使用上還是從底層技術(shù)上都推薦 follow。


大語言模型發(fā)展歷程:https://briefgpt.xyz/lm

如何復(fù)現(xiàn)

既然在開頭已經(jīng)吐槽過,那么我們這里直接說復(fù)現(xiàn)思路——當(dāng)一個(gè)強(qiáng)大的工程師,不需要思考,照著開源抄,就領(lǐng)先了 99% 的人。

從 GPT 已經(jīng)公開的資料來看,LM 這個(gè)模型基底結(jié)構(gòu)其實(shí)并不是最重要的,當(dāng)前我們已經(jīng)有的結(jié)構(gòu),只要包括了 decoder,其實(shí)都可以做到文本生成,在很多細(xì)節(jié)上,也有多種優(yōu)化點(diǎn)。但當(dāng)前能讓 OpenAI 破局的,核心是如何構(gòu)建數(shù)據(jù),如何收集數(shù)據(jù),如何將這些數(shù)據(jù)用來做模型訓(xùn)練,才是關(guān)鍵和核心。這些是需要格外注意的。

From Scratch

從 0 開始,有兩種思路

  • 一種是基于 GPT-2 或者 Bloom 等 GPT 系列的 LM,參考其發(fā)展路線,自行實(shí)現(xiàn);
  • 另一種則是基于當(dāng)前已經(jīng)摸索清楚路線,且開源的 Moss、LLama 等,依據(jù)實(shí)現(xiàn)。

聽起來比較簡單,需要重點(diǎn)解決的依然是上面提到過的一些要點(diǎn):

  1. 數(shù)據(jù):數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注等細(xì)節(jié)問題,包括成本與標(biāo)準(zhǔn)流程。
  2. 老師(算法細(xì)節(jié))決定上限:當(dāng)前無開源模型解決 GPT-4,且 GPT4 并非 OpenAI 內(nèi)部最強(qiáng)的進(jìn)展。這部分的差異需要自行推導(dǎo)摸索。LLM 時(shí)代,暴力窮舉可能性,大力出奇跡來追趕 SOTA,特別算力受限,可能性不高。
  3. 工程:如何快速進(jìn)行訓(xùn)練和推理,是一個(gè)好問題。
  4. 其他:很重要,但在解決上面的問題才會(huì)出現(xiàn)的,比如安全、評(píng)估、成本優(yōu)化、效率等方面。

From a strong baseline

From scratch,講的是技術(shù)路線甚至代碼都已經(jīng) ready,但是模型是需要自己重新訓(xùn)練的,里面會(huì)有很多細(xì)節(jié)操作。

而從一個(gè)強(qiáng)有力的 baseline 開始,那么就是在一個(gè)已經(jīng)有的模型的基礎(chǔ)上進(jìn)行改良。

需要關(guān)注和解決的問題是:

  1. 同樣,上面提到的幾項(xiàng)也很關(guān)鍵,對(duì)每一項(xiàng)的理解都很重要,但對(duì)實(shí)現(xiàn)的全面性和細(xì)節(jié)都要求更低。
  2. 要往哪個(gè)方向 fine-tining。
  3. 未開源部分依然需要自行摸索。

相信的力量

最近聽一些分享/講座等,有說到想象力、愿力、心力。都差不多。本質(zhì)是需要有堅(jiān)定的信念才可以。

OpenAI 在 GPT-2 被退稿的時(shí)候依然能夠堅(jiān)持這個(gè)方向(其實(shí)GPT系列被退也沒錯(cuò),Roberta 當(dāng)年也沒過,原因大差不差)。

有一些玄學(xué),本質(zhì)是需要有靈魂人物來帶領(lǐng)。

評(píng)估的重要性

前面我們講到了評(píng)估,這一點(diǎn)很重要,直接決定了這些追趕和復(fù)現(xiàn)的團(tuán)隊(duì)是否有足夠明晰的目標(biāo)和標(biāo)尺來衡量自己的工作進(jìn)展,而這一點(diǎn)當(dāng)前很困難。

舉個(gè) ??

如果我們認(rèn)為高考可以反映一切,那么高考分?jǐn)?shù)高的,就應(yīng)該在一切上表現(xiàn)更好。那么我們干什么都可以直接用高考分?jǐn)?shù)來衡量了。

顯然,已知用人單位會(huì)從多個(gè)角度來考慮,高考分?jǐn)?shù)高,等于適應(yīng)環(huán)境,可以吃高考的苦,有較好的學(xué)習(xí)理解能力,在大學(xué)受到了較好的培養(yǎng)。更進(jìn)一步,會(huì)考慮到在哪個(gè)省份高考,從而更進(jìn)一步考慮其綜合能力,潛力,高考難度等……多種因素。所以說明高考分?jǐn)?shù)只能反映一部分能力。

  • 所以當(dāng)模型僅被用于執(zhí)行單一任務(wù)的時(shí)候,我們可以出考題(benchmark)來評(píng)估其能力;
  • 但當(dāng) LLM 成為一個(gè)綜合模型,我們想要將其應(yīng)用于多類型任務(wù)時(shí)候,就意味著需要進(jìn)行多維度考察;
  • 而當(dāng)其成為一個(gè)對(duì)話應(yīng)用的時(shí)候,那么我們更希望可以對(duì)其進(jìn)行擬人化的考察,除了硬性能力,還希望可以 check 其是否更像人。

……所以就很麻煩。

可以參見以下報(bào)道,UCB 在引入 Elo 進(jìn)行評(píng)估,愛丁堡大學(xué)的 Fuyao 在研究從推理上評(píng)價(jià)模型能力,CLUE發(fā)布SuperCLUE進(jìn)行中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)。

LLM帶來的影響

LLM 的出現(xiàn),給產(chǎn)學(xué)界帶來了沖擊,此時(shí)思考它的出現(xiàn)到底帶來了什么樣的影響。由于每個(gè)人所處情況不同,我們可以從不同的視角來看待這個(gè)問題。

首先,得用,這樣才能獲取第一手感知;其次思考這個(gè)的出現(xiàn)給學(xué)術(shù)界帶來了什么;接下來考慮它會(huì)對(duì)整個(gè)產(chǎn)學(xué)界帶來什么影響;然后考慮給個(gè)人帶來的影響;最后基于這些因素,考慮基于 LLM 的公司或者產(chǎn)品會(huì)是怎么樣的。

如何使用模型

這里講如何使用模型,核心是如何按照自己的想法激活其能力,這里就需要了解 in-context learning,了解 Pormpt。

In-Context Learning 是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)概念,指不調(diào)整模型自身參數(shù),而是在 Prompt 上下文中包含特定問題相關(guān)的信息,就可以賦予模型解決新問題能力的一種方式。這個(gè)主要是在 few/one-shot 的情況下,給定的示例。所以我認(rèn)為叫做 ICL 不夠貼切,應(yīng)該叫做 In Context Inference。

Prompt:Prompt(引導(dǎo)詞),是一段自然語言描述的文本,它作為AI模型的重要輸入來指導(dǎo)模型生成內(nèi)容。Prompt 的質(zhì)量對(duì)于模型生成效果有較大影響。(本質(zhì)上 prompt 和 instruct 是一種東西,一個(gè)概念,主要是看如何構(gòu)造 prompt)。

有了這兩個(gè)基礎(chǔ)概念之后,我們就發(fā)現(xiàn),其核心要做的是設(shè)計(jì) Prompt 來讓LLM(包括 chatLLM)發(fā)揮出我們想要其發(fā)揮的能力。市場(chǎng)上有很多資料,同樣我們抓主要矛盾:

  1. 一條 prompt 的組成要素:
  1. Instruction:一個(gè)特定的任務(wù)或者指令
  2. context:示例、上下文、甚至知識(shí)(庫)
  3. Input data:就是提問,比如搜索一些東西的時(shí)候,輸入的問題(有時(shí)候和instruction重疊)
  4. Output Indicator:輸出格式
  1. prompt 的編寫技巧:精準(zhǔn),正面輸出信息,不要使用反問等手法;嘗試使用 COT-step by step。
  2. 多輪 prompt refine:這里要表達(dá)的是,基于第一次的prompt以及對(duì)應(yīng)的結(jié)果,重新設(shè)計(jì)第二輪 prompt,通過多輪 refine 來獲取更加符合預(yù)期的結(jié)果。
  3. APE(Automatic Prompt Engineer):自動(dòng) prompt 生成。
  4. 注意:一條 prompt 在不同的 LLM 上的表現(xiàn)是可以不同的

推薦吳恩達(dá)的課程:https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/

給學(xué)術(shù)界帶來了什么

  1. 研究方向的變化:大模型 LLM 領(lǐng)域,有哪些可以作為學(xué)術(shù)研究方向? - 知乎(https://www.zhihu.com/question/595298808/answer/2982013608)
  2. 由于當(dāng)前 LLM 對(duì)資金以及數(shù)據(jù)的訴求,大學(xué)這樣的學(xué)術(shù)場(chǎng)所未來是否依然適合作為相關(guān)研究的孵化地,要打一個(gè)問號(hào);是否工業(yè)實(shí)驗(yàn)室更適合。
  3. LLM 只是一個(gè)縮影,LLM 可能會(huì)應(yīng)用到很多領(lǐng)域;也可能會(huì)有很多與LLM類似的領(lǐng)域,或許未來這些都不適合在高校進(jìn)行研究。
  4. 給國內(nèi)學(xué)術(shù)界:當(dāng)新的技術(shù)爆發(fā)越來越多呈現(xiàn)在各個(gè)領(lǐng)域散點(diǎn)出現(xiàn),如何給大眾以良好的土壤并激發(fā)他們的創(chuàng)新熱情將會(huì)是一個(gè)很值得研究的命題。

給整體的產(chǎn)學(xué)界/工業(yè)界帶來了什么

簡單來說,分為三大類影響:

  1. 從事 LLM 底層技術(shù)開發(fā):需要快速 follow 技術(shù),盡快建立生態(tài),獲取生態(tài)主導(dǎo)權(quán)的 LLM 將會(huì)建立壁壘。
  2. 從事基于 LLM 的應(yīng)用開發(fā):理解業(yè)務(wù),理解用戶,并將這部分理解以及用戶反饋數(shù)據(jù)用于對(duì)自己應(yīng)用的優(yōu)化,形成閉環(huán)飛輪(已有模糊技術(shù)路線但尚待驗(yàn)證),這將會(huì)是自己的壁壘。
  3. 在這個(gè)環(huán)境下,“賣水賣鏟子”的市場(chǎng)會(huì)異?;钴S。

在這個(gè)三類影響下,借助陸奇分享的 ppt,用下圖來看看全面形態(tài)。左下角就是 LLM 底層技術(shù),在他的基礎(chǔ)上無論是 ChatGPT 還是相應(yīng)的 playground 等,都屬于應(yīng)用,盡管有應(yīng)用內(nèi)應(yīng)用(比如 chatgpt-plugin),而在往上一層走,就到了 copilot 等產(chǎn)品層面。

從這圖上看,這個(gè) OpenAI 的生態(tài)當(dāng)前已經(jīng)初步形成,也就是說它的競(jìng)爭(zhēng)壁壘已經(jīng)初步建立。如果說這真的是一個(gè)操作系統(tǒng)級(jí)別的革命的話,那么未來市場(chǎng)上一定只會(huì)存在有限家公司有各自的生態(tài),比如蘋果和安卓。

圖片

可以說,在新的時(shí)代下,公司之間競(jìng)爭(zhēng)的依然是用戶。LLM 競(jìng)爭(zhēng)開發(fā)者,應(yīng)用競(jìng)爭(zhēng)下游用戶,賣水賣鏟子的競(jìng)爭(zhēng)前兩個(gè)的淘金者。這些用戶會(huì)產(chǎn)生數(shù)據(jù),而如何將這些數(shù)據(jù)用在模型上,是一個(gè)依然值得研究的問題。

結(jié)合 LLM 進(jìn)行的服務(wù),當(dāng)前思路主要有兩種:

  1. 一種是以 LLM 作為 backbone,對(duì)其生產(chǎn)的結(jié)果進(jìn)行后處理以確保符合預(yù)期;
  2. 一種是當(dāng)前的主流系統(tǒng)作為 backbone,利用 LLM 做優(yōu)化(即將前者輸出作為 prompt 構(gòu)成)。

基于這樣的思路,也就能看到,將數(shù)據(jù)融合進(jìn)去的思路,要么融合到LLM中去,要么融合到確定性結(jié)果中去(知識(shí)庫)。

第二種思路,就是深度學(xué)習(xí)當(dāng)前掛靠到各個(gè)業(yè)務(wù)的方式。但若說LLM是一個(gè)操作系統(tǒng)級(jí)別的變化,那一定不會(huì)止步于此,未來會(huì)是什么樣子的呢?還需要思考。

個(gè)人從業(yè)者的影響

  1. 對(duì)于個(gè)人來說,快速了解相關(guān)技術(shù),建立自己的認(rèn)知體系,加快對(duì)新知識(shí)的 follow 最關(guān)鍵。
  2. 在這個(gè)基礎(chǔ)上,選定自己的定位和角色,快速出擊。明顯看到生態(tài)壁壘、用戶和業(yè)務(wù)壁壘依然可行,要快速找到建立的方向并貫徹執(zhí)行。

對(duì)傳統(tǒng)的互聯(lián)網(wǎng)技術(shù)同學(xué)來說,以下是可以參考的技術(shù)棧。對(duì)于非技術(shù)同學(xué)來說,則是要好好感受和使用大模型的能力。這是一個(gè)需要技術(shù)和非技術(shù)同學(xué)一起探索新需求和應(yīng)用的時(shí)代,都需要對(duì)新的技術(shù)進(jìn)行理解和把握,才能提出有價(jià)值的應(yīng)用。

圖片

未來基于 LLM 的公司/產(chǎn)品會(huì)是什么樣子的

圖片

上圖是一個(gè)比較粗糙的示意圖。在新的浪潮下,要找到自己的公司的定位在哪里。從之前陸奇分享的 OpenAI 的生態(tài)中,我們可以看到很多東西,將其整合抽象簡化,那么在當(dāng)前的時(shí)代,我們的工作有上圖中描述的:

  1. APP:應(yīng)用層。除了應(yīng)用外,由于 cGPT 的出現(xiàn),那么在 UI 上會(huì)有很大變化,除了語言外,要留意語音巨大的潛力。
  2. Inspire Ability:能力激發(fā)層。由于我們基于 Maas 進(jìn)行上層開發(fā)設(shè)計(jì),那么如何能夠激發(fā)模型的能力,放大模型的能力(plugin),對(duì)模型能力進(jìn)行補(bǔ)充(事實(shí)性等 KB),則是這一層重點(diǎn)要做的工作。
  3. MaaS:除了模型本身能力的優(yōu)化,訓(xùn)練/推理的速度和成本,上層開發(fā)者生態(tài)友好性等都是重點(diǎn)問題。簡單的衡量標(biāo)準(zhǔn),就是別人是否愿意在你的 MaaS 上進(jìn)行后續(xù)開發(fā)。
  4. DATA 層:這一層很關(guān)鍵,因?yàn)樗P(guān)系到了能力是否可以長期迭代,某種意義上也是壁壘是否可以形成的關(guān)鍵要素。

應(yīng)該關(guān)注的幾個(gè)要點(diǎn)

如何理解推理能力

重點(diǎn)參考 or 復(fù)制:

https://yaofu.notion.site/6dafe3f8d11445ca9dcf8a2ca1c5b199

本文是 fuyao 分享的關(guān)于復(fù)雜推理相關(guān)的分析,其認(rèn)為這是 GPT 這樣的 LLM 成為下一代計(jì)算平臺(tái) / 操作系統(tǒng)的關(guān)鍵能力。其中關(guān)于 Code/Math 等相關(guān)的分析特別有趣,推薦閱讀。

在科學(xué)文獻(xiàn)/代碼上進(jìn)行訓(xùn)練可能會(huì)提高推理能力,這部分的討論很有趣,也很符合直覺。

  • Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models
  • 在來自 Arxiv 論文的 38.5B 的 token 上繼續(xù)訓(xùn)練 PaLM 540B。
  • 在 MATH (一個(gè)需要使用 LaTeX 格式回答問題的困難數(shù)據(jù)集),上的得分為 33.6(GPT-4 的得分是 42.5)。
  • Taylor et. al. 2022. Galactica: A Large Language Model for Science
  • 在包含論文、代碼、參考資料、知識(shí)庫和其他內(nèi)容的 106B token 上預(yù)訓(xùn)練一個(gè) 120B 語言模型。

  • 在 MATH 上的表現(xiàn)為 20.4(Minerva 33.6,GPT-4 42.5)。


  • Chen et. al. 2021. Codex: Evaluating Large Language Models Trained on Code


  • 在 159GB 代碼數(shù)據(jù)上繼續(xù)訓(xùn)練 12B GPT-3 模型,提高了 HumanEval 數(shù)據(jù)集上的代碼性能。

LLM 作為下一代操作系統(tǒng)是什么意思

首先,雖然炒的沸沸揚(yáng)揚(yáng),如果真的類比操作系統(tǒng),當(dāng)前新的 os 的具體形態(tài)并不清晰,承載物究竟是什么樣子,看起來在高速發(fā)展,但如果停滯不前的話(假設(shè)當(dāng)前技術(shù)發(fā)展中遇到了不可預(yù)知的難題)也很難承載操作系統(tǒng)這樣的重任。

但是我們可以看到,在當(dāng)前 LLM 遠(yuǎn)超過歷史模型能力的加持下,在當(dāng)前已經(jīng)給交互帶來事實(shí)性沖擊的基礎(chǔ)上,未來一定有大的變化。只是這個(gè)變化大概率還會(huì)有一次大的技術(shù)升級(jí)或者融合,畢竟 GPT-4 才剛發(fā)布,從這個(gè)角度看,已公開技術(shù)上還有肉眼可見的發(fā)展空間。

最后,我們將其認(rèn)定為操作系統(tǒng),那么最后一定只有有限家,大家分別在不同領(lǐng)域各領(lǐng)風(fēng)騷。走得早和走的好都很重要。

從這一點(diǎn)上看,所謂生態(tài)先行就顯得尤為重要,誰能先把生態(tài)搭建,搶占用戶心智,自然就可以建立一種無形的壁壘。就好比安卓和蘋果,tensorflow 和 pytorch。這一點(diǎn)對(duì)于國內(nèi)的同行來說應(yīng)該是當(dāng)前最為緊急的。

學(xué)習(xí)社區(qū)的緊迫性

  1. 當(dāng)前以 fuyao 為代表的 notion 交互,國外流行的 twitter 交互加劇了當(dāng)前在專業(yè)領(lǐng)域內(nèi)的小范圍通過文本交互和討論的氛圍。
  2. 陸奇的每一次演講都在瘋狂更新資料,組建大模型日?qǐng)?bào)團(tuán)隊(duì)專門分享日?qǐng)?bào)以跟進(jìn)前沿信息
  3. 各路大佬每隔一段時(shí)間就會(huì)出來一次,每天都有新的 blog、新的論文、新的產(chǎn)品甚至公司出現(xiàn)
  4. 大家對(duì)學(xué)習(xí)社區(qū)的渴求程度,對(duì)溝通和思維碰撞的渴求越來越高;但由于個(gè)人的實(shí)際知識(shí)背景不同,導(dǎo)致同頻討論越發(fā)困難,如何能夠有同時(shí)具備以下特點(diǎn)的學(xué)習(xí)社區(qū),是一個(gè)很好的問題:
  1. 如何建立小型、敏捷的互動(dòng)學(xué)習(xí)
  2. 大型、專業(yè)的分享社區(qū)

如何找到 MaaS 擅長的應(yīng)用

圖片

以自然語言為先來設(shè)計(jì)產(chǎn)品。在新的時(shí)代,一定有其擅長的產(chǎn)品或者領(lǐng)域。上面講到了基于 LLM 的公司/產(chǎn)品會(huì)對(duì)既有產(chǎn)品生態(tài)形成降維打擊,那么如何才能找到擅長的部分呢?陸奇在5月7日北京的分享上給出了他的認(rèn)識(shí)。

  1. 首先基于傳統(tǒng)認(rèn)識(shí),應(yīng)用一定是技術(shù)推動(dòng)+需求拉動(dòng)發(fā)展的,且要利用好大模型的優(yōu)勢(shì)。從三個(gè)維度分析,信息、模型以及行動(dòng)。信息一定是基礎(chǔ),而模型(知識(shí)+思考整合+輸出)影響越大的部分,大模型的優(yōu)勢(shì)就越明顯。而行動(dòng),當(dāng)前僅在數(shù)字化系統(tǒng)內(nèi)部是 ok 的,譬如 autoGPT。
  2. 第二點(diǎn)則是應(yīng)用上的壁壘,要將對(duì)數(shù)據(jù)使用的結(jié)果能夠反饋到使用的各個(gè)環(huán)節(jié),才能夠形成正向飛輪從而不斷迭代優(yōu)化。
  3. 能夠做到有多好,核心在于認(rèn)知能力和對(duì)工具的使用能力。

OpenAI 的發(fā)展歷史

圖片

陸奇分享了自己的一個(gè)認(rèn)識(shí),OpenAI 有自己的思想體系,所以現(xiàn)在必須要能自己做科研,自己寫代碼,自己做平臺(tái)和商業(yè)化。

商業(yè)化

本文沒有討論商業(yè)模式,這是一個(gè)很重要的點(diǎn),在這個(gè)時(shí)代,誰先探索出合適的商業(yè)模式,就可以形成利潤閉環(huán),從而快速迭代自身業(yè)務(wù)。

一些思考可以參見:https://zhuanlan.zhihu.com/p/611867921

Take away

  1. 當(dāng)前 LLM 進(jìn)展迅速,首先搞清楚 LLM 是大預(yù)言模型,chatgpt 是基于 LLM 做的一個(gè)應(yīng)用導(dǎo)向的產(chǎn)品。抓住基礎(chǔ),然后 follow sota,才能看懂聽懂
  2. 搞清楚核心競(jìng)爭(zhēng)力:
  1. 做 LLM 的:技術(shù)可以領(lǐng)先,但無法成為壁壘。但是生態(tài)可以成為壁壘,讓用戶靠你來養(yǎng)活自己。這是競(jìng)爭(zhēng)的核心要素。
  2. 做 LLM 上的應(yīng)用:需要將用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)進(jìn)行閉環(huán),加速模型在業(yè)務(wù)上的表現(xiàn),這個(gè)是存在壁壘的,如何可以很好的閉環(huán),是一件值得研究的事情。
  3. 研究者:從業(yè)者和研究者。獨(dú)到的見解(有點(diǎn)虛)。換句話說應(yīng)該更加強(qiáng)調(diào)認(rèn)知能力和執(zhí)行力,對(duì)于很多知識(shí)的學(xué)習(xí)可以放下,工具性質(zhì)的使用能力需要很強(qiáng)。
  1. 由于數(shù)據(jù)的重要性,所以如何形成自己好的數(shù)據(jù)處理 framework or pipeline 是一個(gè)關(guān)鍵問題。
  2. aiot 未來一定有大機(jī)會(huì),當(dāng)信息獲取與理解,模型思考與決策這樣的能力都具備的時(shí)候,那么切入到實(shí)際的 action 中就顯得十分重要而合理。
  3. 當(dāng)前 ChatGPT 的出現(xiàn),其實(shí)很像一個(gè)咨詢的角色,究竟是提升咨詢的效率還是替換咨詢的角色,是一個(gè)很好的問題。
  4. 人嘛,最重要的是開心


附錄:

論文合集

OpenAI系列

重點(diǎn)

[1]【GPT-1】Improving Language Understanding by Generative Pre-Training.

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 2018.6

[2]【GPT-2】Language Models are Unsupervised Multitask Learners.

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 2019.2

[3]【GPT-3】Language Models are Few-Shot Learners. 

https://arxiv.org/abs/2005.14165 2020.5

[4]【CodeX】Evaluating Large Language Models Trained on Code
https://arxiv.org/abs/2107.03374 2021.7

[5]【W(wǎng)ebGPT】WebGPT: Browser-assisted question-answering with human feedback.

https://arxiv.org/abs/2112.09332 2021.11

[6]【InstructGPT】Training language models to follow instructions with human feedback. 

https://arxiv.org/pdf/2203.02155.pdf 2022.3

[7]【ChatGPT】 blog: https://openai.com/blog/chatgpt 2022.11.30

[8]【GPT-4】https://arxiv.org/pdf/2303.08774.pdf 2023.3R

[9]【RLHF】Augmenting Reinforcement Learning with Human Feedback. 

https://www.cs.utexas.edu/~ai-lab/pubs/ICML_IL11-knox.pdf 2011.7

[10]【PPO】Proximal Policy Optimization Algorithms. 

https://arxiv.org/abs/1707.06347 2017.7

其他可關(guān)注論文

[1] Fine-tuning language models from human preferences. 

pdf(https://arxiv.org/abs/1909.08593) 

code(https://github.com/openai/lm-human-preferences) 2019.9

[2] Learning to summarize from human feedback. 

pdf(https://arxiv.org/abs/2009.01325) 

code(https://github.com/openai/summarize-from-feedback) 2020.9

[3] Text and Code Embeddings by Contrastive Pre-Training 

pdf(https://arxiv.org/abs/2201.10005) 2022.1

[4] Efficient Training of Language Models to Fill in the Middle 

pdf(https://arxiv.org/abs/2207.14255) 2022.7

[5] Training Verifiers to Solve Math Word Problems 

pdf(https://arxiv.org/abs/2110.14168) 2021.10

[6] Recursively Summarizing Books with Human Feedback 

pdf(https://arxiv.org/abs/2109.10862) 2021.9

[7] Generating Long Sequences with Sparse Transformers 

pdf(https://arxiv.org/abs/1904.10509) 2019.4

可關(guān)注工作

[1] GPT-3: Its Nature, Scope, Limits, and Consequences

https://link.springer.com/article/10.1007/s11023-020-09548-1?trk=public_post_comment-text

[2] Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models 

https://arxiv.org/abs/2102.02503 2021.2

[3] Generative Language Modeling for Automated Theorem Proving 

https://arxiv.org/abs/2009.03393 2020.9

[4] Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets 

https://cdn.openai.com/palms.pdf 2022.6

[5] Scaling Laws for Neural Language Models 

https://arxiv.org/abs/2001.08361 2020.1

[6] ChatGPT is not all you need. A State of the Art Review of large Generative AI models 

https://arxiv.org/abs/2301.04655 【說你行很麻煩,不行卻很容易】

[7] In context learning survey 

pdf https://arxiv.org/abs/2301.00234 2022.11

[8] Reasoning with Language Model Prompting- A Survey 

https://arxiv.org/abs/2212.09597

竟對(duì)模型:介紹了其他流行的語言模型,如 BERT、XLNet、RoBERTa、ELECTRA、Sparrow等

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(https://arxiv.org/pdf/1810.04805.pdf)

  1. 【LaMda】 LaMDA: Language Models for Dialog Applications.
    pdf(https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2201.08239) 2022.1
  2. 【Sparrow】 Improving alignment of dialogue agents via targeted human judgements. pdf(https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2209.14375) 2022.9
  3. 【T5】Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer https://arxiv.org/pdf/1910.10683.pdf
  4. DeepSpeed-Chat. Blog(https://github.com/microsoft/DeepSpeedExamples/tree/master/applications/DeepSpeed-Chat)
  5. GPT4All. Repo(https://github.com/nomic-ai/gpt4all)
  6. OpenAssitant. Repo(https://github.com/LAION-AI/Open-Assistant)
  7. ChatGLM. Repo(https://github.com/THUDM/ChatGLM-6B)
  8. MOSS. Repo(https://github.com/OpenLMLab/MOSS)
  9. Lamini. Repo(https://github.com/lamini-ai/lamini/) Blog (https://lamini.ai/blog/introducing-lamini)
  10. Finetuned language models are zero-shot learners pdf(https://arxiv.org/abs/2109.01652) 2021.9
  11. Scaling Instruction-Finetuned Language Models. pdf(https://arxiv.org/abs/2210.11416) 2022.10
  12. XLNet: Generalized Autoregressive Pretraining for Language Understanding
  13. RoBERTa: A Robustly Optimized BERT Pretraining Approach
  14. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
  15. Longformer: The Long-Document Transformer
  16. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
  17. Reformer: The Efficient Transformer
  18. Attention Is All You Need(https://arxiv.org/abs/1706.03762.pdf):Transformer (Google AI blog post)(https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)
  19. Music Transformer: Generating music with long-term structure(https://arxiv.org/pdf/1809.04281.pdf)
  20. https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/
  21. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(https://arxiv.org/abs/2201.11903)
  22. PaLM: Scaling Language Modeling with Pathways
  23. OPT: Open Pre-trained Transformer Language Models
  24. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
  25. The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
  26. LaMDA "LaMDA: Language Models for Dialog Applications" . 2021. Paper(https://arxiv.org/abs/2201.08239)
  27. LLaMA "LLaMA: Open and Efficient Foundation Language Models" . 2023. Paper(https://arxiv.org/abs/2302.13971v1)
  28. GPT-4 "GPT-4 Technical Report" . 2023. Paper(http://arxiv.org/abs/2303.08774v2)
  29. BloombergGPT BloombergGPT: A Large Language Model for Finance, 2023, Paper(https://arxiv.org/abs/2303.17564)
  30. GPT-NeoX-20B: "GPT-NeoX-20B: An Open-Source Autoregressive Language Model" . 2022. Paper(https://arxiv.org/abs/2204.06745)
責(zé)任編輯:龐桂玉 來源: 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)
相關(guān)推薦

2022-03-03 16:51:05

元宇宙芯片AI

2014-01-09 09:20:50

軟件定義網(wǎng)絡(luò)VMware思科

2022-11-22 15:38:09

5G數(shù)字化轉(zhuǎn)型商業(yè)落地

2010-05-31 13:55:57

安騰9300

2019-03-25 21:10:58

5G商用5G牌照5G

2023-12-20 16:04:51

西門子

2024-08-29 14:44:01

質(zhì)檢埋點(diǎn)

2019-06-05 14:50:41

華為鴻蒙OS操作系統(tǒng)

2023-02-01 22:50:41

大數(shù)據(jù)

2024-02-23 12:26:22

2020-02-14 12:01:31

思科財(cái)報(bào)挑戰(zhàn)

2011-04-20 10:57:27

流量分析工具防火墻管理故障修復(fù)

2019-10-12 17:39:09

ARVR應(yīng)用技術(shù)

2015-06-28 11:39:32

NEC集群軟件

2023-07-21 12:02:54

2018-06-28 14:27:42

區(qū)塊鏈金融互聯(lián)網(wǎng)

2023-08-25 17:10:14

LLM人工智能

2014-04-21 11:14:51

創(chuàng)業(yè)硅谷創(chuàng)業(yè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)