為NLP選擇正確的語(yǔ)言模型

作者：崔皓 2022-11-29 07:14:56

本文解釋了LLMs背后的主要概念和原則。其目的是為非技術(shù)性的利益相關(guān)者提供一個(gè)直觀的理解，以及一種與開(kāi)發(fā)者和人工智能專家高效互動(dòng)的語(yǔ)言。

譯者 | 崔皓

審校 | 孫淑娟

一、開(kāi)篇

大型語(yǔ)言模型（LLMs）是為產(chǎn)生文本而訓(xùn)練的深度學(xué)習(xí)模型。憑借令人印象深刻的能力，LLMs已經(jīng)成為現(xiàn)代自然語(yǔ)言處理（NLP）的佼佼者。傳統(tǒng)意義上，它們是由學(xué)術(shù)機(jī)構(gòu)和大型科技公司（如OpenAI、微軟和英偉達(dá)）預(yù)先訓(xùn)練而成的。它們中的大多數(shù)隨后被提供給公眾使用。這種即插即用的方法是向大規(guī)模的人工智能應(yīng)用邁出的重要一步--企業(yè)現(xiàn)在可以專注于為特定的使用案例微調(diào)現(xiàn)有的LLM模型，而不是花費(fèi)大量資源來(lái)訓(xùn)練具有一般語(yǔ)言知識(shí)的模型。

然而，為應(yīng)用挑選合適的模型仍舊是很棘手的。用戶和其他利益相關(guān)者必須在一個(gè)充滿活力的語(yǔ)言模型和相關(guān)的創(chuàng)新場(chǎng)景中做出選擇。這些改進(jìn)涉及語(yǔ)言模型的不同組成部分，包括其訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練目標(biāo)、架構(gòu)和微調(diào)方法--每一個(gè)方面都可以寫一本書(shū)。在所有這些研究的基礎(chǔ)上，圍繞著語(yǔ)言模型的營(yíng)銷和人工智能的光環(huán)使事情變得更加模糊不清。

本文解釋了LLMs背后的主要概念和原則。其目的是為非技術(shù)性的利益相關(guān)者提供一個(gè)直觀的理解，以及一種與開(kāi)發(fā)者和人工智能專家高效互動(dòng)的語(yǔ)言。為了擴(kuò)大覆蓋面，文章包括了植根于大量NLP相關(guān)出版物的分析。雖然我們不會(huì)深入研究語(yǔ)言模型的數(shù)學(xué)細(xì)節(jié)，但這些可以很容易從參考文獻(xiàn)中檢索到。

文章的結(jié)構(gòu)如下：首先，將語(yǔ)言模型置于不斷發(fā)展的NLP環(huán)境中。第二部分解釋了LLMs是如何建立和預(yù)訓(xùn)練的。最后，會(huì)描述微調(diào)過(guò)程并提供了一些關(guān)于模型選擇的指導(dǎo)。

二、語(yǔ)言模型的世界

1.彌合人機(jī)差距

語(yǔ)言是人類思維的迷人技能--它是知識(shí)交流的通用協(xié)議，并表達(dá)主觀想法，如意圖、意見(jiàn)和情感。在人工智能的歷史上，已經(jīng)有多波研究用數(shù)學(xué)手段來(lái)接近（"建模"）人類語(yǔ)言。在深度學(xué)習(xí)時(shí)代之前，表征是基于簡(jiǎn)單的代數(shù)和概率概念，如單詞的單熱表征、序列概率模型和遞歸結(jié)構(gòu)。隨著過(guò)去幾年深度學(xué)習(xí)的發(fā)展，語(yǔ)言表征的精度、復(fù)雜性和表現(xiàn)力都有所提高。

2018年，BERT作為第一個(gè)基于新Transformer架構(gòu)的LLM被推出。從那時(shí)起，基于Transformer的LLM獲得了強(qiáng)勁的發(fā)展勢(shì)頭。語(yǔ)言建模由于其通用性特別具有吸引力。雖然許多現(xiàn)實(shí)世界的NLP任務(wù)，如情感分析、信息檢索和信息提取不需要產(chǎn)生語(yǔ)言，但假設(shè)一個(gè)產(chǎn)生語(yǔ)言的模型也有技能來(lái)解決各種更專業(yè)的語(yǔ)言挑戰(zhàn)。

2.尺寸問(wèn)題

學(xué)習(xí)發(fā)生在參數(shù)的基礎(chǔ)上--在訓(xùn)練過(guò)程中優(yōu)化的變量，以達(dá)到最佳預(yù)測(cè)質(zhì)量。隨著參數(shù)數(shù)量的增加，模型能夠獲得更細(xì)化的知識(shí)并改善其預(yù)測(cè)。自2017-2018年引入第一批LLM以來(lái)，我們看到了參數(shù)大小的指數(shù)級(jí)爆炸--雖然突破性的BERT是用340M的參數(shù)訓(xùn)練的，但2022年發(fā)布的模型Megatron-Turing NLG是用530B的參數(shù)訓(xùn)練的--增加了超過(guò)一千倍。

圖1：語(yǔ)言模型的參數(shù)大小隨時(shí)間呈指數(shù)增長(zhǎng)

因此，主流通過(guò)使用不斷增大的參數(shù)數(shù)量來(lái)嘩眾取寵。然而，有批評(píng)的聲音指出，模型性能的增長(zhǎng)速度與模型規(guī)模的增長(zhǎng)速度不一致。另一方面，模型預(yù)訓(xùn)練會(huì)留下相當(dāng)大的碳足跡?？s減規(guī)模顯得刻不容緩，它使語(yǔ)言建模的進(jìn)展更具有可持續(xù)性。

3.語(yǔ)言模型的生命周期

LLM的遠(yuǎn)景是富有競(jìng)爭(zhēng)性的，創(chuàng)新是短暫的。下圖顯示了2018-2022年時(shí)間段內(nèi)最受歡迎的前15名LLM 模型，以及他們?cè)谝欢螘r(shí)間內(nèi)的占有率。

圖2：前15個(gè)最受歡迎語(yǔ)言模型的提及率和占有率

我們可以看到，大多數(shù)模型在相對(duì)較短的時(shí)間內(nèi)就不那么流行了。為了保持領(lǐng)先，用戶應(yīng)該監(jiān)測(cè)當(dāng)前的創(chuàng)新，并評(píng)估升級(jí)是否值得。

大多數(shù)LLM都遵循一個(gè)類似的生命周期：首先，在 "上游"，模型被預(yù)先訓(xùn)練。由于對(duì)數(shù)據(jù)量和計(jì)算量的要求很高，它大多是大型科技公司和大學(xué)的特權(quán)。最近，也有一些合作出現(xiàn)（例如BigScience研討會(huì)），以共同推進(jìn)LLM領(lǐng)域的發(fā)展。少數(shù)資金充足的初創(chuàng)公司，如Cohere和AI21實(shí)驗(yàn)室，也提供預(yù)先訓(xùn)練好的LLM。

在發(fā)布之后，模型被專注于應(yīng)用的開(kāi)發(fā)者和企業(yè)在 "下游 "采用和部署。在這個(gè)階段，大多數(shù)模型需要一個(gè)額外的微調(diào)步驟以適應(yīng)特定的領(lǐng)域和任務(wù)。其他的，如GPT-3，則更方便，因?yàn)樗鼈兛梢栽陬A(yù)測(cè)期間直接學(xué)習(xí)各種語(yǔ)言任務(wù)（零次或幾次預(yù)測(cè)）。

最后，時(shí)間敲響了大門，一個(gè)更好的模型出現(xiàn)在拐角處--要么有更多的參數(shù)，更有效地使用硬件，要么對(duì)人類語(yǔ)言的建模有更根本的改進(jìn)。帶來(lái)實(shí)質(zhì)性創(chuàng)新的模型可以催生出整個(gè)模型家族。例如，BERT在BERT-QA、DistilBERT和RoBERTa中繼續(xù)存在，這些都是基于原始架構(gòu)的。

在接下來(lái)的章節(jié)中，我們將探討這個(gè)生命周期的前兩個(gè)階段--預(yù)訓(xùn)練和為部署而進(jìn)行的微調(diào)。

三、預(yù)訓(xùn)練：LLM是如何誕生的

大多數(shù)團(tuán)隊(duì)和NLP從業(yè)者不會(huì)參與LLM的預(yù)訓(xùn)練，而是參與其微調(diào)和部署。然而，要成功地挑選和使用一個(gè)模型，重要的是要了解 "引擎蓋 "下發(fā)生了什么。在這一節(jié)中，我們將看一下LLM的基本成分。

訓(xùn)練數(shù)據(jù)
輸入表示
訓(xùn)練前的目標(biāo)
模型結(jié)構(gòu)（編碼器-解碼器）

每一項(xiàng)都不僅會(huì)影響到選擇，也會(huì)影響到LLM的微調(diào)和部署。

1.訓(xùn)練數(shù)據(jù)

用于LLM訓(xùn)練的數(shù)據(jù)大多是涵蓋不同風(fēng)格的文本數(shù)據(jù)，如文學(xué)、用戶生成的內(nèi)容和新聞數(shù)據(jù)。在看到各種不同的文本類型后，產(chǎn)生的模型會(huì)意識(shí)到語(yǔ)言的細(xì)節(jié)。除文本數(shù)據(jù)外，代碼也經(jīng)常被用作輸入，教導(dǎo)模型生成有效的程序和代碼片段。

不出所料，訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì)模型的性能有直接影響--也對(duì)模型所需的大小有影響。如果用更加聰明的方式準(zhǔn)備訓(xùn)練數(shù)據(jù)，就可以提高模型的質(zhì)量，同時(shí)減少其數(shù)據(jù)的容量。一個(gè)例子是T0模型，它比GPT-3小16倍，但在一系列基準(zhǔn)任務(wù)上勝過(guò)它。訣竅就在這里：它不只是使用任何文本作為訓(xùn)練數(shù)據(jù)，而是直接使用任務(wù)公式，從而使其學(xué)習(xí)信號(hào)更加集中。圖3說(shuō)明了一些訓(xùn)練實(shí)例。

圖3：T0在廣泛明確的語(yǔ)言任務(wù)上進(jìn)行訓(xùn)練

關(guān)于訓(xùn)練數(shù)據(jù)的最后說(shuō)明：我們經(jīng)常聽(tīng)說(shuō)語(yǔ)言模型是以無(wú)監(jiān)督的方式訓(xùn)練的。雖然這種方式極具吸引力，但在技術(shù)上是錯(cuò)誤的。相反，格式良好的文本已經(jīng)提供了必要的學(xué)習(xí)信號(hào)，使我們省去了繁瑣的手工數(shù)據(jù)注釋過(guò)程。要預(yù)測(cè)的標(biāo)簽對(duì)應(yīng)于一個(gè)句子中的過(guò)去和/或未來(lái)的詞。因此，注釋是自動(dòng)發(fā)生的，而且是大規(guī)模的，使得該領(lǐng)域的相對(duì)快速進(jìn)展成為可能。

2.輸入表示

一旦訓(xùn)練數(shù)據(jù)被集合起來(lái)，我們需要將其打包成模型可以應(yīng)用的形式。神經(jīng)網(wǎng)絡(luò)是用代數(shù)結(jié)構(gòu)（向量和矩陣）來(lái)輸入的，而語(yǔ)言的最佳代數(shù)表示是一個(gè)持續(xù)的探索--從簡(jiǎn)單的詞組到包含高度差異化的語(yǔ)境信息。每一個(gè)新的步驟都會(huì)增加自然語(yǔ)言的復(fù)雜度，暴露出當(dāng)前表示法的局限性。

語(yǔ)言的基本單位是單詞。在NLP的初期，這就產(chǎn)生了詞包表示法，即把文本中的所有詞都扔在一起，而不考慮它們的排序。請(qǐng)看這兩個(gè)例子。

在詞包世界里，這些句子會(huì)得到完全相同的表述，因?yàn)樗鼈冇上嗤脑~組成。顯然，這只包含了它們意義的一小部分。

序列表征容納了關(guān)于詞序的信息。在深度學(xué)習(xí)中，序列的處理最初是在順序感知的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）中實(shí)現(xiàn)的。然而，再往前走一步，語(yǔ)言的基本結(jié)構(gòu)不是純粹的順序，而是分層的。換句話說(shuō)，我們談?wù)摰牟皇橇斜?，而是?shù)。相距較遠(yuǎn)的詞實(shí)際上可以比相鄰的詞有更強(qiáng)的句法和語(yǔ)義聯(lián)系。請(qǐng)看下面的例子。

這里，她指的是那個(gè)女孩。當(dāng)一個(gè)RNN到達(dá)句子的結(jié)尾并最終看到她時(shí)，它對(duì)句子開(kāi)頭的記憶可能已經(jīng)在消退，因此不允許它恢復(fù)這種關(guān)系。

為了解決這些長(zhǎng)距離的依賴性，人們提出了更復(fù)雜的神經(jīng)結(jié)構(gòu)，以建立一個(gè)更有區(qū)別的語(yǔ)境記憶。其想法是將與未來(lái)預(yù)測(cè)有關(guān)的詞保留在記憶中，而忘記其他的詞。這是長(zhǎng)短時(shí)記憶（LSTM）單元和門控循環(huán)單元（GRU）的貢獻(xiàn)。然而，這些模型并不針對(duì)要預(yù)測(cè)的具體位置進(jìn)行優(yōu)化，而是針對(duì)通用的未來(lái)背景。此外，由于其復(fù)雜的結(jié)構(gòu)，它們的訓(xùn)練速度甚至比傳統(tǒng)的RNN更慢。

最后，人們摒棄了遞歸，提出了注意力機(jī)制，并將其納入Transformer架構(gòu)中。注意力允許模型在預(yù)測(cè)過(guò)程中在不同的詞之間來(lái)回關(guān)注。每個(gè)詞都根據(jù)其與要預(yù)測(cè)的特定位置的相關(guān)性進(jìn)行加權(quán)。對(duì)于上述句子，一旦模型到達(dá) "她 "的位置，girl的權(quán)重就會(huì)高于at，盡管它在線性順序中要遠(yuǎn)得多。

到目前為止，注意力機(jī)制最接近人類大腦在信息處理過(guò)程中的生物運(yùn)作。研究表明，注意力可以學(xué)習(xí)層次化的句法結(jié)構(gòu)，包括一系列復(fù)雜的句法現(xiàn)象。它還允許并行計(jì)算這一更快、更有效的訓(xùn)練。

3.培訓(xùn)前的目標(biāo)

有了適當(dāng)?shù)挠?xùn)練數(shù)據(jù)表示，我們的模型就可以開(kāi)始學(xué)習(xí)。有三個(gè)用于預(yù)訓(xùn)練語(yǔ)言模型的通用目標(biāo)：序列到序列的轉(zhuǎn)換、自動(dòng)回歸和自動(dòng)編碼。所有這些都要求模型掌握廣泛的語(yǔ)言學(xué)知識(shí)。

編碼器-解碼器架構(gòu)以及Transformer模型所解決的原始任務(wù)是序列到序列的轉(zhuǎn)換：一個(gè)序列被轉(zhuǎn)換為不同表示框架中的序列。經(jīng)典的序列到序列的任務(wù)是機(jī)器翻譯，但其他任務(wù)，如總結(jié)，也經(jīng)常以這種方式來(lái)表述。請(qǐng)注意，目標(biāo)序列不一定是文本--它也可以是其他非結(jié)構(gòu)化數(shù)據(jù)，如圖像，以及結(jié)構(gòu)化數(shù)據(jù)，如編程語(yǔ)言。序列到序列的LLMs的一個(gè)例子是BART系列。

第二個(gè)任務(wù)是自動(dòng)回歸，這也是最初的語(yǔ)言建模目標(biāo)。在自動(dòng)回歸中，模型學(xué)習(xí)根據(jù)以前的標(biāo)記來(lái)預(yù)測(cè)下一個(gè)輸出（token）。學(xué)習(xí)信號(hào)受到企業(yè)單向性的限制--模型只能使用來(lái)自預(yù)測(cè)令牌的右邊或左邊的信息。這是一個(gè)主要的限制，因?yàn)閱卧~既可以取決于過(guò)去，也可以取決于未來(lái)的位置。作為一個(gè)例子，考慮一下寫的動(dòng)詞如何在兩個(gè)方向上影響下面的句子。

在這里，紙的位置被限制為可寫的東西，而學(xué)生的位置被限制為人類，或者，無(wú)論如何，另一個(gè)能夠?qū)懽鞯闹悄軐?shí)體。

今天的頭條新聞中的許多LLM都是自回歸的，包括GPT系列、PaLM和BLOOM。

第三項(xiàng)任務(wù)--自動(dòng)編碼--解決了單向性的問(wèn)題。自動(dòng)編碼與經(jīng)典詞嵌入的學(xué)習(xí)非常相似。首先，我們通過(guò)在輸入中隱藏一定比例的標(biāo)記（通常是10-20%）來(lái)破壞訓(xùn)練數(shù)據(jù)。然后，該模型學(xué)習(xí)根據(jù)周圍的環(huán)境重建正確的輸入，同時(shí)考慮到前面和后面的標(biāo)記。自動(dòng)編碼器的典型例子是BERT系列，其中BERT代表來(lái)自變形器的雙向編碼器表示法。

4.模型結(jié)構(gòu)（編碼器-解碼器）

語(yǔ)言模型的基本構(gòu)成部分是編碼器和解碼器。編碼器將原始輸入轉(zhuǎn)化為高維代數(shù)表示，也稱為 "隱藏 "向量。等一下--隱藏的？嗯，實(shí)際上在這一點(diǎn)上沒(méi)有什么大的秘密。當(dāng)然，你可以看一下這個(gè)表示，但一個(gè)冗長(zhǎng)的數(shù)字向量不會(huì)向人傳達(dá)任何有意義的東西。這需要我們的模型的數(shù)學(xué)智能來(lái)處理它。解碼器以一種可理解的形式再現(xiàn)隱藏的表示，如另一種語(yǔ)言、編程代碼、圖像等。

圖4：編碼器-解碼器結(jié)構(gòu)的基本模式

編碼器-解碼器架構(gòu)最初是為遞歸神經(jīng)網(wǎng)絡(luò)引入的。自從引入基于注意力的Transformer模型以來(lái)，傳統(tǒng)的遞歸已經(jīng)失去了它的流行，而編碼器-解碼器的想法卻一直存在。大多數(shù)自然語(yǔ)言理解（NLU）任務(wù)依賴于編碼器，而自然語(yǔ)言生成（NLG）任務(wù)需要解碼器，序列到序列的轉(zhuǎn)換需要這兩個(gè)組件。

我們不會(huì)在這里討論Transformer架構(gòu)和關(guān)注機(jī)制的細(xì)節(jié)。對(duì)于那些想掌握這些細(xì)節(jié)的人來(lái)說(shuō)，要準(zhǔn)備好花大量的時(shí)間去琢磨它。

四、在現(xiàn)實(shí)世界中使用語(yǔ)言模型

1.微調(diào)

語(yǔ)言建模是一項(xiàng)強(qiáng)大的上游任務(wù)--如果你有一個(gè)成功的語(yǔ)言模型，恭喜你--這是一個(gè)智能模型。相反，NLP大多被用于更有針對(duì)性的下游任務(wù)，如情感分析、問(wèn)題回答和信息提取。這就是應(yīng)用遷移學(xué)習(xí)和重用現(xiàn)有語(yǔ)言知識(shí)以應(yīng)對(duì)更具體挑戰(zhàn)的時(shí)候。在微調(diào)過(guò)程中，模型的一部分被 "凍結(jié)"，其余部分則用特定領(lǐng)域或任務(wù)的數(shù)據(jù)進(jìn)一步訓(xùn)練。

明確的微調(diào)增加了LLM部署道路上的復(fù)雜性。它還會(huì)導(dǎo)致模型爆炸，即每個(gè)業(yè)務(wù)任務(wù)都需要自己的微調(diào)模型，從而升級(jí)到無(wú)法維護(hù)的各種模型。因此，人們已經(jīng)努力使用少量或零次學(xué)習(xí)來(lái)擺脫微調(diào)步驟（例如在GPT-3中）。這種學(xué)習(xí)是在預(yù)測(cè)過(guò)程中發(fā)生的：向模型提供 "提示"--任務(wù)描述和可能的幾個(gè)訓(xùn)練實(shí)例--以指導(dǎo)其對(duì)未來(lái)實(shí)例的預(yù)測(cè)。

雖然實(shí)施起來(lái)要快得多，但零次或少量學(xué)習(xí)的便利因素被其較低的預(yù)測(cè)質(zhì)量所抵消。此外，許多這樣的模型需要通過(guò)云端API訪問(wèn)。在開(kāi)發(fā)初期，這可能是一個(gè)受歡迎的機(jī)會(huì)--然而，在更高級(jí)的階段，它可能變成另一個(gè)不需要的外部依賴。

2.為下游任務(wù)挑選合適的模型

看著人工智能市場(chǎng)上不斷供應(yīng)的新語(yǔ)言模型，為特定的下游任務(wù)選擇合適的模型并與最先進(jìn)的技術(shù)保持同步是很棘手的。

研究論文通常以特定的下游任務(wù)和數(shù)據(jù)集作為每個(gè)模型的基準(zhǔn)。標(biāo)準(zhǔn)化的任務(wù)套件，如SuperGLUE和BIG-bench，可以針對(duì)眾多的NLP任務(wù)進(jìn)行統(tǒng)一的基準(zhǔn)測(cè)試，并提供一個(gè)比較的基礎(chǔ)。不過(guò)，我們應(yīng)該記住，這些測(cè)試是在一個(gè)高度受控的環(huán)境中準(zhǔn)備的。到今天為止，語(yǔ)言模型的泛化能力相當(dāng)有限--因此，轉(zhuǎn)移到現(xiàn)實(shí)生活中的數(shù)據(jù)集可能會(huì)大大影響模型的性能。評(píng)估和選擇一個(gè)合適的模型應(yīng)該包括在盡可能接近生產(chǎn)數(shù)據(jù)的數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。

作為一條經(jīng)驗(yàn)法則，預(yù)訓(xùn)練目標(biāo)提供了一個(gè)重要的提示：自回歸模型在文本生成任務(wù)中表現(xiàn)良好，如對(duì)話式人工智能、問(wèn)題回答和文本總結(jié)，而自動(dòng)編碼器擅長(zhǎng) "理解 "和結(jié)構(gòu)化語(yǔ)言，例如用于情感分析和各種信息提取任務(wù)。理論上，只要收到適當(dāng)?shù)奶崾荆糜诹泓c(diǎn)學(xué)習(xí)的模型可以執(zhí)行各種任務(wù)--然而，它們的準(zhǔn)確率通常低于經(jīng)過(guò)微調(diào)的模型。

為了使事情更加具體，下圖顯示了流行的NLP任務(wù)是如何與NLP文獻(xiàn)中突出的語(yǔ)言模型相關(guān)聯(lián)的。這些關(guān)聯(lián)是根據(jù)多種相似性和聚合度量計(jì)算的，包括嵌入相似性和距離加權(quán)共同發(fā)生。得分較高的模型-任務(wù)對(duì)，如BART/文本總結(jié)和LaMDA/對(duì)話式人工智能，表明基于歷史數(shù)據(jù)的良好匹配。

圖5：語(yǔ)言模型和下游任務(wù)之間的關(guān)聯(lián)強(qiáng)度

五、主要收獲

在這篇文章中，我們已經(jīng)涵蓋了LLM的基本概念和正在發(fā)生創(chuàng)新的主要層面。下表提供了最受歡迎的LLM的主要特征摘要。

表1：最受歡迎的大型語(yǔ)言模型的特征摘要

讓我們總結(jié)一下選擇和LLM的一般準(zhǔn)則。

1.在評(píng)估潛在模式時(shí)，要清楚在人工智能旅程中的位置。

在開(kāi)始的時(shí)候，用通過(guò)云API部署的LLM做實(shí)驗(yàn)可能是一個(gè)好主意。
一旦找到了產(chǎn)品與市場(chǎng)的契合點(diǎn)，考慮在你這邊托管和維護(hù)你的模型，以便有更多的控制權(quán)，并進(jìn)一步提高模型的性能，以滿足你的應(yīng)用。

2.為了與你的下游任務(wù)保持一致，人工智能團(tuán)隊(duì)?wèi)?yīng)該根據(jù)以下標(biāo)準(zhǔn)創(chuàng)建一個(gè)模型的短名單。

以下游任務(wù)為重點(diǎn)，對(duì)學(xué)術(shù)文獻(xiàn)中的成果進(jìn)行基準(zhǔn)測(cè)試

預(yù)培訓(xùn)目標(biāo)和下游任務(wù)之間的一致性：考慮為NLGU進(jìn)行自動(dòng)編碼，為NLG進(jìn)行自動(dòng)回歸。

以前報(bào)告的這種模型-任務(wù)組合的經(jīng)驗(yàn)。

3.對(duì)入圍的模型進(jìn)行測(cè)試，以了解真實(shí)世界的任務(wù)和數(shù)據(jù)集，從而對(duì)性能有一個(gè)初步的感覺(jué)。

4.在大多數(shù)情況下，有可能通過(guò)專門的微調(diào)達(dá)到更好的質(zhì)量。然而，如果你沒(méi)有內(nèi)部技術(shù)能力或預(yù)算進(jìn)行微調(diào)，或者你需要覆蓋大量的任務(wù)，可以考慮少數(shù)/零次學(xué)習(xí)。

5.LLM的創(chuàng)新和趨勢(shì)是短暫的。在使用語(yǔ)言模型時(shí)，要注意它們的生命周期和LLM領(lǐng)域的整體活動(dòng)，并注意加強(qiáng)你的游戲機(jī)會(huì)。

最后，要意識(shí)到LLMs的局限性。雖然它們有驚人的、類似于人類的產(chǎn)生語(yǔ)言的能力，但它們的整體認(rèn)知能力與我們?nèi)祟愊啾仁怯胁罹嗟摹＿@些模型的世界知識(shí)和推理能力嚴(yán)格限制在它們?cè)谡Z(yǔ)言表面發(fā)現(xiàn)的信息。它們也不能把事實(shí)放在時(shí)間上，可能會(huì)不眨眼地給你提供過(guò)時(shí)的信息。如果你正在構(gòu)建一個(gè)依賴于生成最新甚至是原始知識(shí)的應(yīng)用程序，請(qǐng)考慮將你的LLM與額外的多模態(tài)、結(jié)構(gòu)化或動(dòng)態(tài)知識(shí)源相結(jié)合。

原文鏈接：https://www.topbots.com/choosing-the-right-language-model/