譯者 | 崔皓
審校 | 孫淑娟
一、開(kāi)篇
大型語(yǔ)言模型(LLMs)是為產(chǎn)生文本而訓(xùn)練的深度學(xué)習(xí)模型。憑借令人印象深刻的能力,LLMs已經(jīng)成為現(xiàn)代自然語(yǔ)言處理(NLP)的佼佼者。傳統(tǒng)意義上,它們是由學(xué)術(shù)機(jī)構(gòu)和大型科技公司(如OpenAI、微軟和英偉達(dá))預(yù)先訓(xùn)練而成的。它們中的大多數(shù)隨后被提供給公眾使用。這種即插即用的方法是向大規(guī)模的人工智能應(yīng)用邁出的重要一步--企業(yè)現(xiàn)在可以專注于為特定的使用案例微調(diào)現(xiàn)有的LLM模型,而不是花費(fèi)大量資源來(lái)訓(xùn)練具有一般語(yǔ)言知識(shí)的模型。
然而,為應(yīng)用挑選合適的模型仍舊是很棘手的。用戶和其他利益相關(guān)者必須在一個(gè)充滿活力的語(yǔ)言模型和相關(guān)的創(chuàng)新場(chǎng)景中做出選擇。這些改進(jìn)涉及語(yǔ)言模型的不同組成部分,包括其訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練目標(biāo)、架構(gòu)和微調(diào)方法--每一個(gè)方面都可以寫一本書(shū)。在所有這些研究的基礎(chǔ)上,圍繞著語(yǔ)言模型的營(yíng)銷和人工智能的光環(huán)使事情變得更加模糊不清。
本文解釋了LLMs背后的主要概念和原則。其目的是為非技術(shù)性的利益相關(guān)者提供一個(gè)直觀的理解,以及一種與開(kāi)發(fā)者和人工智能專家高效互動(dòng)的語(yǔ)言。為了擴(kuò)大覆蓋面,文章包括了植根于大量NLP相關(guān)出版物的分析。雖然我們不會(huì)深入研究語(yǔ)言模型的數(shù)學(xué)細(xì)節(jié),但這些可以很容易從參考文獻(xiàn)中檢索到。
文章的結(jié)構(gòu)如下:首先,將語(yǔ)言模型置于不斷發(fā)展的NLP環(huán)境中。第二部分解釋了LLMs是如何建立和預(yù)訓(xùn)練的。最后,會(huì)描述微調(diào)過(guò)程并提供了一些關(guān)于模型選擇的指導(dǎo)。
二、語(yǔ)言模型的世界
1.彌合人機(jī)差距
語(yǔ)言是人類思維的迷人技能--它是知識(shí)交流的通用協(xié)議,并表達(dá)主觀想法,如意圖、意見(jiàn)和情感。在人工智能的歷史上,已經(jīng)有多波研究用數(shù)學(xué)手段來(lái)接近("建模")人類語(yǔ)言。在深度學(xué)習(xí)時(shí)代之前,表征是基于簡(jiǎn)單的代數(shù)和概率概念,如單詞的單熱表征、序列概率模型和遞歸結(jié)構(gòu)。隨著過(guò)去幾年深度學(xué)習(xí)的發(fā)展,語(yǔ)言表征的精度、復(fù)雜性和表現(xiàn)力都有所提高。
2018年,BERT作為第一個(gè)基于新Transformer架構(gòu)的LLM被推出。從那時(shí)起,基于Transformer的LLM獲得了強(qiáng)勁的發(fā)展勢(shì)頭。語(yǔ)言建模由于其通用性特別具有吸引力。雖然許多現(xiàn)實(shí)世界的NLP任務(wù),如情感分析、信息檢索和信息提取不需要產(chǎn)生語(yǔ)言,但假設(shè)一個(gè)產(chǎn)生語(yǔ)言的模型也有技能來(lái)解決各種更專業(yè)的語(yǔ)言挑戰(zhàn)。
2.尺寸問(wèn)題
學(xué)習(xí)發(fā)生在參數(shù)的基礎(chǔ)上--在訓(xùn)練過(guò)程中優(yōu)化的變量,以達(dá)到最佳預(yù)測(cè)質(zhì)量。隨著參數(shù)數(shù)量的增加,模型能夠獲得更細(xì)化的知識(shí)并改善其預(yù)測(cè)。自2017-2018年引入第一批LLM以來(lái),我們看到了參數(shù)大小的指數(shù)級(jí)爆炸--雖然突破性的BERT是用340M的參數(shù)訓(xùn)練的,但2022年發(fā)布的模型Megatron-Turing NLG是用530B的參數(shù)訓(xùn)練的--增加了超過(guò)一千倍。
圖1:語(yǔ)言模型的參數(shù)大小隨時(shí)間呈指數(shù)增長(zhǎng)
因此,主流通過(guò)使用不斷增大的參數(shù)數(shù)量來(lái)嘩眾取寵。然而,有批評(píng)的聲音指出,模型性能的增長(zhǎng)速度與模型規(guī)模的增長(zhǎng)速度不一致。另一方面,模型預(yù)訓(xùn)練會(huì)留下相當(dāng)大的碳足跡??s減規(guī)模顯得刻不容緩,它使語(yǔ)言建模的進(jìn)展更具有可持續(xù)性。
3.語(yǔ)言模型的生命周期
LLM的遠(yuǎn)景是富有競(jìng)爭(zhēng)性的,創(chuàng)新是短暫的。下圖顯示了2018-2022年時(shí)間段內(nèi)最受歡迎的前15名LLM 模型,以及他們?cè)谝欢螘r(shí)間內(nèi)的占有率。
圖2:前15個(gè)最受歡迎語(yǔ)言模型的提及率和占有率
我們可以看到,大多數(shù)模型在相對(duì)較短的時(shí)間內(nèi)就不那么流行了。為了保持領(lǐng)先,用戶應(yīng)該監(jiān)測(cè)當(dāng)前的創(chuàng)新,并評(píng)估升級(jí)是否值得。
大多數(shù)LLM都遵循一個(gè)類似的生命周期:首先,在 "上游",模型被預(yù)先訓(xùn)練。由于對(duì)數(shù)據(jù)量和計(jì)算量的要求很高,它大多是大型科技公司和大學(xué)的特權(quán)。最近,也有一些合作出現(xiàn)(例如BigScience研討會(huì)),以共同推進(jìn)LLM領(lǐng)域的發(fā)展。少數(shù)資金充足的初創(chuàng)公司,如Cohere和AI21實(shí)驗(yàn)室,也提供預(yù)先訓(xùn)練好的LLM。
在發(fā)布之后,模型被專注于應(yīng)用的開(kāi)發(fā)者和企業(yè)在 "下游 "采用和部署。在這個(gè)階段,大多數(shù)模型需要一個(gè)額外的微調(diào)步驟以適應(yīng)特定的領(lǐng)域和任務(wù)。其他的,如GPT-3,則更方便,因?yàn)樗鼈兛梢栽陬A(yù)測(cè)期間直接學(xué)習(xí)各種語(yǔ)言任務(wù)(零次或幾次預(yù)測(cè))。
最后,時(shí)間敲響了大門,一個(gè)更好的模型出現(xiàn)在拐角處--要么有更多的參數(shù),更有效地使用硬件,要么對(duì)人類語(yǔ)言的建模有更根本的改進(jìn)。帶來(lái)實(shí)質(zhì)性創(chuàng)新的模型可以催生出整個(gè)模型家族。例如,BERT在BERT-QA、DistilBERT和RoBERTa中繼續(xù)存在,這些都是基于原始架構(gòu)的。
在接下來(lái)的章節(jié)中,我們將探討這個(gè)生命周期的前兩個(gè)階段--預(yù)訓(xùn)練和為部署而進(jìn)行的微調(diào)。
三、預(yù)訓(xùn)練:LLM是如何誕生的
大多數(shù)團(tuán)隊(duì)和NLP從業(yè)者不會(huì)參與LLM的預(yù)訓(xùn)練,而是參與其微調(diào)和部署。然而,要成功地挑選和使用一個(gè)模型,重要的是要了解 "引擎蓋 "下發(fā)生了什么。在這一節(jié)中,我們將看一下LLM的基本成分。
- 訓(xùn)練數(shù)據(jù)
- 輸入表示
- 訓(xùn)練前的目標(biāo)
- 模型結(jié)構(gòu)(編碼器-解碼器)
每一項(xiàng)都不僅會(huì)影響到選擇,也會(huì)影響到LLM的微調(diào)和部署。
1.訓(xùn)練數(shù)據(jù)
用于LLM訓(xùn)練的數(shù)據(jù)大多是涵蓋不同風(fēng)格的文本數(shù)據(jù),如文學(xué)、用戶生成的內(nèi)容和新聞數(shù)據(jù)。在看到各種不同的文本類型后,產(chǎn)生的模型會(huì)意識(shí)到語(yǔ)言的細(xì)節(jié)。除文本數(shù)據(jù)外,代碼也經(jīng)常被用作輸入,教導(dǎo)模型生成有效的程序和代碼片段。
不出所料,訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì)模型的性能有直接影響--也對(duì)模型所需的大小有影響。如果用更加聰明的方式準(zhǔn)備訓(xùn)練數(shù)據(jù),就可以提高模型的質(zhì)量,同時(shí)減少其數(shù)據(jù)的容量。一個(gè)例子是T0模型,它比GPT-3小16倍,但在一系列基準(zhǔn)任務(wù)上勝過(guò)它。訣竅就在這里:它不只是使用任何文本作為訓(xùn)練數(shù)據(jù),而是直接使用任務(wù)公式,從而使其學(xué)習(xí)信號(hào)更加集中。圖3說(shuō)明了一些訓(xùn)練實(shí)例。
圖3:T0在廣泛明確的語(yǔ)言任務(wù)上進(jìn)行訓(xùn)練
關(guān)于訓(xùn)練數(shù)據(jù)的最后說(shuō)明:我們經(jīng)常聽(tīng)說(shuō)語(yǔ)言模型是以無(wú)監(jiān)督的方式訓(xùn)練的。雖然這種方式極具吸引力,但在技術(shù)上是錯(cuò)誤的。相反,格式良好的文本已經(jīng)提供了必要的學(xué)習(xí)信號(hào),使我們省去了繁瑣的手工數(shù)據(jù)注釋過(guò)程。要預(yù)測(cè)的標(biāo)簽對(duì)應(yīng)于一個(gè)句子中的過(guò)去和/或未來(lái)的詞。因此,注釋是自動(dòng)發(fā)生的,而且是大規(guī)模的,使得該領(lǐng)域的相對(duì)快速進(jìn)展成為可能。
2.輸入表示
一旦訓(xùn)練數(shù)據(jù)被集合起來(lái),我們需要將其打包成模型可以應(yīng)用的形式。神經(jīng)網(wǎng)絡(luò)是用代數(shù)結(jié)構(gòu)(向量和矩陣)來(lái)輸入的,而語(yǔ)言的最佳代數(shù)表示是一個(gè)持續(xù)的探索--從簡(jiǎn)單的詞組到包含高度差異化的語(yǔ)境信息。每一個(gè)新的步驟都會(huì)增加自然語(yǔ)言的復(fù)雜度,暴露出當(dāng)前表示法的局限性。
語(yǔ)言的基本單位是單詞。在NLP的初期,這就產(chǎn)生了詞包表示法,即把文本中的所有詞都扔在一起,而不考慮它們的排序。請(qǐng)看這兩個(gè)例子。
在詞包世界里,這些句子會(huì)得到完全相同的表述,因?yàn)樗鼈冇上嗤脑~組成。顯然,這只包含了它們意義的一小部分。
序列表征容納了關(guān)于詞序的信息。在深度學(xué)習(xí)中,序列的處理最初是在順序感知的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中實(shí)現(xiàn)的。然而,再往前走一步,語(yǔ)言的基本結(jié)構(gòu)不是純粹的順序,而是分層的。換句話說(shuō),我們談?wù)摰牟皇橇斜?,而是?shù)。相距較遠(yuǎn)的詞實(shí)際上可以比相鄰的詞有更強(qiáng)的句法和語(yǔ)義聯(lián)系。請(qǐng)看下面的例子。
這里,她指的是那個(gè)女孩。當(dāng)一個(gè)RNN到達(dá)句子的結(jié)尾并最終看到她時(shí),它對(duì)句子開(kāi)頭的記憶可能已經(jīng)在消退,因此不允許它恢復(fù)這種關(guān)系。
為了解決這些長(zhǎng)距離的依賴性,人們提出了更復(fù)雜的神經(jīng)結(jié)構(gòu),以建立一個(gè)更有區(qū)別的語(yǔ)境記憶。其想法是將與未來(lái)預(yù)測(cè)有關(guān)的詞保留在記憶中,而忘記其他的詞。這是長(zhǎng)短時(shí)記憶(LSTM)單元和門控循環(huán)單元(GRU)的貢獻(xiàn)。然而,這些模型并不針對(duì)要預(yù)測(cè)的具體位置進(jìn)行優(yōu)化,而是針對(duì)通用的未來(lái)背景。此外,由于其復(fù)雜的結(jié)構(gòu),它們的訓(xùn)練速度甚至比傳統(tǒng)的RNN更慢。
最后,人們摒棄了遞歸,提出了注意力機(jī)制,并將其納入Transformer架構(gòu)中。注意力允許模型在預(yù)測(cè)過(guò)程中在不同的詞之間來(lái)回關(guān)注。每個(gè)詞都根據(jù)其與要預(yù)測(cè)的特定位置的相關(guān)性進(jìn)行加權(quán)。對(duì)于上述句子,一旦模型到達(dá) "她 "的位置,girl的權(quán)重就會(huì)高于at,盡管它在線性順序中要遠(yuǎn)得多。
到目前為止,注意力機(jī)制最接近人類大腦在信息處理過(guò)程中的生物運(yùn)作。研究表明,注意力可以學(xué)習(xí)層次化的句法結(jié)構(gòu),包括一系列復(fù)雜的句法現(xiàn)象。它還允許并行計(jì)算這一更快、更有效的訓(xùn)練。
3.培訓(xùn)前的目標(biāo)
有了適當(dāng)?shù)挠?xùn)練數(shù)據(jù)表示,我們的模型就可以開(kāi)始學(xué)習(xí)。有三個(gè)用于預(yù)訓(xùn)練語(yǔ)言模型的通用目標(biāo):序列到序列的轉(zhuǎn)換、自動(dòng)回歸和自動(dòng)編碼。所有這些都要求模型掌握廣泛的語(yǔ)言學(xué)知識(shí)。
編碼器-解碼器架構(gòu)以及Transformer模型所解決的原始任務(wù)是序列到序列的轉(zhuǎn)換:一個(gè)序列被轉(zhuǎn)換為不同表示框架中的序列。經(jīng)典的序列到序列的任務(wù)是機(jī)器翻譯,但其他任務(wù),如總結(jié),也經(jīng)常以這種方式來(lái)表述。請(qǐng)注意,目標(biāo)序列不一定是文本--它也可以是其他非結(jié)構(gòu)化數(shù)據(jù),如圖像,以及結(jié)構(gòu)化數(shù)據(jù),如編程語(yǔ)言。序列到序列的LLMs的一個(gè)例子是BART系列。
第二個(gè)任務(wù)是自動(dòng)回歸,這也是最初的語(yǔ)言建模目標(biāo)。在自動(dòng)回歸中,模型學(xué)習(xí)根據(jù)以前的標(biāo)記來(lái)預(yù)測(cè)下一個(gè)輸出(token)。學(xué)習(xí)信號(hào)受到企業(yè)單向性的限制--模型只能使用來(lái)自預(yù)測(cè)令牌的右邊或左邊的信息。這是一個(gè)主要的限制,因?yàn)閱卧~既可以取決于過(guò)去,也可以取決于未來(lái)的位置。作為一個(gè)例子,考慮一下寫的動(dòng)詞如何在兩個(gè)方向上影響下面的句子。
在這里,紙的位置被限制為可寫的東西,而學(xué)生的位置被限制為人類,或者,無(wú)論如何,另一個(gè)能夠?qū)懽鞯闹悄軐?shí)體。
今天的頭條新聞中的許多LLM都是自回歸的,包括GPT系列、PaLM和BLOOM。
第三項(xiàng)任務(wù)--自動(dòng)編碼--解決了單向性的問(wèn)題。自動(dòng)編碼與經(jīng)典詞嵌入的學(xué)習(xí)非常相似。首先,我們通過(guò)在輸入中隱藏一定比例的標(biāo)記(通常是10-20%)來(lái)破壞訓(xùn)練數(shù)據(jù)。然后,該模型學(xué)習(xí)根據(jù)周圍的環(huán)境重建正確的輸入,同時(shí)考慮到前面和后面的標(biāo)記。自動(dòng)編碼器的典型例子是BERT系列,其中BERT代表來(lái)自變形器的雙向編碼器表示法。
4.模型結(jié)構(gòu)(編碼器-解碼器)
語(yǔ)言模型的基本構(gòu)成部分是編碼器和解碼器。編碼器將原始輸入轉(zhuǎn)化為高維代數(shù)表示,也稱為 "隱藏 "向量。等一下--隱藏的?嗯,實(shí)際上在這一點(diǎn)上沒(méi)有什么大的秘密。當(dāng)然,你可以看一下這個(gè)表示,但一個(gè)冗長(zhǎng)的數(shù)字向量不會(huì)向人傳達(dá)任何有意義的東西。這需要我們的模型的數(shù)學(xué)智能來(lái)處理它。解碼器以一種可理解的形式再現(xiàn)隱藏的表示,如另一種語(yǔ)言、編程代碼、圖像等。
圖4:編碼器-解碼器結(jié)構(gòu)的基本模式
編碼器-解碼器架構(gòu)最初是為遞歸神經(jīng)網(wǎng)絡(luò)引入的。自從引入基于注意力的Transformer模型以來(lái),傳統(tǒng)的遞歸已經(jīng)失去了它的流行,而編碼器-解碼器的想法卻一直存在。大多數(shù)自然語(yǔ)言理解(NLU)任務(wù)依賴于編碼器,而自然語(yǔ)言生成(NLG)任務(wù)需要解碼器,序列到序列的轉(zhuǎn)換需要這兩個(gè)組件。
我們不會(huì)在這里討論Transformer架構(gòu)和關(guān)注機(jī)制的細(xì)節(jié)。對(duì)于那些想掌握這些細(xì)節(jié)的人來(lái)說(shuō),要準(zhǔn)備好花大量的時(shí)間去琢磨它。
四、在現(xiàn)實(shí)世界中使用語(yǔ)言模型
1.微調(diào)
語(yǔ)言建模是一項(xiàng)強(qiáng)大的上游任務(wù)--如果你有一個(gè)成功的語(yǔ)言模型,恭喜你--這是一個(gè)智能模型。相反,NLP大多被用于更有針對(duì)性的下游任務(wù),如情感分析、問(wèn)題回答和信息提取。這就是應(yīng)用遷移學(xué)習(xí)和重用現(xiàn)有語(yǔ)言知識(shí)以應(yīng)對(duì)更具體挑戰(zhàn)的時(shí)候。在微調(diào)過(guò)程中,模型的一部分被 "凍結(jié)",其余部分則用特定領(lǐng)域或任務(wù)的數(shù)據(jù)進(jìn)一步訓(xùn)練。
明確的微調(diào)增加了LLM部署道路上的復(fù)雜性。它還會(huì)導(dǎo)致模型爆炸,即每個(gè)業(yè)務(wù)任務(wù)都需要自己的微調(diào)模型,從而升級(jí)到無(wú)法維護(hù)的各種模型。因此,人們已經(jīng)努力使用少量或零次學(xué)習(xí)來(lái)擺脫微調(diào)步驟(例如在GPT-3中)。這種學(xué)習(xí)是在預(yù)測(cè)過(guò)程中發(fā)生的:向模型提供 "提示"--任務(wù)描述和可能的幾個(gè)訓(xùn)練實(shí)例--以指導(dǎo)其對(duì)未來(lái)實(shí)例的預(yù)測(cè)。
雖然實(shí)施起來(lái)要快得多,但零次或少量學(xué)習(xí)的便利因素被其較低的預(yù)測(cè)質(zhì)量所抵消。此外,許多這樣的模型需要通過(guò)云端API訪問(wèn)。在開(kāi)發(fā)初期,這可能是一個(gè)受歡迎的機(jī)會(huì)--然而,在更高級(jí)的階段,它可能變成另一個(gè)不需要的外部依賴。
2.為下游任務(wù)挑選合適的模型
看著人工智能市場(chǎng)上不斷供應(yīng)的新語(yǔ)言模型,為特定的下游任務(wù)選擇合適的模型并與最先進(jìn)的技術(shù)保持同步是很棘手的。
研究論文通常以特定的下游任務(wù)和數(shù)據(jù)集作為每個(gè)模型的基準(zhǔn)。標(biāo)準(zhǔn)化的任務(wù)套件,如SuperGLUE和BIG-bench,可以針對(duì)眾多的NLP任務(wù)進(jìn)行統(tǒng)一的基準(zhǔn)測(cè)試,并提供一個(gè)比較的基礎(chǔ)。不過(guò),我們應(yīng)該記住,這些測(cè)試是在一個(gè)高度受控的環(huán)境中準(zhǔn)備的。到今天為止,語(yǔ)言模型的泛化能力相當(dāng)有限--因此,轉(zhuǎn)移到現(xiàn)實(shí)生活中的數(shù)據(jù)集可能會(huì)大大影響模型的性能。評(píng)估和選擇一個(gè)合適的模型應(yīng)該包括在盡可能接近生產(chǎn)數(shù)據(jù)的數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。
作為一條經(jīng)驗(yàn)法則,預(yù)訓(xùn)練目標(biāo)提供了一個(gè)重要的提示:自回歸模型在文本生成任務(wù)中表現(xiàn)良好,如對(duì)話式人工智能、問(wèn)題回答和文本總結(jié),而自動(dòng)編碼器擅長(zhǎng) "理解 "和結(jié)構(gòu)化語(yǔ)言,例如用于情感分析和各種信息提取任務(wù)。理論上,只要收到適當(dāng)?shù)奶崾荆糜诹泓c(diǎn)學(xué)習(xí)的模型可以執(zhí)行各種任務(wù)--然而,它們的準(zhǔn)確率通常低于經(jīng)過(guò)微調(diào)的模型。
為了使事情更加具體,下圖顯示了流行的NLP任務(wù)是如何與NLP文獻(xiàn)中突出的語(yǔ)言模型相關(guān)聯(lián)的。這些關(guān)聯(lián)是根據(jù)多種相似性和聚合度量計(jì)算的,包括嵌入相似性和距離加權(quán)共同發(fā)生。得分較高的模型-任務(wù)對(duì),如BART/文本總結(jié)和LaMDA/對(duì)話式人工智能,表明基于歷史數(shù)據(jù)的良好匹配。
圖5:語(yǔ)言模型和下游任務(wù)之間的關(guān)聯(lián)強(qiáng)度
五、主要收獲
在這篇文章中,我們已經(jīng)涵蓋了LLM的基本概念和正在發(fā)生創(chuàng)新的主要層面。下表提供了最受歡迎的LLM的主要特征摘要。
表1:最受歡迎的大型語(yǔ)言模型的特征摘要
讓我們總結(jié)一下選擇和LLM的一般準(zhǔn)則。
1.在評(píng)估潛在模式時(shí),要清楚在人工智能旅程中的位置。
- 在開(kāi)始的時(shí)候,用通過(guò)云API部署的LLM做實(shí)驗(yàn)可能是一個(gè)好主意。
- 一旦找到了產(chǎn)品與市場(chǎng)的契合點(diǎn),考慮在你這邊托管和維護(hù)你的模型,以便有更多的控制權(quán),并進(jìn)一步提高模型的性能,以滿足你的應(yīng)用。
2.為了與你的下游任務(wù)保持一致,人工智能團(tuán)隊(duì)?wèi)?yīng)該根據(jù)以下標(biāo)準(zhǔn)創(chuàng)建一個(gè)模型的短名單。
以下游任務(wù)為重點(diǎn),對(duì)學(xué)術(shù)文獻(xiàn)中的成果進(jìn)行基準(zhǔn)測(cè)試
預(yù)培訓(xùn)目標(biāo)和下游任務(wù)之間的一致性:考慮為NLGU進(jìn)行自動(dòng)編碼,為NLG進(jìn)行自動(dòng)回歸。
以前報(bào)告的這種模型-任務(wù)組合的經(jīng)驗(yàn)。
3.對(duì)入圍的模型進(jìn)行測(cè)試,以了解真實(shí)世界的任務(wù)和數(shù)據(jù)集,從而對(duì)性能有一個(gè)初步的感覺(jué)。
4.在大多數(shù)情況下,有可能通過(guò)專門的微調(diào)達(dá)到更好的質(zhì)量。然而,如果你沒(méi)有內(nèi)部技術(shù)能力或預(yù)算進(jìn)行微調(diào),或者你需要覆蓋大量的任務(wù),可以考慮少數(shù)/零次學(xué)習(xí)。
5.LLM的創(chuàng)新和趨勢(shì)是短暫的。在使用語(yǔ)言模型時(shí),要注意它們的生命周期和LLM領(lǐng)域的整體活動(dòng),并注意加強(qiáng)你的游戲機(jī)會(huì)。
最后,要意識(shí)到LLMs的局限性。雖然它們有驚人的、類似于人類的產(chǎn)生語(yǔ)言的能力,但它們的整體認(rèn)知能力與我們?nèi)祟愊啾仁怯胁罹嗟摹_@些模型的世界知識(shí)和推理能力嚴(yán)格限制在它們?cè)谡Z(yǔ)言表面發(fā)現(xiàn)的信息。它們也不能把事實(shí)放在時(shí)間上,可能會(huì)不眨眼地給你提供過(guò)時(shí)的信息。如果你正在構(gòu)建一個(gè)依賴于生成最新甚至是原始知識(shí)的應(yīng)用程序,請(qǐng)考慮將你的LLM與額外的多模態(tài)、結(jié)構(gòu)化或動(dòng)態(tài)知識(shí)源相結(jié)合。
原文鏈接:https://www.topbots.com/choosing-the-right-language-model/
譯者介紹
崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開(kāi)發(fā)和架構(gòu)經(jīng)驗(yàn),10年分布式架構(gòu)經(jīng)驗(yàn)。