十個(gè)大型語(yǔ)言模型(LLM)常見(jiàn)面試問(wèn)題和答案解析

作者：佚名 2024-04-11 13:38:19

人工智能

今天我們來(lái)總結(jié)以下大型語(yǔ)言模型面試中常問(wèn)的問(wèn)題。

一、哪種技術(shù)有助于減輕基于提示的學(xué)習(xí)中的偏見(jiàn)?

A.微調(diào) Fine-tuning

B.數(shù)據(jù)增強(qiáng) Data augmentation

C.提示校準(zhǔn) Prompt calibration

D.梯度裁剪 Gradient clipping

答案:C

提示校準(zhǔn)包括調(diào)整提示，盡量減少產(chǎn)生的輸出中的偏差。微調(diào)修改模型本身，而數(shù)據(jù)增強(qiáng)擴(kuò)展訓(xùn)練數(shù)據(jù)。梯度裁剪防止在訓(xùn)練期間爆炸梯度。

二、是否需要為所有基于文本的LLM用例提供矢量存儲(chǔ)?

答案：不需要

向量存儲(chǔ)用于存儲(chǔ)單詞或句子的向量表示。這些向量表示捕獲單詞或句子的語(yǔ)義，并用于各種NLP任務(wù)。

并非所有基于文本的LLM用例都需要矢量存儲(chǔ)。有些任務(wù)，如情感分析和翻譯，不需要RAG也就不需要矢量存儲(chǔ)。

最常見(jiàn)的不需要矢量存儲(chǔ)的：

1、情感分析：這項(xiàng)任務(wù)包括確定一段文本中表達(dá)的情感(積極、消極、中性)。它通?；谖谋颈旧矶恍枰~外的上下文。

2、這項(xiàng)任務(wù)包括將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言。上下文通常由句子本身和它所屬的更廣泛的文檔提供，而不是單獨(dú)的向量存儲(chǔ)。

三、以下哪一項(xiàng)不是專門(mén)用于將大型語(yǔ)言模型(llm)與人類價(jià)值觀和偏好對(duì)齊的技術(shù)?

A.RLHF

B.Direct Preference Optimization

C.Data Augmentation

答案:C

數(shù)據(jù)增強(qiáng)Data Augmentation是一種通用的機(jī)器學(xué)習(xí)技術(shù)，它涉及使用現(xiàn)有數(shù)據(jù)的變化或修改來(lái)擴(kuò)展訓(xùn)練數(shù)據(jù)。雖然它可以通過(guò)影響模型的學(xué)習(xí)模式間接影響LLM一致性，但它并不是專門(mén)為人類價(jià)值一致性而設(shè)計(jì)的。

A)從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)是一種技術(shù)，其中人類反饋用于改進(jìn)LLM的獎(jiǎng)勵(lì)函數(shù)，引導(dǎo)其產(chǎn)生與人類偏好一致的輸出。

B)直接偏好優(yōu)化(DPO)是另一種基于人類偏好直接比較不同LLM輸出以指導(dǎo)學(xué)習(xí)過(guò)程的技術(shù)。

四、在RLHF中，如何描述“reward hacking”?

A.優(yōu)化所期望的行為

B.利用獎(jiǎng)勵(lì)函數(shù)漏洞

答案：B

reward hacking是指在RLHF中，agent發(fā)現(xiàn)獎(jiǎng)勵(lì)函數(shù)中存在意想不到的漏洞或偏差，從而在沒(méi)有實(shí)際遵循預(yù)期行為的情況下獲得高獎(jiǎng)勵(lì)的情況，也就是說(shuō)，在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)不有漏洞的情況下才會(huì)出現(xiàn)reward hacking的問(wèn)題。

雖然優(yōu)化期望行為是RLHF的預(yù)期結(jié)果，但它并不代表reward hacking。選項(xiàng)A描述了一個(gè)成功的訓(xùn)練過(guò)程。在reward hacking中，代理偏離期望的行為，找到一種意想不到的方式（或者漏洞）來(lái)最大化獎(jiǎng)勵(lì)。

五、對(duì)任務(wù)的模型進(jìn)行微調(diào)(創(chuàng)造性寫(xiě)作)，哪個(gè)因素顯著影響模型適應(yīng)目標(biāo)任務(wù)的能力?

A.微調(diào)數(shù)據(jù)集的大小

B.預(yù)訓(xùn)練的模型架構(gòu)和大小

答案:B

預(yù)訓(xùn)練模型的體系結(jié)構(gòu)作為微調(diào)的基礎(chǔ)。像大型模型(例如GPT-3)中使用的復(fù)雜而通用的架構(gòu)允許更大程度地適應(yīng)不同的任務(wù)。微調(diào)數(shù)據(jù)集的大小發(fā)揮了作用，但它是次要的。一個(gè)架構(gòu)良好的預(yù)訓(xùn)練模型可以從相對(duì)較小的數(shù)據(jù)集中學(xué)習(xí)，并有效地推廣到目標(biāo)任務(wù)。

雖然微調(diào)數(shù)據(jù)集的大小可以提高性能，但它并不是最關(guān)鍵的因素。即使是龐大的數(shù)據(jù)集也無(wú)法彌補(bǔ)預(yù)訓(xùn)練模型架構(gòu)的局限性。設(shè)計(jì)良好的預(yù)訓(xùn)練模型可以從較小的數(shù)據(jù)集中提取相關(guān)模式，并且優(yōu)于具有較大數(shù)據(jù)集的不太復(fù)雜的模型。

六、transformer 結(jié)構(gòu)中的自注意力機(jī)制在模型主要起到了什么作用?

A.衡量單詞的重要性

B.預(yù)測(cè)下一個(gè)單詞

C.自動(dòng)總結(jié)

答案:A

transformer 的自注意力機(jī)制會(huì)對(duì)句子中單詞的相對(duì)重要性進(jìn)行總結(jié)。根據(jù)當(dāng)前正在處理的單詞動(dòng)態(tài)調(diào)整關(guān)注點(diǎn)。相似度得分高的單詞貢獻(xiàn)更顯著，這樣會(huì)對(duì)單詞重要性和句子結(jié)構(gòu)的理解更豐富。這為各種嚴(yán)重依賴上下文感知分析的NLP任務(wù)提供了支持。

七、在大型語(yǔ)言模型(llm)中使用子詞算法(如BPE或WordPiece)的優(yōu)點(diǎn)是什么?

A.限制詞匯量

B.減少訓(xùn)練數(shù)據(jù)量

C.提高計(jì)算效率

答案:A

llm處理大量的文本，如果考慮每一個(gè)單詞，就會(huì)導(dǎo)致一個(gè)非常大的詞表。像字節(jié)對(duì)編碼(BPE)和WordPiece這樣的子詞算法將單詞分解成更小的有意義的單位(子詞)，然后用作詞匯表。這大大減少了詞匯量，同時(shí)仍然捕獲了大多數(shù)單詞的含義，使模型更有效地訓(xùn)練和使用。

子詞算法不直接減少訓(xùn)練數(shù)據(jù)量。數(shù)據(jù)大小保持不變。雖然限制詞匯表大小可以提高計(jì)算效率，但這并不是子詞算法的主要目的。它們的主要優(yōu)點(diǎn)在于用較小的單位集有效地表示較大的詞匯表。

八、與Softmax相比，Adaptive Softmax如何提高大型語(yǔ)言模型的速度?

A.稀疏單詞表示

B.Zipf定律

C.預(yù)訓(xùn)練嵌入

答案:B

標(biāo)準(zhǔn)Softmax需要對(duì)每個(gè)單詞進(jìn)行昂貴的計(jì)算，Softmax為詞表中的每個(gè)單詞進(jìn)行大量矩陣計(jì)算，導(dǎo)致數(shù)十億次操作，而Adaptive Softmax利用Zipf定律(常用詞頻繁，罕見(jiàn)詞不頻繁)按頻率對(duì)單詞進(jìn)行分組。經(jīng)常出現(xiàn)的單詞在較小的組中得到精確的計(jì)算，而罕見(jiàn)的單詞被分組在一起以獲得更有效的計(jì)算。這大大降低了訓(xùn)練大型語(yǔ)言模型的成本。

雖然稀疏表示可以改善內(nèi)存使用，但它們并不能直接解決Softmax在大型詞匯表中的計(jì)算瓶頸。預(yù)訓(xùn)練嵌入增強(qiáng)了模型性能，但沒(méi)有解決Softmax計(jì)算復(fù)雜性的核心問(wèn)題。

九、可以調(diào)整哪些推理配置參數(shù)來(lái)增加或減少模型輸出層中的隨機(jī)性?

A.最大新令牌數(shù)

B. Top-k

C.Temperature

答案:C

在文本生成過(guò)程中，大型語(yǔ)言模型(llm)依賴于softmax層來(lái)為潛在的下一個(gè)單詞分配概率。溫度Temperature是影響這些概率分布隨機(jī)性的關(guān)鍵參數(shù)。

當(dāng)溫度設(shè)置為低時(shí)，softmax層根據(jù)當(dāng)前上下文為具有最高可能性的單個(gè)單詞分配顯著更高的概率。更高的溫度“軟化”了概率分布，使其他不太可能出現(xiàn)的單詞更具競(jìng)爭(zhēng)力。

最大新令牌數(shù)僅定義LLM在單個(gè)序列中可以生成的最大單詞數(shù)。top -k采樣限制softmax層只考慮下一個(gè)預(yù)測(cè)最可能的前k個(gè)單詞。

十、當(dāng)模型不能在單個(gè)GPU加載時(shí)，什么技術(shù)可以跨GPU擴(kuò)展模型訓(xùn)練?

A. DDP

B. FSDP

答案:B

FSDP(Fully Sharded Data Parallel)是一種技術(shù)，當(dāng)模型太大而無(wú)法容納在單個(gè)芯片的內(nèi)存時(shí)，它允許跨GPU縮放模型訓(xùn)練。FSDP可以將模型參數(shù)，梯度和優(yōu)化器進(jìn)行分片操作，并且將狀態(tài)跨gpu傳遞，實(shí)現(xiàn)高效的訓(xùn)練。