十個(gè)大型語(yǔ)言模型(LLM)常見(jiàn)面試問(wèn)題和答案解析
一、哪種技術(shù)有助于減輕基于提示的學(xué)習(xí)中的偏見(jiàn)?
A.微調(diào) Fine-tuning
B.數(shù)據(jù)增強(qiáng) Data augmentation
C.提示校準(zhǔn) Prompt calibration
D.梯度裁剪 Gradient clipping
答案:C
提示校準(zhǔn)包括調(diào)整提示,盡量減少產(chǎn)生的輸出中的偏差。微調(diào)修改模型本身,而數(shù)據(jù)增強(qiáng)擴(kuò)展訓(xùn)練數(shù)據(jù)。梯度裁剪防止在訓(xùn)練期間爆炸梯度。
二、是否需要為所有基于文本的LLM用例提供矢量存儲(chǔ)?
答案:不需要
向量存儲(chǔ)用于存儲(chǔ)單詞或句子的向量表示。這些向量表示捕獲單詞或句子的語(yǔ)義,并用于各種NLP任務(wù)。
并非所有基于文本的LLM用例都需要矢量存儲(chǔ)。有些任務(wù),如情感分析和翻譯,不需要RAG也就不需要矢量存儲(chǔ)。
最常見(jiàn)的不需要矢量存儲(chǔ)的:
1、情感分析:這項(xiàng)任務(wù)包括確定一段文本中表達(dá)的情感(積極、消極、中性)。它通?;谖谋颈旧矶恍枰~外的上下文。
2、這項(xiàng)任務(wù)包括將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言。上下文通常由句子本身和它所屬的更廣泛的文檔提供,而不是單獨(dú)的向量存儲(chǔ)。
三、以下哪一項(xiàng)不是專門(mén)用于將大型語(yǔ)言模型(llm)與人類價(jià)值觀和偏好對(duì)齊的技術(shù)?
A.RLHF
B.Direct Preference Optimization
C.Data Augmentation
答案:C
數(shù)據(jù)增強(qiáng)Data Augmentation是一種通用的機(jī)器學(xué)習(xí)技術(shù),它涉及使用現(xiàn)有數(shù)據(jù)的變化或修改來(lái)擴(kuò)展訓(xùn)練數(shù)據(jù)。雖然它可以通過(guò)影響模型的學(xué)習(xí)模式間接影響LLM一致性,但它并不是專門(mén)為人類價(jià)值一致性而設(shè)計(jì)的。
A)從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)是一種技術(shù),其中人類反饋用于改進(jìn)LLM的獎(jiǎng)勵(lì)函數(shù),引導(dǎo)其產(chǎn)生與人類偏好一致的輸出。
B)直接偏好優(yōu)化(DPO)是另一種基于人類偏好直接比較不同LLM輸出以指導(dǎo)學(xué)習(xí)過(guò)程的技術(shù)。
四、在RLHF中,如何描述“reward hacking”?
A.優(yōu)化所期望的行為
B.利用獎(jiǎng)勵(lì)函數(shù)漏洞
答案:B
reward hacking是指在RLHF中,agent發(fā)現(xiàn)獎(jiǎng)勵(lì)函數(shù)中存在意想不到的漏洞或偏差,從而在沒(méi)有實(shí)際遵循預(yù)期行為的情況下獲得高獎(jiǎng)勵(lì)的情況,也就是說(shuō),在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)不有漏洞的情況下才會(huì)出現(xiàn)reward hacking的問(wèn)題。
雖然優(yōu)化期望行為是RLHF的預(yù)期結(jié)果,但它并不代表reward hacking。選項(xiàng)A描述了一個(gè)成功的訓(xùn)練過(guò)程。在reward hacking中,代理偏離期望的行為,找到一種意想不到的方式(或者漏洞)來(lái)最大化獎(jiǎng)勵(lì)。
五、對(duì)任務(wù)的模型進(jìn)行微調(diào)(創(chuàng)造性寫(xiě)作),哪個(gè)因素顯著影響模型適應(yīng)目標(biāo)任務(wù)的能力?
A.微調(diào)數(shù)據(jù)集的大小
B.預(yù)訓(xùn)練的模型架構(gòu)和大小
答案:B
預(yù)訓(xùn)練模型的體系結(jié)構(gòu)作為微調(diào)的基礎(chǔ)。像大型模型(例如GPT-3)中使用的復(fù)雜而通用的架構(gòu)允許更大程度地適應(yīng)不同的任務(wù)。微調(diào)數(shù)據(jù)集的大小發(fā)揮了作用,但它是次要的。一個(gè)架構(gòu)良好的預(yù)訓(xùn)練模型可以從相對(duì)較小的數(shù)據(jù)集中學(xué)習(xí),并有效地推廣到目標(biāo)任務(wù)。
雖然微調(diào)數(shù)據(jù)集的大小可以提高性能,但它并不是最關(guān)鍵的因素。即使是龐大的數(shù)據(jù)集也無(wú)法彌補(bǔ)預(yù)訓(xùn)練模型架構(gòu)的局限性。設(shè)計(jì)良好的預(yù)訓(xùn)練模型可以從較小的數(shù)據(jù)集中提取相關(guān)模式,并且優(yōu)于具有較大數(shù)據(jù)集的不太復(fù)雜的模型。
六、transformer 結(jié)構(gòu)中的自注意力機(jī)制在模型主要起到了什么作用?
A.衡量單詞的重要性
B.預(yù)測(cè)下一個(gè)單詞
C.自動(dòng)總結(jié)
答案:A
transformer 的自注意力機(jī)制會(huì)對(duì)句子中單詞的相對(duì)重要性進(jìn)行總結(jié)。根據(jù)當(dāng)前正在處理的單詞動(dòng)態(tài)調(diào)整關(guān)注點(diǎn)。相似度得分高的單詞貢獻(xiàn)更顯著,這樣會(huì)對(duì)單詞重要性和句子結(jié)構(gòu)的理解更豐富。這為各種嚴(yán)重依賴上下文感知分析的NLP任務(wù)提供了支持。
七、在大型語(yǔ)言模型(llm)中使用子詞算法(如BPE或WordPiece)的優(yōu)點(diǎn)是什么?
A.限制詞匯量
B.減少訓(xùn)練數(shù)據(jù)量
C.提高計(jì)算效率
答案:A
llm處理大量的文本,如果考慮每一個(gè)單詞,就會(huì)導(dǎo)致一個(gè)非常大的詞表。像字節(jié)對(duì)編碼(BPE)和WordPiece這樣的子詞算法將單詞分解成更小的有意義的單位(子詞),然后用作詞匯表。這大大減少了詞匯量,同時(shí)仍然捕獲了大多數(shù)單詞的含義,使模型更有效地訓(xùn)練和使用。
子詞算法不直接減少訓(xùn)練數(shù)據(jù)量。數(shù)據(jù)大小保持不變。雖然限制詞匯表大小可以提高計(jì)算效率,但這并不是子詞算法的主要目的。它們的主要優(yōu)點(diǎn)在于用較小的單位集有效地表示較大的詞匯表。
八、與Softmax相比,Adaptive Softmax如何提高大型語(yǔ)言模型的速度?
A.稀疏單詞表示
B.Zipf定律
C.預(yù)訓(xùn)練嵌入
答案:B
標(biāo)準(zhǔn)Softmax需要對(duì)每個(gè)單詞進(jìn)行昂貴的計(jì)算,Softmax為詞表中的每個(gè)單詞進(jìn)行大量矩陣計(jì)算,導(dǎo)致數(shù)十億次操作,而Adaptive Softmax利用Zipf定律(常用詞頻繁,罕見(jiàn)詞不頻繁)按頻率對(duì)單詞進(jìn)行分組。經(jīng)常出現(xiàn)的單詞在較小的組中得到精確的計(jì)算,而罕見(jiàn)的單詞被分組在一起以獲得更有效的計(jì)算。這大大降低了訓(xùn)練大型語(yǔ)言模型的成本。
雖然稀疏表示可以改善內(nèi)存使用,但它們并不能直接解決Softmax在大型詞匯表中的計(jì)算瓶頸。預(yù)訓(xùn)練嵌入增強(qiáng)了模型性能,但沒(méi)有解決Softmax計(jì)算復(fù)雜性的核心問(wèn)題。
九、可以調(diào)整哪些推理配置參數(shù)來(lái)增加或減少模型輸出層中的隨機(jī)性?
A.最大新令牌數(shù)
B. Top-k
C.Temperature
答案:C
在文本生成過(guò)程中,大型語(yǔ)言模型(llm)依賴于softmax層來(lái)為潛在的下一個(gè)單詞分配概率。溫度Temperature是影響這些概率分布隨機(jī)性的關(guān)鍵參數(shù)。
當(dāng)溫度設(shè)置為低時(shí),softmax層根據(jù)當(dāng)前上下文為具有最高可能性的單個(gè)單詞分配顯著更高的概率。更高的溫度“軟化”了概率分布,使其他不太可能出現(xiàn)的單詞更具競(jìng)爭(zhēng)力。
最大新令牌數(shù)僅定義LLM在單個(gè)序列中可以生成的最大單詞數(shù)。top -k采樣限制softmax層只考慮下一個(gè)預(yù)測(cè)最可能的前k個(gè)單詞。
十、當(dāng)模型不能在單個(gè)GPU加載時(shí),什么技術(shù)可以跨GPU擴(kuò)展模型訓(xùn)練?
A. DDP
B. FSDP
答案:B
FSDP(Fully Sharded Data Parallel)是一種技術(shù),當(dāng)模型太大而無(wú)法容納在單個(gè)芯片的內(nèi)存時(shí),它允許跨GPU縮放模型訓(xùn)練。FSDP可以將模型參數(shù),梯度和優(yōu)化器進(jìn)行分片操作,并且將狀態(tài)跨gpu傳遞,實(shí)現(xiàn)高效的訓(xùn)練。
DDP(分布式數(shù)據(jù)并行)是一種跨多個(gè)GPU并行分發(fā)數(shù)據(jù)和處理批量的技術(shù),但它要求模型適合單個(gè)GPU,或者更直接的說(shuō)法是DDP要求單個(gè)GPU可以容納下模型的所有參數(shù)。