如何評估大語言模型生成結果的多樣性
?1、論文的背景
關于大型語言模型(LLM)的一個開放性問題是,這些模型從預訓練數據中學習了哪些模式,以及這些模式是否能夠在下游任務和數據集中普遍適用。雖然先前的研究主要集中在生成質量上,最近也開始關注文本生成的新穎性,但對LLM學習到的模式類型的特征描述還很有限。關于評估大型語言模型(LLM)生成文本多樣性的研究主要集中在詞級特征上。本文提供了一種句法特征分析方法,用以描述模型中的普遍重復現象,超越了n-gram的范疇。
例如,考慮圖1中OLMoInstruct生成的文本,這是從一個生成的電影評論摘要語料庫中采樣的。這是通過提示模型總結一組人工撰寫的電影評論而產生的:"《舊金山的最后一個黑人》是一部感人的、拍攝精美的電影[...] 創(chuàng)造了一種獨特而強烈的觀影體驗[...]"。在這個例子中,論文發(fā)現總共有35個重復的詞性(POS)標簽序列,長度為n = 5到8。雖然生成的文本在OLMo的訓練數據中并未出現,但論文發(fā)現35個序列中有33個(95%)出現在預訓練數據中。因此,盡管生成的文本本身是新穎的,但它依賴于從訓練數據中學習到的常見句法序列。
2、論文的方法
論文量化并測量了大型語言模型(LLM)在文本生成中使用重復序列的情況。論文引入并聚焦于句法模板,即詞性(POS)序列,這是一種能展示多樣化模式集的句法抽象。論文首先建立了訓練數據中頻繁模板與模型在生成過程中依賴這些模板之間的聯系。利用這一發(fā)現,論文直接連接了訓練數據模板統(tǒng)計和模型生成這些模板的傾向。然后,論文評估了幾個封閉源模型及其傾向于生成的句法模板,這讓論文了解了它們訓練數據的屬性。
論文首先介紹句法模板,并定義在生成文本中檢測和測量這些模板的方法。基于這個定義,論文試圖回答以下問題:
RQ1 指令微調的LLM生成的輸出有多大程度上是模板化的?
RQ2 論文能否在(預)訓練數據中定位模型生成的模板?
RQ3 句法模板能否用于檢測數據記憶?
3、論文的效果
論文發(fā)現模型生成文本中的大部分(76%)模板可以在預訓練數據中找到(相比之下,人類撰寫的文本僅有35%),而且這些模板在RLHF等微調過程中并未被覆蓋。這種與預訓練數據的聯系使論文能夠分析那些論文無法獲取預訓練數據的模型中的句法模板。論文還發(fā)現,作為特征的模板能夠區(qū)分不同的模型、任務和領域,并且對定性評估常見模型構造很有用。
最后,論文展示了論文的指標也可以用作記憶的一種更軟性版本。例如,雖然Carlini等人(2022)估計有1%的文本被記憶,但論文發(fā)現相比逐字記憶,有0.8-3.1%更多的軟記憶文本,通常是通過替換數字和生成同義詞實現的。
表2顯示了兩個額外任務的模板率:與Dolma相比(82.6%, 0.012),使用Dolma Cosmopedia進行合成數據生成和數據生成的模板出現率(99.1%)和每個標記的模板數(0.014)更高。
圖2顯示了各模型檢查點的平均困惑度。論文發(fā)現模板學習得很快 - 在第一個模型檢查點(已訓練40億個標記)就已經出現。非模板標記的平均困惑度下降到約500,而模板的困惑度下降到約200。這些發(fā)現令人驚訝,表明模板是在預訓練早期就被學習,而不是在微調過程中學習的。在剩余的訓練過程中,模板標記的平均困惑度一直保持較低水平
本文轉載自 ??AI帝國??,作者: 無影寺