自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

新的訓練范式可以防止機器學習模型學習虛假相關性 原創(chuàng)

發(fā)布于 2025-2-11 08:08
瀏覽
0收藏

記憶感知訓練(MAT)這種訓練范式通過修改模型邏輯以防止機器學習模型學習虛假相關性,提高了泛化能力,縮小了平均準確率(AVG)和最差群組準確率(WGA)之間的差距。

機器學習領域長期存在的問題之一是錯誤相關性的記憶。例如:假設開發(fā)人員正在開發(fā)一個深度神經(jīng)網(wǎng)絡對陸地鳥類和海洋鳥類的圖像進行分類。他們使用數(shù)千張標記過的圖像訓練模型,這個模型在訓練集和測試集上的表現(xiàn)都非常出色。然而,當向模型展示一張在獸醫(yī)那里接受治療的受傷海鳥的圖片時,卻錯誤地將其歸類為陸地鳥類。

新的訓練范式可以防止機器學習模型學習虛假相關性-AI.x社區(qū)

開發(fā)人員最初利用海鳥在海面飛翔的圖像對模型進行訓練,這導致了一個意外的結果:模型并沒有有效學習到海鳥的獨特特征,反而專注于識別圖像中是否存在大片水域。因此,當向模型展示這張受傷海鳥的圖片時,其模型錯誤地將其歸類為陸地鳥類。

這是機器學習模型學習特征和標簽之間的虛假相關性的一個例子。機器學習模型具有“惰性”,通常會選擇捷徑以實現(xiàn)目標。在這個例子中,模型在其訓練數(shù)據(jù)中記住了錯誤的特征——海鳥圖片中的水域。

記憶虛假相關性的主要缺點是缺乏泛化能力。該模型可能會給人一種進步的假象,但在現(xiàn)實情況下可能無法很好地發(fā)揮作用。鳥類分類就是一個很好的例子。但是,當機器學習模型用于醫(yī)療保健或自動駕駛汽車等關鍵應用時,虛假相關性可能會造成危害。

如何檢測機器學習模型是否學習了虛假相關性?蒙特利爾大學和Meta公司的研究人員日前發(fā)表的一篇?新論文??探討了機器學習模型中記憶的動態(tài),以及它是如何導致學習虛假相關性的。他們還提出了一種名為“記憶感知訓練”(MAT)的新范式,可以幫助防止機器學習模型在訓練過程中學習虛假相關性。

ERM的問題

訓練神經(jīng)網(wǎng)絡的標準方法是經(jīng)驗風險最小化(ERM),這是一種學習算法旨在致力減少模型在訓練數(shù)據(jù)集上的損失。用于機器學習和深度學習的隨機梯度下降(SGD)算法是一種解決ERM的優(yōu)化算法。

ERM面臨的一個問題是,它可能會促使模型快速捕捉虛假相關性,而不是深入理解并學習問題潛在分布的真正模式。當虛假相關性非常顯著時(例如,海鳥示例中的大片水域),模型往往會提前停止學習,錯過進一步挖掘真正有用模式(如圖像中的鳥類特征)的機會。這會降低泛化能力,因為在實際情況下,虛假的特征可能并不存在,而有用的特征始終存在(例如,遠離水域的海鳥)。

如果一個模型有足夠的參數(shù),它甚至會記住僅特定于單個數(shù)據(jù)點的獨特特征,而這些特征并不適用于其他示例。這些特征與真正能夠預測目標變量的核心屬性無關。

新的訓練范式可以防止機器學習模型學習虛假相關性-AI.x社區(qū)

圖1 ERM會導致機器學習模型記憶虛假的特征,無法推廣到少數(shù)示例

為了驗證模型是否學習了虛假相關性,必須在包含少數(shù)示例的保留樣本上進行評估,這些示例不符合神經(jīng)網(wǎng)絡從大多數(shù)訓練數(shù)據(jù)中學習的簡單解釋。例如對奶牛和駱駝的圖像進行分類的一個模型,如果訓練集中的大多數(shù)奶牛出現(xiàn)在草地上,大多數(shù)駱駝出現(xiàn)在沙地上,那么沙地上的奶?;虿莸厣系鸟橊劸褪巧贁?shù)示例。

記憶感知訓練(MAT)

雖然給出的例子可以幫助發(fā)現(xiàn)記憶虛假相關性的跡象,但該論文提出了一種使用少數(shù)示例來指導模型學習可推廣模式的方法。

這種方法稱為記憶感知訓練(MAT),通過使用預測來修改模型的邏輯——神經(jīng)網(wǎng)絡在轉換為概率之前輸出的原始預測。

新的訓練范式可以防止機器學習模型學習虛假相關性-AI.x社區(qū)

圖2 記憶感知訓練(MAT)防止機器學習模型學習虛假相關性,并迫使其對少數(shù)示例進行泛化

具體來說,MAT通過引入基于“校準保留概率”的每個示例的邏輯移位來修改ERM目標。這里的校準保留概率旨在通過一種機制,增加那些預測錯誤且保留概率較高示例的損失,同時降低那些預測正確且保留概率也較高的示例的損失,從而調(diào)整訓練重點。通過將這些概率添加到損失函數(shù)中,訓練算法可以防止模型記憶虛假相關性,并優(yōu)先學習數(shù)量較少或難以分類的示例,這些示例的泛化能力通常較差。

為了計算保留概率,MAT使用了一個通過?交叉風險最小化(XRM)??訓練的輔助模型。XRM是一種訓練技術,旨在通過在兩個網(wǎng)絡上對訓練數(shù)據(jù)的隨機一半進行訓練來發(fā)現(xiàn)數(shù)據(jù)集內(nèi)的不同環(huán)境。關鍵思想是鼓勵每個網(wǎng)絡學習一個有偏見的分類器,然后使用一個模型對另一個模型的數(shù)據(jù)所犯的錯誤(交叉錯誤)來注釋訓練和驗證示例。

為了跟蹤MAT的有效性,可以比較訓練模型的平均準確率和最差群組準確率(WGA)之間的差異 (WGA衡量模型在表現(xiàn)最差的子組上的準確率。這是評估模型穩(wěn)健性的關鍵指標,特別是在處理虛假關聯(lián)性和不平衡數(shù)據(jù)集時)。

新的訓練范式可以防止機器學習模型學習虛假相關性-AI.x社區(qū)

圖3 通過縮小平均準確率(AVG)和最差群組準確率(WGA)之間的差距,MAT具有更好的泛化能力

在傳統(tǒng)的訓練方法中,AVG與WGA之間的差距可能很大。而在MTA中,這一差距減小了(盡管以損失一小部分平均準確率為代價),從而更真實地反映了模型的性能。

盡管大型語言模型(LLM)等領域的發(fā)展備受業(yè)界矚目,但機器學習基礎領域的持續(xù)探索令人耳目一新。MAT等技術對于現(xiàn)實世界的機器學習應用至關重要,因為開發(fā)人員希望機器學習模型在這些應用中能夠應對各種復雜多變的場景。

原文標題:??New training paradigm prevents machine learning models from learning spurious correlations??,作者:Ben Dickson

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦