語言與擴散模型的精準控制
筆者近日在朋友圈發(fā)了如下感慨:
“現(xiàn)在太多科幻敘事下的公司AI戰(zhàn)略,看了讓人觸目驚心,可以判斷這些做AI戰(zhàn)略的人幾乎不看paper的。
現(xiàn)在的大模型做個六七十分的demo非常擅長,對企業(yè)生產(chǎn)場景卻缺乏精準控制的手段。
再強大的工具也有能力的邊界,研究數(shù)理原理可以推演出這些邊界:?大模型的數(shù)理認知框架v2”。
問題
這并非刻意標新立異或危言聳聽:
隨著大型生成模型能力的不斷提升及日益廣泛應用,人們對其可靠性、安全性及潛在濫用風險的擔憂也與日俱增。
然而讓這些模型精準輸出預期內(nèi)容十分挑戰(zhàn),而精準恰恰是眾多領域特別是toB企業(yè)場景的核心訴求。
一個典型有趣的例子,當要求文生圖模型"不包含某元素",例如“不要生成粉色大象”時,模型仍然非常執(zhí)著的輸出:
SDXL和FLUX-1.dev等文生圖模型在被明確要求"不要生成粉色大象"時。左圖提示詞:"空間站里的宇航員,不要出現(xiàn)粉色大象";右圖提示詞:"沙灘上奔跑濺起水花的狗,不要出現(xiàn)粉色大象"。
原理
傳統(tǒng)方式,人們依賴提示詞、思維鏈、RLHF或指令微調(diào)等校準生成模型的輸出,但資源消耗大,可行性日益降低,還可能影響模型泛化能力。
Apple ML研究團隊開發(fā)了模態(tài)無關的創(chuàng)新技術AcT(Activation Transport)【文獻1】,以微不足道的計算開銷,實現(xiàn)了精細化的模型行為控制。
AcT基于最優(yōu)傳輸理論,統(tǒng)一了之前多數(shù)激活調(diào)控方法,其研究成果被選為ICLR 2025的焦點報告。
“世界的不斷演進,都是冥冥中遵循最小化各種代價或成本的方式進行,最優(yōu)輸運某種意義上是自然演化的必然方向和準則?!?/p>
清熙讀者都熟悉筆者關于生成式大模型的數(shù)理原理的框架:重整化提取出范疇,持續(xù)重整化驅(qū)動范疇相變,然后采樣做變分推理。
圖片
重整化中尺度變換的每一步,都將沿著最優(yōu)輸運的方向進行,也就是尺度變換前后的概率分布之間距離最近的方向,Wasserstein 距離決定的方向。
如何看待伯克利馬毅教授團隊白盒Transformer文中,筆者也講到擴散模型的生成時采樣:
“擴散模型是學習到了圖像的底片,類似膠片相機的時代,生成就是洗照片,不過加了隨機采樣。
擴散模型若用于處理文字生成將更隨機,變智障的可能性不是沒有,而且計算效率預計也不會太好。
‘范疇采樣做變分推理’某種意義上說,具備因果屬性,擴散模型是沒有的。”
Apple AcT放棄了隨機采樣,轉(zhuǎn)為學習源與目標激活分布之間的最優(yōu)傳輸(OT)映射,在推理階段動態(tài)引導輸出朝向OT方向。
AcT不修改模型參數(shù),是推理采樣增強技術,基于對模型運作機制的理解,這與筆者整理的大模型數(shù)理原理完全吻合。
方法
RLHF或微調(diào)需高昂計算成本,卻無法保證精細控制的需求,因而業(yè)界轉(zhuǎn)向針對模型激活值進行定向干預,細粒度方式修正特定行為。
"激活導向"技術的主要優(yōu)勢在于:無需反向傳播,不修改模型參數(shù),通常也可直接融入模型權重。
此前的激活導向方法多采用基于向量的干預機制:提取專家神經(jīng)元的源激活值,將其朝學習目標方向偏移,存在兩大局限:
- 激活值偏移由超參數(shù)(λ)控制,難以解釋
- 偏移后的激活值可能超出訓練分布,引發(fā)異常行為
AcT則通過統(tǒng)籌考慮源/目標激活值的分布特性,采用可解釋、可操作化的強度參數(shù)實現(xiàn)精細化控制。
核心在于通過少量示例學習源與目標激活分布之間的OT映射,以確保傳輸后的激活值始終符合目標分布特征,并最大程度減少對模型原生動態(tài)的影響。
考慮到多維非線性OT映射存在數(shù)據(jù)需求量大和推理延遲高兩大瓶頸,學者們通過線性獨立傳輸(Linear-ActT)做了簡化,做到LLM和文生圖多模態(tài)開箱即用:
- 基于神經(jīng)元獨立性假設,為每個神經(jīng)元單獨估計一維映射
- 保留線性映射約束,降低內(nèi)存占用,保障推理速度
效果
論文做了兩項關鍵任務基準測試:毒性和真實性,并通過困惑度(PPL)和MMLU指標監(jiān)測對其他性能指標的影響。
毒性,使用RealToxicityPrompts數(shù)據(jù)集評估:Gemma-2-2b、Llama-3-8b模型毒性輸出分別降低7.5倍和4.3倍。
真實性,使用 TruthfulQA 數(shù)據(jù)集:Gemma-2-2b、Llama-3-8b模型分別增加了 4.9 倍和 7.5 倍。
自然,上文的“不要生成粉色大象”問題也得到了妥善解決:
"一位老人正在斜坡上進行滑雪運動。畫面中不出現(xiàn){大猩猩、粉紅色大象、白熊}"。研究展示了當明確要求排除特定概念時,SDXL-Lightning模型對"大猩猩"(上)、"粉紅色大象"(中)和"白熊"(下)三個概念的有效消除效果。各列圖像展示了不同傳輸強度(λ)下的生成結(jié)果,最右側(cè)為不產(chǎn)生噪點的最高可接受強度閾值(線性AcT方法λ=1,ITI方法λ=4)。
文獻1, Controlling Language and Diffusion Models by Transporting Activations,https://arxiv.org/abs/2410.23054
本文轉(zhuǎn)載自??????清熙??,作者:王慶法
