深度學(xué)習(xí)的平衡之道:港科大、港城大等團(tuán)隊聯(lián)合發(fā)布多目標(biāo)優(yōu)化最新綜述
本文作者來自香港科技大學(xué)、香港科技大學(xué)(廣州)、香港城市大學(xué)以及UIUC等機構(gòu)。其中,港科大在讀博士生陳巍昱、港城大在讀博士生張霄遠(yuǎn)和港科廣在讀博士生林百炅為共同第一作者;林熙博士目前擔(dān)任港城大博士后研究員;UIUC趙晗助理教授、港城大張青富教授以及港科大郭天佑教授為共同通訊作者。趙晗博士的研究方向主要集中在機器學(xué)習(xí)理論和可信機器學(xué)習(xí)領(lǐng)域,涵蓋算法公平,可解釋性和多任務(wù)優(yōu)化等多個方向,其研究成果曾獲Google Research Award。張青富教授 (IEEE Fellow) 長期致力于多目標(biāo)優(yōu)化的研究,所提出MOEA/D方法至今已被引用近萬次,成為多目標(biāo)優(yōu)化經(jīng)典范式之一。郭天佑教授 (IEEE Fellow) 專注于機器學(xué)習(xí)中的優(yōu)化問題研究,曾獲AI 2000最具影響力學(xué)者榮譽提名,并擔(dān)任IJCAI-2025程序主席。
近年來,深度學(xué)習(xí)技術(shù)在自動駕駛、計算機視覺、自然語言處理和強化學(xué)習(xí)等領(lǐng)域取得了突破性進(jìn)展。然而,在現(xiàn)實場景中,傳統(tǒng)單目標(biāo)優(yōu)化范式在應(yīng)對多任務(wù)協(xié)同優(yōu)化、資源約束以及安全性 - 公平性權(quán)衡等復(fù)雜需求時,逐漸暴露出其方法論的局限性。值得注意的是,在大語言模型(LLM)與生成式 AI 系統(tǒng)的多維度價值對齊(Multi-Dimensional Alignment)領(lǐng)域,如何協(xié)調(diào)模型性能、安全倫理邊界、文化適應(yīng)性及能耗效率等多元目標(biāo),已成為制約人工智能系統(tǒng)社會應(yīng)用的關(guān)鍵挑戰(zhàn)。多目標(biāo)優(yōu)化(Multi-Objective Optimization, MOO)作為一種協(xié)調(diào)多個潛在沖突目標(biāo)的核心技術(shù)框架,正在成為破解復(fù)雜系統(tǒng)多重約束難題的關(guān)鍵方法。
近日,由香港科技大學(xué)、香港科技大學(xué)(廣州)、香港城市大學(xué)以及 UIUC 等團(tuán)隊聯(lián)合發(fā)布的基于梯度的多目標(biāo)深度學(xué)習(xí)綜述論文《Gradient-Based Multi-Objective Deep Learning: Algorithms, Theories, Applications, and Beyond》正式上線。這篇綜述從多目標(biāo)算法設(shè)計、理論分析到實際應(yīng)用與未來展望,全方位解析了如何在多任務(wù)場景下高效平衡各目標(biāo)任務(wù),呈現(xiàn)了這一領(lǐng)域的全景。
- 論文題目:Gradient-Based Multi-Objective Deep Learning: Algorithms, Theories, Applications, and Beyond
- 論文鏈接:https://arxiv.org/pdf/2501.10945v2
- 倉庫鏈接:https://github.com/Baijiong-Lin/Awesome-Multi-Objective-Deep-Learning
背景
在深度學(xué)習(xí)中,我們常常需要同時優(yōu)化多個目標(biāo):
- 多任務(wù)學(xué)習(xí):在許多實際問題中,我們常常需要同時優(yōu)化多個任務(wù),并在不同任務(wù)之間尋求平衡,以解決它們之間的潛在沖突(例如,在分子性質(zhì)預(yù)測領(lǐng)域,我們通常需要對一個分子預(yù)測多種性質(zhì));
- 大語言模型的多維度價值對齊:在大語言模型的訓(xùn)練過程中,我們期望其生成的回復(fù)能夠與人類多維度的價值偏好相匹配,涵蓋有用性、安全性、幽默度等多個方面;
- 資源約束、安全性、公平性等因素的權(quán)衡:在許多工業(yè)場景中,除了性能指標(biāo)外,安全、能耗、延遲等實際工程指標(biāo)也是需要兼顧的重要目標(biāo)。
多目標(biāo)優(yōu)化算法旨在尋找一系列 「折中解」(也稱為 Pareto 最優(yōu)解),在不同目標(biāo)間達(dá)到平衡,從而滿足應(yīng)用場景中對協(xié)同優(yōu)化的要求。
算法設(shè)計
基于梯度的多目標(biāo)優(yōu)化方法主要分為三類:尋找單個 Pareto 最優(yōu)解的算法,尋找有限個 Pareto 最優(yōu)解的算法以及尋找無限個 Pareto 最優(yōu)解的算法。
尋找單個 Pareto 最優(yōu)解
在多任務(wù)學(xué)習(xí)等場景中,通常只需找到一個平衡的解,以解決任務(wù)之間的沖突,使每個任務(wù)的性能都盡可能達(dá)到最優(yōu)。為此,研究者們提出了多種方法,這些方法可進(jìn)一步分為損失平衡方法和梯度平衡方法。
- 損失平衡方法:通過動態(tài)計算或?qū)W習(xí)目標(biāo)權(quán)重,平衡不同任務(wù)的損失。例如,動態(tài)權(quán)重平均(DWA)通過每個目標(biāo)的訓(xùn)練損失的下降速度更新權(quán)重;不確定性加權(quán)(UW)基于每個目標(biāo)的不確定性動態(tài)優(yōu)化目標(biāo)權(quán)重;多目標(biāo)元學(xué)習(xí)(MOML)通過驗證集性能自適應(yīng)調(diào)整目標(biāo)權(quán)重。
- 梯度平衡方法:通過計算多個任務(wù)梯度的 「最優(yōu)平衡方向」,使模型在更新參數(shù)時能夠兼顧所有任務(wù)的優(yōu)化需求。這類方法又可以細(xì)分為梯度加權(quán)方法和梯度操縱方法。例如,多梯度下降算法(MGDA)通過求解優(yōu)化問題找到更新方向,使該方向上的梯度更新能夠最大化地減少所有任務(wù)的損失函數(shù);PCGrad 方法將每個任務(wù)的梯度投影到與其他任務(wù)梯度沖突最小化的方向上,從而有效解決任務(wù)間的梯度沖突。
一些有代表性的方法如下圖所示:
尋找有限個 Pareto 最優(yōu)解
在尋找有限個 Pareto 解集時,需要同時考慮兩個關(guān)鍵因素:解的快速收斂性(確保解迅速逼近 Pareto 最優(yōu)前沿)和解集的多樣性(保證解在 Pareto 前沿上的均勻分布)。目前主要有兩類方法:
- 基于偏好向量的方法:利用偏好向量來指定特定的 Pareto 解。通過均勻分布的偏好向量,可以生成具有多樣性的 Pareto 解集,覆蓋 Pareto 前沿的不同區(qū)域。
- 無需偏好向量的方法:通過優(yōu)化 Pareto 解集的某個指標(biāo)來提高解的多樣性。例如,最大化超體積(Hypervolume),使解集在目標(biāo)空間中覆蓋更大的區(qū)域;或者最大化最小距離,確保解集中的解彼此遠(yuǎn)離,從而提升分布均勻性。由于該類方法無需指定偏好向量,因此具有更高的適應(yīng)性和靈活性。
一些有代表性的方法如下圖所示:
尋找無限個 Pareto 最優(yōu)解
為滿足用戶在任一偏好下都能獲得合適解的需求,研究者設(shè)計了直接學(xué)習(xí)整個 Pareto 集的方法,主要包括:
- 超網(wǎng)絡(luò):利用專門的網(wǎng)絡(luò)根據(jù)用戶偏好生成目標(biāo)網(wǎng)絡(luò)的參數(shù);
- 偏好條件網(wǎng)絡(luò):在原模型中增加偏好信息作為額外條件;
- 模型組合:通過組合多個基模型的參數(shù)(如 PaMaL、LORPMAN 等方法)實現(xiàn)對所有 Pareto 解的緊湊表達(dá)。
在訓(xùn)練過程中,這些方法通常采用隨機采樣用戶偏好,利用端到端的梯度下降優(yōu)化映射網(wǎng)絡(luò)參數(shù),同時結(jié)合標(biāo)量化目標(biāo)或超體積最大化等策略,確保映射網(wǎng)絡(luò)能夠覆蓋整個解集并實現(xiàn)穩(wěn)定收斂。
理論分析
我們從收斂性和泛化性兩個角度總結(jié)了現(xiàn)有的 MOO 的理論分析:
- 收斂性:針對確定性(全梯度)和隨機梯度的情況,許多工作從 Pareto Stationary 角度出發(fā),提供了收斂性證明。通過雙采樣、平滑移動平均以及近似求解子問題等策略,有效降低了隨機梯度帶來的偏差,加快了整體收斂速度,理論上可以達(dá)到單目標(biāo)優(yōu)化相近的收斂速率。
- 泛化性:許多工作探討了多目標(biāo)深度學(xué)習(xí)模型的泛化能力,利用 Rademacher 復(fù)雜度等工具分析了標(biāo)量化方法與梯度平衡方法在未見數(shù)據(jù)上的表現(xiàn)。
應(yīng)用與挑戰(zhàn)
基于梯度的多目標(biāo)優(yōu)化方法已在多個前沿應(yīng)用中展現(xiàn)出巨大潛力,主要包括:
- 計算機視覺(CV):應(yīng)用于多任務(wù)密集預(yù)測(如語義分割、深度估計、表面法向預(yù)測),實現(xiàn)任務(wù)間的協(xié)同提升。
- 強化學(xué)習(xí)(RL):在多目標(biāo)強化學(xué)習(xí)中,同時優(yōu)化獎勵、多樣性和安全性指標(biāo),使智能體在復(fù)雜環(huán)境下表現(xiàn)更均衡。
- 神經(jīng)架構(gòu)搜索(NAS):兼顧模型準(zhǔn)確性與資源消耗(如 FLOPs、參數(shù)量、延遲),尋找適合嵌入式設(shè)備的高效架構(gòu)。
- 推薦系統(tǒng):除準(zhǔn)確度外,整合新穎性、多樣性、用戶公平等指標(biāo),為個性化推薦提供優(yōu)化支撐。
- 大語言模型(LLM):(1)多任務(wù)微調(diào):在預(yù)訓(xùn)練語言模型的基礎(chǔ)上,針對多個下游任務(wù)同時微調(diào),可以提高模型的效率和泛化能力;(2)多目標(biāo)對齊:在訓(xùn)練階段,通過多目標(biāo)算法同時優(yōu)化多個目標(biāo)(如安全性、有用性、幽默性等),以使模型的輸出更好地滿足用戶在不同方面的偏好。
盡管多目標(biāo)優(yōu)化方法已取得諸多進(jìn)展,但仍面臨一些亟待解決的問題:比如:理論泛化分析不足, 計算開銷與高效性問題, 高維目標(biāo)與偏好采樣挑戰(zhàn), 分布式訓(xùn)練與協(xié)同優(yōu)化以及大語言模型的多目標(biāo)優(yōu)化。
多目標(biāo)算法庫
我們開源了多目標(biāo)深度學(xué)習(xí)領(lǐng)域的兩大的算法庫:LibMTL 和 LibMOON。
- LibMTL 是一個專為多任務(wù)學(xué)習(xí)設(shè)計的開源庫,支持超過 20 種多任務(wù)算法。它在 GitHub 上已收獲超過 2200 個 Star,并被機器學(xué)習(xí)頂刊《Journal of Machine Learning Research》(JMLR)接收。
項目地址:https://github.com/median-research-group/LibMTL - LibMOON 是一個專注于多目標(biāo)優(yōu)化的開源框架,支持超過 20 種多目標(biāo)算法,能夠高效尋找多個 Pareto 最優(yōu)解。其相關(guān)工作已被人工智能頂會 NeurIPS 2024 接收。
項目地址:https://github.com/xzhang2523/libmoon
結(jié)語
本綜述旨在為多目標(biāo)深度學(xué)習(xí)領(lǐng)域提供一份全面的資源整合。我們系統(tǒng)地梳理了從算法設(shè)計、理論分析到實際應(yīng)用的各個方面,并深入探討了未來發(fā)展面臨的挑戰(zhàn)。無論您的研究重點是多任務(wù)學(xué)習(xí)、強化學(xué)習(xí),還是大語言模型的訓(xùn)練與對齊,相信都能在本文中找到有價值的見解與啟發(fā)。我們也認(rèn)識到,當(dāng)前的工作可能未能完整涵蓋該領(lǐng)域的所有研究成果,如果你有任何建議或補充,歡迎訪問我們的 GitHub 倉庫,并提交 Issue 或 Pull Request,讓我們攜手推動這一領(lǐng)域的發(fā)展,共同進(jìn)步!