自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICML 2024:AI對齊與可變和可影響?yīng)剟詈瘮?shù)

發(fā)布于 2024-6-12 11:40
瀏覽
0收藏

"當(dāng)前的AI對齊技術(shù)忽視了人類偏好/價值觀可能會改變這一事實。如何才能考慮到這一點???"

人們的偏好會改變,甚至可能受到他們與AI系統(tǒng)的交互影響。

為了研究這種情況,研究人員引入了動態(tài)獎勵馬爾可夫決策過程(DR-MDPs),這些過程明確考慮了人類的獎勵反饋可能受到AI系統(tǒng)影響的方式。

ICML 2024:AI對齊與可變和可影響?yīng)剟詈瘮?shù) -AI.x社區(qū)

研究人員描述了靜態(tài)偏好假設(shè)如何削弱現(xiàn)有對齊技術(shù)的合理性,導(dǎo)致它們暗示性地獎勵A(yù)I系統(tǒng)操縱人類反饋(例如,影響用戶的認(rèn)知狀態(tài)以增加獎勵)。

接著,轉(zhuǎn)向探討潛在的解決方案。

首先,研究人員提出了一個統(tǒng)一的觀點,即代理的優(yōu)化視角可能在一定程度上有助于減少不良的AI影響,但并非萬全之策。 ??

ICML 2024:AI對齊與可變和可影響?yīng)剟詈瘮?shù) -AI.x社區(qū)

然后,研究人員比較了8種不同的AI對齊概念,這些概念明確考慮了人類偏好(以及相關(guān)的獎勵函數(shù))的變化。

ICML 2024:AI對齊與可變和可影響?yīng)剟詈瘮?shù) -AI.x社區(qū)

研究人員發(fā)現(xiàn),考慮的所有優(yōu)化目標(biāo)都傾向于造成不良的AI影響,或者過度謹(jǐn)慎。

?? 這表明解決偏好變化問題的簡單方法可能不存在

ICML 2024:AI對齊與可變和可影響?yīng)剟詈瘮?shù) -AI.x社區(qū)

然而,在現(xiàn)實世界中,似乎沒有完全避免人類影響問題的簡單方法。 ??

這使得平衡我們的AI系統(tǒng)的影響風(fēng)險和能力顯得更加重要。 ??

我們能否考慮到并非所有AI影響都看似不受歡迎的事實?例如,AI的影響對于教育助手或治療聊天機(jī)器人來說是整個價值主張。 ?? 研究人員提出了一個明確有益影響的概念,即所有的“自我”都認(rèn)為是有益的。

短視的優(yōu)化是否保證不受AI影響? ?? 不一定。如果在重新訓(xùn)練的體系中,以短視的方式優(yōu)化長期指標(biāo)(如在推薦系統(tǒng)中所做的),這甚至?xí)諗康脚c長期視角強(qiáng)化學(xué)習(xí)相同的最優(yōu)解(在某些假設(shè)下)。

研究人員還討論了社交媒體中的點擊率陷阱以及大語言模型中的諂媚/欺騙行為,可以被視為AI影響激勵的自然結(jié)果。

ICML 2024:AI對齊與可變和可影響?yīng)剟詈瘮?shù) -AI.x社區(qū)

最終,該方法構(gòu)成朝著明確考慮(并應(yīng)對)人類獎勵反饋的變化和可影響性質(zhì)的AI對齊實踐的第一步。 ????

論文:https://arxiv.org/abs/2405.17713


本文轉(zhuǎn)載自公眾號AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/yszS60o2nis6PnUR4M7-_w??


標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦