自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="ep6er"></sub>

<cite id="ep6er"><track id="ep6er"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

ICML 2024：AI對齊與可變和可影響?yīng)剟詈瘮?shù)

發(fā)布于 2024-6-12 11:40

瀏覽

0收藏

"當(dāng)前的AI對齊技術(shù)忽視了人類偏好/價值觀可能會改變這一事實。如何才能考慮到這一點？??"

人們的偏好會改變，甚至可能受到他們與AI系統(tǒng)的交互影響。

為了研究這種情況，研究人員引入了動態(tài)獎勵馬爾可夫決策過程（DR-MDPs），這些過程明確考慮了人類的獎勵反饋可能受到AI系統(tǒng)影響的方式。

ICML 2024：AI對齊與可變和可影響?yīng)剟詈瘮?shù) -AI.x社區(qū)

研究人員描述了靜態(tài)偏好假設(shè)如何削弱現(xiàn)有對齊技術(shù)的合理性，導(dǎo)致它們暗示性地獎勵A(yù)I系統(tǒng)操縱人類反饋（例如，影響用戶的認(rèn)知狀態(tài)以增加獎勵）。

接著，轉(zhuǎn)向探討潛在的解決方案。

首先，研究人員提出了一個統(tǒng)一的觀點，即代理的優(yōu)化視角可能在一定程度上有助于減少不良的AI影響，但并非萬全之策。 ??

ICML 2024：AI對齊與可變和可影響?yīng)剟詈瘮?shù) -AI.x社區(qū)

然后，研究人員比較了8種不同的AI對齊概念，這些概念明確考慮了人類偏好（以及相關(guān)的獎勵函數(shù)）的變化。

ICML 2024：AI對齊與可變和可影響?yīng)剟詈瘮?shù) -AI.x社區(qū)

研究人員發(fā)現(xiàn)，考慮的所有優(yōu)化目標(biāo)都傾向于造成不良的AI影響，或者過度謹(jǐn)慎。

?? 這表明解決偏好變化問題的簡單方法可能不存在。

ICML 2024：AI對齊與可變和可影響?yīng)剟詈瘮?shù) -AI.x社區(qū)

然而，在現(xiàn)實世界中，似乎沒有完全避免人類影響問題的簡單方法。 ??

這使得平衡我們的AI系統(tǒng)的影響風(fēng)險和能力顯得更加重要。 ??

我們能否考慮到并非所有AI影響都看似不受歡迎的事實？例如，AI的影響對于教育助手或治療聊天機(jī)器人來說是整個價值主張。 ?? 研究人員提出了一個明確有益影響的概念，即所有的“自我”都認(rèn)為是有益的。

短視的優(yōu)化是否保證不受AI影響？ ?? 不一定。如果在重新訓(xùn)練的體系中，以短視的方式優(yōu)化長期指標(biāo)（如在推薦系統(tǒng)中所做的），這甚至?xí)諗康脚c長期視角強(qiáng)化學(xué)習(xí)相同的最優(yōu)解（在某些假設(shè)下）。

研究人員還討論了社交媒體中的點擊率陷阱以及大語言模型中的諂媚/欺騙行為，可以被視為AI影響激勵的自然結(jié)果。

ICML 2024：AI對齊與可變和可影響?yīng)剟詈瘮?shù) -AI.x社區(qū)

最終，該方法構(gòu)成朝著明確考慮（并應(yīng)對）人類獎勵反饋的變化和可影響性質(zhì)的AI對齊實踐的第一步。 ????

論文：https://arxiv.org/abs/2405.17713

本文轉(zhuǎn)載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/yszS60o2nis6PnUR4M7-_w??

標(biāo)簽

AI對齊技術(shù)

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

WSDM 2024 | 系統(tǒng)探究適配器微調(diào)對于可遷移推薦的影響

kcoufee ? 2612瀏覽 ? 0回復(fù)
ICML 2024 | 脫離LoRA架構(gòu)，訓(xùn)練參數(shù)大幅減少，新型傅立葉微調(diào)來了

輕薄滴假象 ? 3239瀏覽 ? 0回復(fù)
ICML 2024：從視覺語言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)

AIGC最前線 ? 3629瀏覽 ? 0回復(fù)
【LLM】在線合并優(yōu)化器以提升獎勵并減輕對齊開銷

sbf_2000 ? 3369瀏覽 ? 0回復(fù)
ICML 2024 Oral｜外部引導(dǎo)的深度聚類新范式

輕薄滴假象 ? 2688瀏覽 ? 0回復(fù)
ETH北航字節(jié)推出LoRA新范式 | ICML 2024

Crystalcxt ? 2256瀏覽 ? 0回復(fù)
谷歌開源TimesFM：1000億個時間點訓(xùn)練，入選ICML 2024

duhorse ? 2752瀏覽 ? 0回復(fù)
AI學(xué)會篡改獎勵函數(shù)、欺騙研究者！Claude團(tuán)隊：無法根除的行為，令人不安

Crystalcxt ? 3063瀏覽 ? 0回復(fù)
ICML 2024 | 揭示非線形Transformer在上下文學(xué)習(xí)中學(xué)習(xí)和泛化的機(jī)制

輕薄滴假象 ? 2133瀏覽 ? 0回復(fù)
ICML 2024 Spotlight | 在解碼中重新對齊，讓語言模型更少幻覺、更符合人類偏好

輕薄滴假象 ? 2753瀏覽 ? 0回復(fù)
ICML 2024高分論文 | 零階優(yōu)化器微調(diào)大模型，大幅降低內(nèi)存

輕薄滴假象 ? 2560瀏覽 ? 0回復(fù)
OpenAI發(fā)布最新大模型安全對齊獎勵方法——RBR

Aceryt ? 2421瀏覽 ? 0回復(fù)
什么是多模態(tài)AI 如何融合和對齊？

數(shù)字化助推器 ? 4720瀏覽 ? 0回復(fù)
2024駕馭人工智能前沿：AI智能體的演進(jìn)和影響白皮書

歐米伽未來研究所 ? 3173瀏覽 ? 0回復(fù)
人工智能智能體(AI Agent)發(fā)展趨勢2024年總結(jié)與2025年展望

十一月雨_55 ? 8312瀏覽 ? 0回復(fù)
2024駕馭人工智能前沿：AI智能體的演進(jìn)和影響白皮書

歐米伽未來研究所 ? 2089瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)之損失函數(shù)與優(yōu)化函數(shù)——梯度下降

AI探索時代 ? 1864瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎勵模型；將獎勵模型多模態(tài)情緒識別上

AI研究前瞻 ? 1629瀏覽 ? 0回復(fù)
AI 對齊失敗 = 文明終結(jié)？《AI 2027》報告的殘酷警示與“硬傷”分析

上堵吟1 ? 499瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-09 09:10:30發(fā)布
預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Meta NLLB團(tuán)隊：將神經(jīng)機(jī)器翻譯擴(kuò)展到200種語言，問鼎Nature！

下一篇： MLC-LLM: 具有ML編譯的通用LLM部署引擎

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="te1ji"></blockquote>}