自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘:訓(xùn)練數(shù)據(jù)的來(lái)源、版權(quán)與地域差異

發(fā)布于 2025-1-3 13:03
瀏覽
0收藏

?1、AI Agent的"緊箍咒":一文讀懂a(chǎn)gent的治理難題與解決方案

一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘:訓(xùn)練數(shù)據(jù)的來(lái)源、版權(quán)與地域差異-AI.x社區(qū)圖片

隨著AI Agent能力的不斷提升,如何確保這些能夠自主完成復(fù)雜任務(wù)的智能代理安全可控,成為了一個(gè)亟待解決的問(wèn)題。一篇最新發(fā)表的白皮書深入分析了AI Agent的治理挑戰(zhàn),并提出了一套切實(shí)可行的安全治理框架。

讓我們先看一個(gè)生動(dòng)的例子:假設(shè)一個(gè)AI助手被要求幫用戶購(gòu)買制作日式芝士蛋糕的材料,但它卻錯(cuò)誤地訂了一張飛往日本的昂貴機(jī)票。這個(gè)案例揭示了AI Agent治理中的責(zé)任劃分難題:是模型開發(fā)者應(yīng)該提高系統(tǒng)的可靠性?是部署者應(yīng)該限制AI的自主權(quán)限?還是用戶不該輕易授權(quán)給不夠可靠的系統(tǒng)?

為解決這些問(wèn)題,研究團(tuán)隊(duì)提出了七項(xiàng)核心治理實(shí)踐,涵蓋了從開發(fā)、部署到使用的全生命周期。這些實(shí)踐強(qiáng)調(diào):必須至少有一個(gè)人類實(shí)體對(duì)AI Agent造成的每一個(gè)未補(bǔ)償?shù)闹苯觽ω?fù)責(zé);同時(shí)要建立明確的最佳實(shí)踐基線,當(dāng)AI系統(tǒng)造成傷害時(shí),可以識(shí)別出哪些參與方未能遵循這些實(shí)踐從而未能防止傷害。

研究人員指出,隨著AI能力的快速進(jìn)步,這套治理框架也需要不斷演進(jìn)。社會(huì)各界需要反復(fù)就每一類更強(qiáng)大的AI系統(tǒng)達(dá)成新的最佳實(shí)踐共識(shí),以確保相關(guān)方能夠及時(shí)采用新的實(shí)踐來(lái)應(yīng)對(duì)這些系統(tǒng)帶來(lái)的更大風(fēng)險(xiǎn)。這不僅關(guān)系到AI Agent的安全可控,更關(guān)系到整個(gè)社會(huì)能否真正從這項(xiàng)革命性技術(shù)中受益。    

論文標(biāo)題:Practices for Governing Agentic AI Systems

論文鏈接:https://cdn.openai.com/papers/practices-for-governing-agentic-ai-systems.pdf

2、4000份AI數(shù)據(jù)集大揭秘:訓(xùn)練數(shù)據(jù)的來(lái)源、版權(quán)與地域差異

一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘:訓(xùn)練數(shù)據(jù)的來(lái)源、版權(quán)與地域差異-AI.x社區(qū)圖片

一項(xiàng)覆蓋近4000個(gè)公共數(shù)據(jù)集的最新研究揭示了AI訓(xùn)練數(shù)據(jù)的關(guān)鍵問(wèn)題。這項(xiàng)跨越文本、語(yǔ)音和視頻三大模態(tài)的縱向?qū)徲?jì),首次系統(tǒng)性地分析了從1990年到2024年間AI訓(xùn)練數(shù)據(jù)的來(lái)源趨勢(shì)、使用限制以及地理和語(yǔ)言分布。

一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘:訓(xùn)練數(shù)據(jù)的來(lái)源、版權(quán)與地域差異-AI.x社區(qū)圖片

研究發(fā)現(xiàn)了三個(gè)值得關(guān)注的趨勢(shì):首先,自2019年以來(lái),多模態(tài)機(jī)器學(xué)習(xí)應(yīng)用主要依賴網(wǎng)絡(luò)爬取、合成數(shù)據(jù)和社交媒體平臺(tái)(如YouTube)作為訓(xùn)練集來(lái)源,遠(yuǎn)超其他數(shù)據(jù)源。這種趨勢(shì)雖然提供了大規(guī)模且多樣化的數(shù)據(jù),但也帶來(lái)了反爬蟲、版權(quán)、隱私和事實(shí)準(zhǔn)確性等問(wèn)題。    

一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘:訓(xùn)練數(shù)據(jù)的來(lái)源、版權(quán)與地域差異-AI.x社區(qū)圖片

其次,在版權(quán)方面存在嚴(yán)重的"灰色地帶":雖然只有25%的數(shù)據(jù)集本身帶有非商業(yè)性使用限制,但超過(guò)80%的源內(nèi)容實(shí)際上都帶有未明確標(biāo)注的使用限制。這意味著很多AI模型可能在不知情的情況下使用了受限數(shù)據(jù)。    

一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘:訓(xùn)練數(shù)據(jù)的來(lái)源、版權(quán)與地域差異-AI.x社區(qū)圖片

最后,盡管數(shù)據(jù)集已覆蓋超過(guò)600種語(yǔ)言和60多個(gè)國(guó)家,但地理和語(yǔ)言的代表性在過(guò)去十年卻幾乎沒(méi)有改善。數(shù)據(jù)顯示,非洲和南美洲機(jī)構(gòu)提供的內(nèi)容不到所有模態(tài)內(nèi)容的0.2%,而北美和歐洲機(jī)構(gòu)則占據(jù)了93%的文本數(shù)據(jù)和超過(guò)60%的語(yǔ)音和視頻數(shù)據(jù),反映出AI訓(xùn)練數(shù)據(jù)嚴(yán)重的西方中心主義傾向。    

一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘:訓(xùn)練數(shù)據(jù)的來(lái)源、版權(quán)與地域差異-AI.x社區(qū)圖片

論文標(biāo)題:BRIDGING THE DATA PROVENANCE GAP ACROSS TEXT, SPEECH, AND VIDEO

論文鏈接:?https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf

本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無(wú)影寺

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦