自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="i6wsz"></sub>

<sub id="i6wsz"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Facebook科學家：別給算法模型喂垃圾數(shù)據了…

作者：佚名 2018-05-31 21:41:57

大數(shù)據算法

在最近的一次談話中，F(xiàn)acebook人工智能研究科學家Moustapha Cissé告訴我，“你吃什么你就是什么，而我們正在給算法模型喂垃圾食品?！比绻悴恢朗澄镏杏惺裁?，你就很難合理飲食。同理，如果你不理解訓練數(shù)據的原理，就不能訓練出偏差更小的模型。

在最近的一次談話中，F(xiàn)acebook人工智能研究科學家Moustapha Cissé告訴我，“你吃什么你就是什么，而我們正在給算法模型喂垃圾食品。”

(圖片來自于網絡)

如果你不知道食物中有什么，你就很難合理飲食。同理，如果你不理解訓練數(shù)據的原理，就不能訓練出偏差更小的模型。

這就是為什么最近的論文“給數(shù)據集創(chuàng)建數(shù)據手冊” https://arxiv.org/abs/1803.09010 如此有趣的原因。在這篇論文中，來自微軟研究的Timnit Gebru及其同事與來自其他學術研究機構的合著者們?yōu)閿?shù)據集提出了相當于食物營養(yǎng)標簽的標準。

很多機器學習和深度學習模型，大多傾向于使用像ImageNet或COCO 這樣的公共數(shù)據集，或是私人創(chuàng)造的數(shù)據集，這些數(shù)據集能夠將訓練數(shù)據集的內容、偏差和其他相關素材傳輸給有興趣的用戶是非常重要的。

“數(shù)據手冊”這篇論文探討了使用標準化數(shù)據手冊，將這些信息傳遞給數(shù)據集、商業(yè)化API和預構建模型用戶的方案。除了能協(xié)助用戶交流數(shù)據偏差外，作者還指出這種數(shù)據手冊能夠提升信息的透明度，并為數(shù)據的可靠性背書。

除了潛在的倫理問題外，當使用第三方數(shù)據進行訓練的模型不能充分歸納到不同語境時，隱藏的數(shù)據偏差會造成部署系統(tǒng)的不可預測性，甚至失敗。當然，***的選擇是收集***方數(shù)據，并使用由該領域里具有專業(yè)知識和深刻見解的專家們構建和訓練的模型。

廣泛可用的公共數(shù)據集、更易上手的機器學習工具，能便捷訪問的人工智能API和預購建模型促進AI民主化，使得越來越多的開發(fā)人員將AI技術運用到他們的應用中。作者建議，為AI數(shù)據集和工具創(chuàng)建數(shù)據手冊可以為那些沒有專長領域的工程師提供基礎的信息，有助于減少由數(shù)據集誤用引發(fā)的問題。

信息安全公司Terbium實驗室的CTO Clare Gollnick，在與我們討論科學和人工智能中的再現(xiàn)性危機時，提出了類似觀點。她擔心開發(fā)人員往往把重心放在用更深層、更復雜的模型解決問題，而當這些模型被應用到生產中時，通常會遇到泛化的問題。相反地，她發(fā)現(xiàn)，當研究人員利用該領域里現(xiàn)有的專業(yè)知識和深刻見解去解決AI問題時，成果將更為穩(wěn)健。

Gebru和合作者在論文中指出，AI尚未經受以往伴隨著新興行業(yè)(如汽車、醫(yī)藥和電氣行業(yè))發(fā)展而逐步完善的安全法規(guī)的檢驗。文中提到：

當汽車***在美國出現(xiàn)時，沒有車速限制、停車標志、交通信號燈、駕駛員教育，與安全帶或醉酒駕駛有關的規(guī)定。因此，1900年代早期，碰撞、超速和魯莽駕駛造成了許多人員傷亡。

幾十年來，汽車及其它行業(yè)都在不斷地修改完善旨在保護公共利益的法規(guī)，同時其自身的技術革新也沒有停滯。論文認為，是時候開始考慮為AI制定相關的法律法規(guī)了，特別是當我們開始將其用于健康和公共部門等高風險實踐中時。歐洲即將出臺的通用數(shù)據保護條例(GDPR)就將處理這些問題。

論文提出的“數(shù)據手冊”來源于電氣組件相關的概念。每一個售出的電子組件都附帶相應的“數(shù)據手冊”，上面列出了組件的功能、特性、運行電壓、物理細節(jié)等。當用戶需要在購買前了解某個零件的性能，以及誤操作情況下可能出現(xiàn)的反應時，這些數(shù)據手冊就能提供用戶所需的支持。

(示例圖片來自于網絡)

作者建議，數(shù)據集或API的提供方應該附帶一份“數(shù)據手冊”來解決一系列標準化問題，這份“數(shù)據手冊”應該包含以下主題：

數(shù)據集創(chuàng)建的動機
數(shù)據集的組成
數(shù)據收集過程
數(shù)據預處理
數(shù)據的分布
數(shù)據的維護
法律和倫理方面的考慮

對于上面所列主題的具體詳解，可以參照該論文;它還包含了一系列補充細節(jié)，并為Wild數(shù)據集中的UMAS Labeled Faces 提供示例“數(shù)據手冊”。這是一個完整全面、易于使用，并將具有影響力的模型。

這樣的“數(shù)據手冊”允許用戶了解他們使用的數(shù)據的優(yōu)點和局限性，并防止出現(xiàn)諸如偏差和過度擬合之類的問題。同時，“數(shù)據手冊”還能全方位的促使數(shù)據集的創(chuàng)作者和用戶對數(shù)據源進行不同角度的思考，并理解數(shù)據其實并非‘事實上’的存在，而是需要謹慎對待和維護的具有生命力的資源。

雖然我不是個電氣工程師，但是我非常欣賞這個有趣的想法。

責任編輯：未麗燕來源：網絡大數(shù)據

數(shù)據手冊人工智能數(shù)據集

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sup id="zqdwp"><rt id="zqdwp"></rt></sup><style id="zqdwp"></style>

<sub id="zqdwp"></sub>