自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="3zwot"></sup>

<style id="3zwot"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI做“軍師”？先贏過Reddit用戶再說吧

作者：佚名 2020-04-16 14:52:50

新聞人工智能

日前，西雅圖的研究人員推出了一項被他們稱為“TuringAdvice”的新人工智能大挑戰(zhàn)，挑戰(zhàn)的核心是創(chuàng)建語言模型，為使用真實(shí)世界語言的人類提供有用的建議。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

日前，西雅圖的研究人員推出了一項被他們稱為“TuringAdvice”的新人工智能大挑戰(zhàn)，挑戰(zhàn)的核心是創(chuàng)建語言模型，為使用真實(shí)世界語言的人類提供有用的建議。

TuringAdvice挑戰(zhàn)賽是基于動態(tài)的RedditAdvice數(shù)據(jù)集而發(fā)起的。Reddit advice是為迎接挑戰(zhàn)而創(chuàng)建的，它是一個眾包的數(shù)據(jù)集，在過去兩周里共享的建議在Reddit小組中獲得了最多的支持票。為了通過挑戰(zhàn)，機(jī)器提供的建議必須要與那些受歡迎的人類建議一樣有用，甚至更好。

作為TuringAdvice的一部分，研究人員還發(fā)布了一個靜態(tài)RedditAdvice 2019數(shù)據(jù)集，用于訓(xùn)練提供建議的人工智能模型，其中包括Reddit子社區(qū)用戶分享的18.8萬個情景下的61.6萬條建議。

初步分析表明，像谷歌T5（去年秋天推出的一個擁有110億個參數(shù)的模型）這樣的高級模型，只有在9%的情況下，寫建議版主發(fā)現(xiàn)至少和人類建議一樣有用。研究人員還評估了Grover變壓器模型和TF-IDF的版本。這項研究沒有評估像Google的BERT這樣流行的雙向NLP模型，因?yàn)樗鼈兺ǔ１徽J(rèn)為在生成文本方面不如從左到右的模型。關(guān)于人際關(guān)系、法律事務(wù)和日常生活方面的建議，可以在網(wǎng)上找到人機(jī)對比演示。

最近發(fā)布的一篇關(guān)于TuringAdvice的論文寫道：“今天最大的模型在REDDITADVICE上苦苦掙扎，所以我們很高興看到新模型得到發(fā)展。”

“我們認(rèn)為，如今存在一個深層次的問題：人類在現(xiàn)實(shí)世界中如何使用語言，與我們的評估方法能夠衡量的，這二者之間存在差距。當(dāng)今的主流范式是研究靜態(tài)數(shù)據(jù)集，并根據(jù)輸出結(jié)果與預(yù)先定義正確答案的相似性對機(jī)器進(jìn)行評級。”

“然而，當(dāng)我們在現(xiàn)實(shí)世界中使用語言進(jìn)行交流時——比如提供建議，或向某人傳授一個概念——很少有一個通用的正確答案可以與之相比，這只是我們想要實(shí)現(xiàn)的一個松散的目標(biāo)。我們引入了一個框架來縮小基準(zhǔn)測試和實(shí)際語言使用之間的差距。”

作者們表示，TuringAdvice挑戰(zhàn)賽中的AI進(jìn)展，可能會使人工智能更好地為人類提供建議或充當(dāng)虛擬治療師。

為了確保結(jié)果與真實(shí)世界的語言使用保持一致，研究小組選擇了一種動態(tài)評估方法，他們在最近兩周內(nèi)從Reddit的各個子社區(qū)收集了200個情況。他們選擇把建議作為一個測試場景，因?yàn)樗撬腥硕挤浅Ｊ煜さ臇|西，并且與閱讀理解等核心NLP任務(wù)重疊。

TuringAdvice挑戰(zhàn)是華盛頓大學(xué)和艾倫人工智能研究所（Allen Institute of AI）的工作，上周在arXiv上發(fā)表的一篇研究論文對此進(jìn)行了詳細(xì)闡述。該論文題為根據(jù)機(jī)器的實(shí)際語言使用情況來評估機(jī)器》（evaluation Machines by their Real-World Language Use）。華盛頓大學(xué)副教授Ali Farhadi是艾倫研究所先前團(tuán)隊的負(fù)責(zé)人，也是本文的合著者之一，他的人工智能初創(chuàng)企業(yè)Xnor最近被蘋果收購。

所有的模型性能評估都來自于通過亞馬遜的Mechanical Turk雇傭的人員。這篇論文曾對獲取人工智能模型培訓(xùn)數(shù)據(jù)的方式表示不滿，但它認(rèn)為，比起發(fā)布自動化機(jī)器建議來回應(yīng)需要幫助的人類，雇傭Mechanical Turk員工的做法更有道德；它也承認(rèn)，獲得報酬來完成這項任務(wù)會引入外部動機(jī)。傾向于選擇機(jī)器建議而非人類建議的工人被解雇了。

首席研究員Rowan Zellers在采訪中透露，研究人員將有機(jī)會創(chuàng)建并調(diào)整他們的模型；第二輪排行榜結(jié)果預(yù)計將在未來幾個月內(nèi)公布。

研究人員表示，他們選擇了Reddit各子社區(qū)分享的流行建議，試圖創(chuàng)造一種內(nèi)在的動力，就像人們在Reddit上響應(yīng)求助時所體驗(yàn)的那樣。

TuringAdvice挑戰(zhàn)賽的一個關(guān)注點(diǎn)是價格。評估200條關(guān)于Mechanical Turk的建議大概需要370美元。未來挑戰(zhàn)賽的參與者將被要求支付Mechanical Turk的費(fèi)用，以便他們的模型被評估或出現(xiàn)在TuringAdvice排行榜上。

TuringAdvice是過去一年中為建立更健壯的自然語言模型而創(chuàng)造的最新挑戰(zhàn)。去年秋天，華盛頓大學(xué)的NLP實(shí)驗(yàn)室曾與紐約大學(xué)、Facebook的AI研究院和三星研究院一道，推出了SuperGLUE挑戰(zhàn)賽和“排行榜”(leaderboard)這一個更復(fù)雜的評估性能的任務(wù)系列。

責(zé)任編輯：張燕妮來源：雷鋒網(wǎng)

AI Reddit 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="36k9m"></cite>

^{<blockquote id="36k9m"></blockquote>}

<ruby id="36k9m"></ruby>

<mark id="36k9m"><big id="36k9m"></big></mark>