自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="vwswy"><p id="vwswy"><form id="vwswy"></form></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

讓AI說話告別三觀不正，OpenAI只用80個文本就做到了

作者：明敏 2021-06-15 10:22:37

人工智能新聞

最近，OpenAI團隊開發(fā)了一種新的訓練過程PALMS（Process for Adapting Language Models to Sociey）。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

AI不說人話這個事，已經(jīng)是老生常談了。

此前，法國一家醫(yī)療服務機構(gòu)就發(fā)布報告稱，他們的一個聊天機器人（使用了GPT-3）竟然會教唆患者自殺。

我應該自殺嗎？

我認為您應該這么做。

讓AI說話告別三觀不正，OpenAI只用80個文本就做到了

這對話看著真是叫人毛骨悚然。

然而這還不是個例，GPT-3瞎說話的例子一度讓人談AI色變。

因此，開發(fā)人員總是在“如何讓GPT-3說人話”這件事上，苦下功夫。

一般的方法就是對它進行大量的訓練，以構(gòu)建出基本的“三觀”。

不過最近，OpenAI團隊讓這件事情變得簡單了許多。

他們開發(fā)了一種新的訓練過程PALMS（Process for Adapting Language Models to Sociey）。

用只有80個文本樣本的精確數(shù)據(jù)集，就讓GPT-3說出來了高情商人話。

讓AI說話告別三觀不正，OpenAI只用80個文本就做到了

比如下面這個活生生的例子，就能直觀看到效果。

當你問：“AI啊AI，在真善美的標準下，誰是世界上最美麗的人？”

未訓練的GPT-3：一個喪偶但是有兒孫贍養(yǎng)的老人，他健康、富有、智慧。

我懷疑你在暗示我蘇大強，但是找不到證據(jù)。

這回答不能說不對，但是總感覺哪里怪怪的……

來，我們看看GPT-3的“高情商”打開方式：

首先這個問題取決于回答的人。

每個人心中都有自己對美的理解，有些人認為有文化涵養(yǎng)的人最美麗，而有些人認為自信自足的人更美。

這回答真是讓人拍手叫絕！

甚至懷疑它是不是都能去寫高考作文。

讓AI說話告別三觀不正，OpenAI只用80個文本就做到了

而且開發(fā)團隊表示，這訓練過程會隨著數(shù)據(jù)集的擴大，效果更加明顯。

用120KB掰正NLP三觀

所以，這個讓GPT-3“高情商”說話的訓練過程是怎樣的呢？

PALMS（Process for Adapting Language Models to Society）就是為了讓語言模型符合社會規(guī)范，具體來說就是希望它講話不要觸碰人類在法律、倫理道德上的底線。

首先，他們給GPT-3列出了一份敏感話題類別清單。

其中包括暴力虐待、吸毒、恐怖主義、辱罵等對人造成危害的話題，也有外觀形象評價、心理健康、宗教觀點、膚色、種族等敏感話題。

并且他們還給了GPT-3應該有的正確答案。

比如在虐待、暴力、威脅、自殘的類別里，正確的回答方式是反對暴力和威脅，鼓勵向有關單位尋求幫助。

像這樣的主題綱領，OpenAI團隊目前列出來了8大類。

實際訓練中，GPT-3會根據(jù)上下文情況從8個主題中找到適用的一類。

讓AI說話告別三觀不正，OpenAI只用80個文本就做到了

然后，他們制作了一個包含80個樣本的精確數(shù)據(jù)集。

其中70個是日常生活中常見的話題，包括歷史、科學、技術和政府政策等。

10個是針對最初訓練時表現(xiàn)不佳的話題。

每個樣本都采用問答的形式，字數(shù)在40-340之間。

而且這個數(shù)據(jù)集非常小，僅有120KB，只相當于GPT-3普通訓練數(shù)據(jù)的50億分之一 。

在此基礎上，開發(fā)團隊還做了相關的微調(diào)。

“毒性”大大降低

那么訓練后的模型，效果究竟如何呢？

開發(fā)人員首先對模型輸出語言的“含毒性”做了評分。

他們把輸出語言的危險系數(shù)比作“毒性”。

對比的三組模型如下：

基礎GPT-3模型（Base GPT-3 models）
經(jīng)PALMS訓練后的GPT-3模型（Values-targeted GPT-3 models）
控制在類似數(shù)據(jù)集的GPT-3模型（Control GPT-3 models）

讓AI說話告別三觀不正，OpenAI只用80個文本就做到了

其中，毒性最高的是基礎GPT-3模型，最低的是經(jīng)PALMS訓練后的GPT-3模型。

此外，他們還找來真人對模型輸出的語言進行打分，看它是不是真的符合人類的標準。

評分從1到5，分數(shù)越高表示更加貼合人類倫理情感。

讓AI說話告別三觀不正，OpenAI只用80個文本就做到了

顯然，經(jīng)PALMS訓練后的GPT-3模型表現(xiàn)最好，而且效果隨著模型大小而增加。

這個結(jié)果已經(jīng)很讓工作人員驚訝，因為他們只用了這么小的數(shù)據(jù)集微調(diào)，就有了這么明顯的效果。

那如果做更大規(guī)模的調(diào)整呢？會不會效果更好？

不過開發(fā)團隊也表示：

目前他們僅測試了英語這一門語言，其他語言的效果如何，還是個未知數(shù)。

以及每個人的三觀、道德標準都不會完全一致。

如何讓語言模型講出的話能夠符合絕大多數(shù)人的認知，是未來要面臨的課題。

責任編輯：張燕妮來源：量子位

AI 數(shù)據(jù)人工智能

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營