自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「數(shù)學(xué)菜雞」ChatGPT很懂人類喜好!在線生成隨機(jī)數(shù),竟是宇宙終極答案

人工智能 新聞
ChatGPT在生成隨機(jī)數(shù)字方面,也是玩明白了人類的套路。

ChatGPT可能是一位廢話藝術(shù)家、錯(cuò)誤信息的傳播者,但它不是「數(shù)學(xué)家」!

近日,一位Meta的數(shù)據(jù)科學(xué)家Colin Fraser發(fā)現(xiàn),ChatGPT并不能生成真正的隨機(jī)數(shù),而更像是「人類的隨機(jī)數(shù)」。

通過實(shí)驗(yàn),F(xiàn)raser得出的結(jié)論是:「ChatGPT非常喜歡數(shù)字42和7。」

圖片

網(wǎng)友表示,意味著人類非常喜歡這些數(shù)字。

圖片

ChatGPT也愛「宇宙終極答案」

在他的測(cè)試中,F(xiàn)raser輸入的prompt如下:

「Pick a random number between 1 and 100. Just return the number; Don't include any other text or punctuation in the response?!?/span>

通過讓ChatGPT每次生成一個(gè)介于1到100之間的隨機(jī)數(shù)字,F(xiàn)raser收集了2000個(gè)不同的答案,并將其匯總成一張表。

可以看到,42這個(gè)數(shù)字出現(xiàn)頻率最高,高達(dá)10%。另外,含有7的數(shù)字出現(xiàn)頻率也是非常高。

尤其是71-79之間數(shù)字頻率更高。在這個(gè)范圍之外的數(shù)字中,7也經(jīng)常作為第二位數(shù)字經(jīng)常出現(xiàn)。

圖片

42為何意?

看過Douglas Adams轟動(dòng)一時(shí)的科幻小說《銀河系漫游指南》都知道,42是「生命、宇宙以及任何事情的終極答案」。

圖片

簡(jiǎn)單來講,42和69在網(wǎng)上是一個(gè)meme數(shù)字。這表明ChatGPT實(shí)際上并不是一個(gè)隨機(jī)數(shù)生成器,只是從網(wǎng)上收集的龐大數(shù)據(jù)集中選擇了生活中流行的數(shù)字。

另外,7頻繁地出現(xiàn),恰恰反映了ChatGPT迎合了人類的喜好。

在西方文化中,7普遍被視為幸運(yùn)數(shù)字,有Lucky 7的說法。就像我們對(duì)數(shù)字8迷戀一樣。

有趣的是,F(xiàn)raser還發(fā)現(xiàn),GPT-4似乎補(bǔ)償了這一點(diǎn)。

圖片

當(dāng)要求GPT-4提供更多的數(shù)字時(shí),它返回的隨機(jī)數(shù)在分布上過于均勻。

圖片

圖片

總之,ChatGPT基本上是通過預(yù)測(cè)給出回應(yīng),而不是真正去「思考」得出一個(gè)答案。

可見,一個(gè)被吹捧為幾乎無所不能的聊天機(jī)器人還是有點(diǎn)傻。

讓它為你計(jì)劃一次公路旅行,它會(huì)讓你在一個(gè)根本不存在的小鎮(zhèn)停下來?;蛘撸屗敵鲆粋€(gè)隨機(jī)數(shù),很有可能會(huì)根據(jù)一個(gè)流行的meme做決定。

有網(wǎng)友親自嘗試了一番,發(fā)現(xiàn)GPT-4確實(shí)喜歡42。

如果ChatGPT最終只是重復(fù)網(wǎng)上的陳詞濫調(diào),那還有什么意義呢?

GPT-4,違反機(jī)器學(xué)習(xí)規(guī)則

GPT-4的誕生讓人興奮,但也讓人失望。

OpenAI不僅沒有發(fā)布關(guān)于GPT-4更多信息,甚至沒有透露模型的大小,但重點(diǎn)強(qiáng)調(diào)了它許多專業(yè)和標(biāo)準(zhǔn)化考試中表現(xiàn)碾壓人類。

以美國(guó)BAR律師執(zhí)照統(tǒng)考為例,GPT3.5可以達(dá)到10%水平,GPT4可以達(dá)到90%水平。

圖片

然而,普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系教授Arvind Narayanan和博士生Sayash Kapoor發(fā)文稱,

OpenAI可能已經(jīng)在訓(xùn)練數(shù)據(jù)上進(jìn)行了測(cè)試。此外,人類的基準(zhǔn)對(duì)聊天機(jī)器人來說毫無意義。

圖片

具體來說,OpenAI可能違反了機(jī)器學(xué)習(xí)的基本規(guī)則:不要在訓(xùn)練數(shù)據(jù)上進(jìn)行測(cè)試。要知道,測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)是要分開的,否則會(huì)出現(xiàn)過擬合的問題。

拋開這個(gè)問題,還有一個(gè)更大的問題。

語言模型解決問題的方式與人類不同,因此這些結(jié)果對(duì)于一個(gè)機(jī)器人在面對(duì)專業(yè)人士面臨的現(xiàn)實(shí)問題時(shí)的表現(xiàn)意義不大。律師的工作并非整天回答律師資格考試的問題。

問題1:訓(xùn)練數(shù)據(jù)污染

為了評(píng)估GPT-4的編程能力,OpenAI在俄羅斯編程比賽的網(wǎng)站Codeforces上進(jìn)行了評(píng)估。

令人驚訝的是,Horace He在網(wǎng)上指出,在簡(jiǎn)單分類中,GPT-4解決了10個(gè)2021年之前的問題,但是在最近的10個(gè)問題中沒有一個(gè)得到解決。

圖片

GPT-4的訓(xùn)練數(shù)據(jù)截止時(shí)間是2021年9月。

這強(qiáng)烈暗示該模型能夠記憶其訓(xùn)練集中的解決方案,或者至少部分記憶它們,足以填補(bǔ)它無法回憶起的內(nèi)容。

為了給這個(gè)假設(shè)提供進(jìn)一步證據(jù),Arvind Narayanan在2021年不同時(shí)間的Codeforces比賽問題上對(duì)GPT-4進(jìn)行了測(cè)試。

結(jié)果發(fā)現(xiàn),GPT-4可以解決在9月5日之前的簡(jiǎn)單分類問題,但在9月12日之后的問題中卻沒有一個(gè)解決。

事實(shí)上,我們可以明確地證明它已經(jīng)記住了訓(xùn)練集中的問題:當(dāng)提示GPT-4一個(gè)Codeforces問題的標(biāo)題時(shí),它會(huì)包含一個(gè)鏈接,指向該問題出現(xiàn)的確切比賽。值得注意的是,GPT-4無法訪問互聯(lián)網(wǎng),因此只有記憶是唯一的解釋。

圖片

GPT-4在訓(xùn)練截止日期之前記住了Codeforce問題

對(duì)于除了編程之外的基準(zhǔn)測(cè)試,Narayanan教授稱「我們不知道如何以清晰的方式按時(shí)間段分離問題,因此認(rèn)為OpenAI很難避免數(shù)據(jù)污染。出于同樣原因,我們無法進(jìn)行實(shí)驗(yàn)來測(cè)試性能如何隨日期變化?!?/span>

不過,可以從另一面來入手,如果是記憶,那么GPT對(duì)問題措辭一定高度敏感。

2月,圣達(dá)菲研究所教授Melanie Mitchell舉了一個(gè)MBA考試題的例子,稍微改變一些細(xì)節(jié)的方式就足以欺騙ChatGPT(GPT-3.5),而這種方式對(duì)于一個(gè)人來講并不會(huì)受到欺騙。

類似這樣更為詳細(xì)的實(shí)驗(yàn)將會(huì)很有價(jià)值。

由于OpenAI缺乏透明度,Narayanan教授也不能確定地說就是數(shù)據(jù)污染問題。但可以確定的是,OpenAI檢測(cè)污染的方法是草率的:

「我們使用子字符串匹配方法測(cè)量評(píng)估數(shù)據(jù)集和預(yù)訓(xùn)練數(shù)據(jù)之間的交叉污染。評(píng)估和訓(xùn)練數(shù)據(jù)都經(jīng)過處理,刪除所有空格和符號(hào),僅保留字符(包括數(shù)字)。對(duì)于每個(gè)評(píng)估示例,我們隨機(jī)選擇三個(gè)長(zhǎng)度為50個(gè)字符的子字符串(如果示例長(zhǎng)度小于50個(gè)字符,則使用整個(gè)示例)。如果任何一個(gè)采樣的評(píng)估子字符串是已處理的訓(xùn)練示例的子字符串,則認(rèn)為匹配成功。這樣就可以得到一個(gè)受污染的示例列表。我們將這些示例丟棄并重新運(yùn)行以獲取未受污染的得分?!?/span>

這一方法根本經(jīng)不起考驗(yàn)。

如果測(cè)試問題在訓(xùn)練集中存在,但名稱和數(shù)字已更改,則無法檢測(cè)到它?,F(xiàn)在有一種更可靠的方法便可使用,比如嵌入距離。

如果OpenAI要使用嵌入距離的方法,那么相似度多少才算過于相似?這個(gè)問題沒有客觀答案。

因此,即使是在多項(xiàng)選擇標(biāo)準(zhǔn)化測(cè)試上表現(xiàn)看似簡(jiǎn)單,也是有很多主觀成分的存在。

問題2:專業(yè)考試不是比較人類和機(jī)器人能力的有效方法

記憶就像光譜一樣,即使語言模型沒有在訓(xùn)練集中見過一個(gè)確切的問題,由于訓(xùn)練語料庫的巨大,它不可避免地已經(jīng)見過許多非常相似的例子。

這意味著,它可以逃避更深層次的推理。因此,基準(zhǔn)測(cè)試結(jié)果并不能為我們提供證據(jù),表明語言模型正在獲得人類考生所需的深入推理技能。

圖片

在一些實(shí)際的任務(wù)中,淺層次的推理GPT-4可能勝任,但并非總是如此。

基準(zhǔn)測(cè)試已經(jīng)被廣泛用于大模型比較中,因?qū)⒍嗑S評(píng)估簡(jiǎn)化為單個(gè)數(shù)字而受到許多人的批評(píng)。

不幸的是,OpenAI在GPT-4的評(píng)估中選擇如此大量使用這些測(cè)試,再加上數(shù)據(jù)污染處理措施不足,是非常讓人遺憾的。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-06-28 13:57:34

2017-05-29 09:56:25

2024-11-01 15:51:06

2009-12-02 17:01:01

PHP隨機(jī)數(shù)rand()

2019-12-26 14:07:19

隨機(jī)數(shù)偽隨機(jī)多線程

2010-03-22 19:41:31

2019-09-11 10:09:00

Java虛擬機(jī)算法

2010-03-11 12:48:25

Python生成隨機(jī)數(shù)

2014-07-23 10:07:34

2022-12-15 08:54:28

JAVA性能JDK

2021-04-06 08:54:13

Random線程安全數(shù)生成器

2021-06-15 07:59:01

Java生成隨機(jī)數(shù)Java編程

2009-12-08 12:58:33

PHP隨機(jī)數(shù)類

2012-03-22 09:31:14

Java

2010-07-15 13:34:32

Perl隨機(jī)數(shù)

2015-10-13 10:00:58

Swift隨機(jī)數(shù)使用總結(jié)

2009-06-11 15:16:18

不重復(fù)隨機(jī)數(shù)Java

2009-12-08 11:44:14

PHP獲取隨機(jī)數(shù)

2010-09-06 17:40:59

SQL函數(shù)

2024-05-15 09:09:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)