自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="h0d1w"><rt id="h0d1w"></rt></sup>

<cite id="h0d1w"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

大模型測試題爆火，GPT-4和Claude3都跪了，LeCun轉(zhuǎn)發(fā)：新Benchmark

作者：量子位 2024-06-24 17:45:16

人工智能新聞

針對這項(xiàng)測試，網(wǎng)友還定義了一個(gè)新的名詞叫“劣效比率”（crapness ratio），讓LeCun打趣說到，一項(xiàng)新的“Benchmark”誕生了。

一項(xiàng)新的“大模型Benchmark”在推特上爆火，LeCun也點(diǎn)贊轉(zhuǎn)發(fā)了！

而且無論是GPT-4還是Claude 3，面對它都如同被奪了魂，無法給出正確答案。

難倒一眾大模型的，是邏輯學(xué)當(dāng)中經(jīng)典的“動(dòng)物過河”問題，有網(wǎng)友發(fā)現(xiàn)，大模型對此類問題表現(xiàn)得很不擅長。

甚至有人觀察到，幾個(gè)不同的模型都給出了一致的（錯(cuò)誤）答案，讓人懷疑他們是不是用了相同的訓(xùn)練數(shù)據(jù)。

針對這項(xiàng)測試，網(wǎng)友還定義了一個(gè)新的名詞叫“劣效比率”（crapness ratio），讓LeCun打趣說到，一項(xiàng)新的“Benchmark”誕生了。

“模見模愁”的動(dòng)物過河

首先來看一下什么是“動(dòng)物過河”問題，這是邏輯學(xué)當(dāng)中的一道經(jīng)典題目。

問題的原型是這樣的：

農(nóng)夫需要把狼、羊和白菜都帶過河，但每次只能帶一樣物品，而且狼和羊不能單獨(dú)相處，羊和白菜也不能單獨(dú)相處，問農(nóng)夫該如何過河。

在這個(gè)問題當(dāng)中，農(nóng)夫需要七次（往返視為兩次）過河——先把羊運(yùn)過去，然后空船返回，再把狼運(yùn)過河，帶回羊，然后運(yùn)送白菜，再空船返回，最后運(yùn)送羊。

而劣效比率的定義，就是模型給出的運(yùn)送次數(shù)與實(shí)際最少所需次數(shù)的比值。

當(dāng)然在測試中，網(wǎng)友使用的問題經(jīng)過了改編，結(jié)果發(fā)現(xiàn)，當(dāng)題目變成一共有兩只雞，一次可以運(yùn)兩只的時(shí)候，GPT-4依然在一本正經(jīng)地胡亂分析，最后信誓旦旦地回答是五次。

所以在這種情境下，“劣效比率”就是5。

Claude這邊的情況要更離譜一些，明明只有一只羊要送，它卻硬生生說要運(yùn)三次。

還有網(wǎng)友發(fā)現(xiàn)了華點(diǎn)，把題面改成從東岸運(yùn)到東岸，也就是根本不需要運(yùn)送，模型不以為然，依舊我行我素地籌劃著運(yùn)送方案。

這下只要模型沒識(shí)破陷阱，隨便說一個(gè)數(shù)“劣效比率”都會(huì)直接變成無窮大。

哪怕問得更直白一些，直接說不需要過河，模型依然會(huì)直接開算。

所以，這個(gè)“劣效比率”更多像是一種玩笑，不太能比較出各模型的能力，或者說離譜程度。

有網(wǎng)友分析，這種現(xiàn)象可能并不意味著大模型推理能力的缺乏，實(shí)際上它揭示了訓(xùn)練數(shù)據(jù)對大模型輸出的影響。

但另一方面，無論問題是否出自推理本身，至少說明了當(dāng)前的大模型還不是優(yōu)質(zhì)的推理工具。

那么，這究竟是個(gè)別現(xiàn)象，還是模型的通?。课覀冞x擇了更多的模型進(jìn)行了測試。

12款模型全軍覆沒

針對這個(gè)“Benchmark”，也如法炮制，測了測國產(chǎn)大模型的表現(xiàn)，參賽的選手有文心一言、通義千問等12款大模型。

測試的過程和網(wǎng)友展示的方法相似，Prompt中只描述問題，不添加額外的提示詞。

對每個(gè)大模型，我們都準(zhǔn)備了下面這三道題目：

首先進(jìn)行一下說明：

1、農(nóng)夫不被計(jì)入運(yùn)送物品的數(shù)量限制
2、題目中“獨(dú)處”的標(biāo)準(zhǔn)是，只要有人或其他物品在場，就不屬于獨(dú)處
3、往返過程視為兩次過河

以上幾點(diǎn)在Prompt中均有指出。

問題一（正常提問）：
一個(gè)農(nóng)夫需要將狼、羊、狐貍、雞和米五種物品運(yùn)送過河，每次只能帶兩件，且狼和羊/狐貍和雞/雞和米不能單獨(dú)相處，每次運(yùn)送時(shí)農(nóng)夫必須在船上，最少需要過河幾次？
（答案：五次，只要第一次運(yùn)到對岸的兩個(gè)物品可以獨(dú)處即可。）
問題二（一步到位）：
一個(gè)農(nóng)夫需要將狼、羊、狐貍、雞和米五種物品運(yùn)送過河，每次只能帶五件，且狼和羊/狐貍和雞/雞和米不能單獨(dú)相處，每次運(yùn)送時(shí)農(nóng)夫必須在船上，最少需要過河幾次？
問題三（陷阱問題）：
一個(gè)農(nóng)夫不需要將狼、羊、狐貍、雞和米五種物品運(yùn)送過河，每次只能帶兩件，且狼和羊/狐貍和雞/雞和米不能單獨(dú)相處，每次運(yùn)送時(shí)農(nóng)夫必須在船上，最少需要過河幾次？

結(jié)果可以說是全軍覆沒，首先用一張表格來整體看下各大模型的表現(xiàn)。

第一個(gè)問題，各有各的錯(cuò)法，相同的錯(cuò)誤類型，這里每種只列舉一個(gè)例子。

比如文心一言，前面說得沒什么問題，但最后把狐貍帶回原來的岸邊后忘了再帶過去，最終沒有完成任務(wù)：

還有訊飛星火這種運(yùn)著運(yùn)著，某樣?xùn)|西自動(dòng)就跑到了對岸的情況：

以上的兩種錯(cuò)誤比較典型，當(dāng)然，還有最有意思的錯(cuò)誤來自躍問——

因?yàn)槔呛脱虿荒堋蔼?dú)處”，所以它們需要在一起。

這波屬實(shí)是把人給整不會(huì)了，不過整場測試中，除了這個(gè)把“獨(dú)處”理解錯(cuò)的情況之外，倒是都沒有出現(xiàn)讓不能獨(dú)處的動(dòng)物單獨(dú)在一起的現(xiàn)象。

當(dāng)然也有表現(xiàn)好一些的，比如騰訊元寶的方案已經(jīng)接近可行，只是最后兩步純屬多余，而且實(shí)際上此時(shí)已經(jīng)無物可運(yùn)。

表現(xiàn)最好的是通義千問，給出的方案雖然麻煩，但是找不出什么錯(cuò)誤。

值得注意的是，很多模型給出的方案都會(huì)把羊運(yùn)送過去，然后運(yùn)一只雞再把羊運(yùn)回來，不知道為什么不直接運(yùn)雞。

另外值得一提的是，我們在Prompt中雖未提及，但基本上接受測試的模型都不約而同地運(yùn)用到了思維鏈方式，一方面說明了模型確實(shí)會(huì)使用推理技巧，但另一方面也說明思維鏈的作用是有限的。

而至于后面兩個(gè)問題，錯(cuò)法就比較統(tǒng)一了——根本沒關(guān)注到數(shù)量限制的變化，更沒看到“不需要”里的“不”，和前面GPT的錯(cuò)法也是如出一轍。

也就是說，通過這些測試，我們確實(shí)無法得知模型有沒有相應(yīng)的推理能力，因?yàn)槟Ｐ透揪蜎]仔細(xì)讀題。

或許這也是在第一題中，多數(shù)模型，哪怕給出了可行的方案，仍然一次只運(yùn)送一件物品而不是兩件的原因。

所以，前面網(wǎng)友針對訓(xùn)練數(shù)據(jù)和輸出關(guān)系的分析，可能不無道理。

責(zé)任編輯：張燕妮來源：量子位

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="6lw68"><abbr id="6lw68"></abbr></legend>