自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了

發(fā)布于 2024-7-19 11:58
瀏覽
0收藏

這個(gè)話題主要是由《歌手2024》欄目引發(fā)的,孫楠與外國(guó)歌手的微小分?jǐn)?shù)差異,引發(fā)了網(wǎng)友關(guān)于 13.8% 和 13.11% 誰(shuí)大誰(shuí)小的爭(zhēng)論。

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

很多網(wǎng)友給出了自己認(rèn)為 13.11 > 13.8 理由,看似合理,實(shí)則漏洞百出。

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

這個(gè)小學(xué)四年級(jí)的知識(shí)點(diǎn),一下子就成為了全民熱議的話題。很多網(wǎng)友還舉例 AI 給出的結(jié)果也是 13.11 大,一下子激起我的興趣,這么簡(jiǎn)單的問(wèn)題,AI 竟然回答錯(cuò)誤了。

國(guó)內(nèi)模型測(cè)試

Kimichat:

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

通義千問(wèn):

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

騰訊元寶:

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

文心一言:

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

智譜清言:

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

訊飛星火:

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

商湯商量:

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

國(guó)外模型測(cè)試

GPT-4O:

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

Gemini:

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

Claude-3.5:

13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

原因分析

看到測(cè)試結(jié)果,國(guó)內(nèi)模型 7 個(gè)回答錯(cuò)誤 4 個(gè),國(guó)外模型全軍覆沒(méi),這是代表國(guó)內(nèi)模型更強(qiáng)嘛?其實(shí)并不然,很多網(wǎng)友早起測(cè)試通義千問(wèn)也是回答 13.11 更大,后續(xù)應(yīng)該是開(kāi)發(fā)團(tuán)隊(duì)針對(duì)這個(gè)問(wèn)題優(yōu)化了。國(guó)內(nèi)很多模型應(yīng)該都是針對(duì)性優(yōu)化過(guò)后,現(xiàn)在才能回答正確。

只是國(guó)內(nèi)的熱議并未傳播到國(guó)外,所以國(guó)外 AI 模型并未針對(duì)這個(gè)問(wèn)題優(yōu)化過(guò),導(dǎo)致現(xiàn)在強(qiáng)如 GPT-4O 和 Claude-3.5 這兩個(gè)地表最強(qiáng) AI 模型都回答錯(cuò)誤。

那么 AI 模型為什么會(huì)普遍回答錯(cuò)誤呢?其實(shí)從很多模型的回答中也能猜到原因,主要是因?yàn)樗鼈儗?duì)數(shù)字的解讀方式與人類不同,以及訓(xùn)練數(shù)據(jù)中存在的偏差。

  • 數(shù)字解讀方式:大語(yǔ)言模型將數(shù)字分解為獨(dú)立的 token 進(jìn)行比較,忽略了小數(shù)點(diǎn)后數(shù)字的實(shí)際意義。
  • 訓(xùn)練數(shù)據(jù)偏差:訓(xùn)練數(shù)據(jù)中包含了大量軟件版本號(hào)的比較,如“9.11”和“9.9”,在這種場(chǎng)景下,“9.11”確實(shí)排在“9.9”之后。這一常見(jiàn)于編程領(lǐng)域的規(guī)則,被AI模型錯(cuò)誤地應(yīng)用到了數(shù)學(xué)比較中。

大語(yǔ)言模型在數(shù)值比較方面的局限性,提醒我們?cè)谝蕾囘@些模型進(jìn)行決策時(shí),需要謹(jǐn)慎并考慮多種可能性。

本文轉(zhuǎn)載自 ??AI探索者知白??,作者: 知白

標(biāo)簽
已于2024-7-19 15:50:58修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦