13.11 和 13.8 到底哪個(gè)大?超過(guò)一半 AI 大模型回答錯(cuò)誤,強(qiáng)如 GPT-4O 也翻車了
這個(gè)話題主要是由《歌手2024》欄目引發(fā)的,孫楠與外國(guó)歌手的微小分?jǐn)?shù)差異,引發(fā)了網(wǎng)友關(guān)于 13.8% 和 13.11% 誰(shuí)大誰(shuí)小的爭(zhēng)論。
很多網(wǎng)友給出了自己認(rèn)為 13.11 > 13.8 理由,看似合理,實(shí)則漏洞百出。
這個(gè)小學(xué)四年級(jí)的知識(shí)點(diǎn),一下子就成為了全民熱議的話題。很多網(wǎng)友還舉例 AI 給出的結(jié)果也是 13.11 大,一下子激起我的興趣,這么簡(jiǎn)單的問(wèn)題,AI 竟然回答錯(cuò)誤了。
國(guó)內(nèi)模型測(cè)試
Kimichat:
通義千問(wèn):
騰訊元寶:
文心一言:
智譜清言:
訊飛星火:
商湯商量:
國(guó)外模型測(cè)試
GPT-4O:
Gemini:
Claude-3.5:
原因分析
看到測(cè)試結(jié)果,國(guó)內(nèi)模型 7 個(gè)回答錯(cuò)誤 4 個(gè),國(guó)外模型全軍覆沒(méi),這是代表國(guó)內(nèi)模型更強(qiáng)嘛?其實(shí)并不然,很多網(wǎng)友早起測(cè)試通義千問(wèn)也是回答 13.11 更大,后續(xù)應(yīng)該是開(kāi)發(fā)團(tuán)隊(duì)針對(duì)這個(gè)問(wèn)題優(yōu)化了。國(guó)內(nèi)很多模型應(yīng)該都是針對(duì)性優(yōu)化過(guò)后,現(xiàn)在才能回答正確。
只是國(guó)內(nèi)的熱議并未傳播到國(guó)外,所以國(guó)外 AI 模型并未針對(duì)這個(gè)問(wèn)題優(yōu)化過(guò),導(dǎo)致現(xiàn)在強(qiáng)如 GPT-4O 和 Claude-3.5 這兩個(gè)地表最強(qiáng) AI 模型都回答錯(cuò)誤。
那么 AI 模型為什么會(huì)普遍回答錯(cuò)誤呢?其實(shí)從很多模型的回答中也能猜到原因,主要是因?yàn)樗鼈儗?duì)數(shù)字的解讀方式與人類不同,以及訓(xùn)練數(shù)據(jù)中存在的偏差。
- 數(shù)字解讀方式:大語(yǔ)言模型將數(shù)字分解為獨(dú)立的 token 進(jìn)行比較,忽略了小數(shù)點(diǎn)后數(shù)字的實(shí)際意義。
- 訓(xùn)練數(shù)據(jù)偏差:訓(xùn)練數(shù)據(jù)中包含了大量軟件版本號(hào)的比較,如“9.11”和“9.9”,在這種場(chǎng)景下,“9.11”確實(shí)排在“9.9”之后。這一常見(jiàn)于編程領(lǐng)域的規(guī)則,被AI模型錯(cuò)誤地應(yīng)用到了數(shù)學(xué)比較中。
大語(yǔ)言模型在數(shù)值比較方面的局限性,提醒我們?cè)谝蕾囘@些模型進(jìn)行決策時(shí),需要謹(jǐn)慎并考慮多種可能性。
本文轉(zhuǎn)載自 ??AI探索者知白??,作者: 知白
