自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<thead id="gxlpq"></thead>}

<style id="gxlpq"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了

發(fā)布于 2024-7-19 11:58

瀏覽

0收藏

這個(gè)話題主要是由《歌手2024》欄目引發(fā)的，孫楠與外國(guó)歌手的微小分?jǐn)?shù)差異，引發(fā)了網(wǎng)友關(guān)于 13.8% 和 13.11% 誰(shuí)大誰(shuí)小的爭(zhēng)論。

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

很多網(wǎng)友給出了自己認(rèn)為 13.11 > 13.8 理由，看似合理，實(shí)則漏洞百出。

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

這個(gè)小學(xué)四年級(jí)的知識(shí)點(diǎn)，一下子就成為了全民熱議的話題。很多網(wǎng)友還舉例 AI 給出的結(jié)果也是 13.11 大，一下子激起我的興趣，這么簡(jiǎn)單的問(wèn)題，AI 竟然回答錯(cuò)誤了。

國(guó)內(nèi)模型測(cè)試

Kimichat：

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

通義千問(wèn)：

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

騰訊元寶：

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

文心一言：

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

智譜清言：

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

訊飛星火：

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

商湯商量：

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

國(guó)外模型測(cè)試

GPT-4O：

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

Gemini：

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

Claude-3.5：

13.11 和 13.8 到底哪個(gè)大？超過(guò)一半 AI 大模型回答錯(cuò)誤，強(qiáng)如 GPT-4O 也翻車了-AI.x社區(qū)

原因分析

看到測(cè)試結(jié)果，國(guó)內(nèi)模型 7 個(gè)回答錯(cuò)誤 4 個(gè)，國(guó)外模型全軍覆沒(méi)，這是代表國(guó)內(nèi)模型更強(qiáng)嘛？其實(shí)并不然，很多網(wǎng)友早起測(cè)試通義千問(wèn)也是回答 13.11 更大，后續(xù)應(yīng)該是開(kāi)發(fā)團(tuán)隊(duì)針對(duì)這個(gè)問(wèn)題優(yōu)化了。國(guó)內(nèi)很多模型應(yīng)該都是針對(duì)性優(yōu)化過(guò)后，現(xiàn)在才能回答正確。

只是國(guó)內(nèi)的熱議并未傳播到國(guó)外，所以國(guó)外 AI 模型并未針對(duì)這個(gè)問(wèn)題優(yōu)化過(guò)，導(dǎo)致現(xiàn)在強(qiáng)如 GPT-4O 和 Claude-3.5 這兩個(gè)地表最強(qiáng) AI 模型都回答錯(cuò)誤。

那么 AI 模型為什么會(huì)普遍回答錯(cuò)誤呢？其實(shí)從很多模型的回答中也能猜到原因，主要是因?yàn)樗鼈儗?duì)數(shù)字的解讀方式與人類不同，以及訓(xùn)練數(shù)據(jù)中存在的偏差。

數(shù)字解讀方式：大語(yǔ)言模型將數(shù)字分解為獨(dú)立的 token 進(jìn)行比較，忽略了小數(shù)點(diǎn)后數(shù)字的實(shí)際意義。
訓(xùn)練數(shù)據(jù)偏差：訓(xùn)練數(shù)據(jù)中包含了大量軟件版本號(hào)的比較，如“9.11”和“9.9”，在這種場(chǎng)景下，“9.11”確實(shí)排在“9.9”之后。這一常見(jiàn)于編程領(lǐng)域的規(guī)則，被AI模型錯(cuò)誤地應(yīng)用到了數(shù)學(xué)比較中。

大語(yǔ)言模型在數(shù)值比較方面的局限性，提醒我們?cè)谝蕾囘@些模型進(jìn)行決策時(shí)，需要謹(jǐn)慎并考慮多種可能性。

本文轉(zhuǎn)載自 ??AI探索者知白??，作者：知白

標(biāo)簽

已于2024-7-19 15:50:58修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

DeepMind升級(jí)Transformer，前向通過(guò)FLOPs最多可降一半

輕薄滴假象 ? 2653瀏覽 ? 0回復(fù)
GPT-4o再秀神操作，“復(fù)現(xiàn)”O(jiān)penAI總裁講課，網(wǎng)友當(dāng)真了

Crystalcxt ? 2522瀏覽 ? 0回復(fù)
新一代智能助手GPT-4o與Project Astra孰弱孰強(qiáng)，OpenAI與谷歌拉開(kāi)競(jìng)賽帷幕

xuxiangda ? 4477瀏覽 ? 0回復(fù)
牽手GPT-4o后能力簡(jiǎn)直王炸！奧特曼也來(lái)build現(xiàn)場(chǎng)了！

51CTO技術(shù)棧 ? 2738瀏覽 ? 0回復(fù)
GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了？來(lái) MathBench 看看新版 GPT-4o 到底強(qiáng)在哪！

戀戀青鳥(niǎo) ? 3070瀏覽 ? 0回復(fù)
GPT-4o熱潮來(lái)襲：探索圖生文本的奧秘（多模態(tài)大模型系列之一）

魚(yú)蟲(chóng)子 ? 6227瀏覽 ? 0回復(fù)
現(xiàn)在，所有人都能免費(fèi)用GPT-4o了！

duhorse ? 4353瀏覽 ? 0回復(fù)
GPT-4o與SQL：大模型改變自身架構(gòu)的能力有多強(qiáng)？

51CTO技術(shù)棧 ? 2180瀏覽 ? 0回復(fù)
GPT-4o背后可能的語(yǔ)音技術(shù)

魚(yú)蟲(chóng)子 ? 2803瀏覽 ? 0回復(fù)
GPT-4o不香了

Crystalcxt ? 2966瀏覽 ? 0回復(fù)
GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開(kāi)

戀戀青鳥(niǎo) ? 7570瀏覽 ? 0回復(fù)
開(kāi)發(fā)者終于可以定制自己的GPT-4o了！

51CTO技術(shù)棧 ? 2231瀏覽 ? 0回復(fù)
人工智能新高度：GLM-4-Plus，智譜AI打造媲美GPT-4o的基座大模型

穿越時(shí)空111 ? 4591瀏覽 ? 0回復(fù)
Fireworks AI 發(fā)布 f1：在硬編碼、聊天和數(shù)學(xué)基準(zhǔn)方面超過(guò) GPT-4o 和 Claude 3.5 Sonnet

Halo咯咯 ? 2303瀏覽 ? 0回復(fù)
小模型界o1來(lái)了：微軟推出Phi-4，數(shù)學(xué)推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個(gè)重要推斷

51CTO技術(shù)棧 ? 2082瀏覽 ? 0回復(fù)
微軟發(fā)布Phi-4，最強(qiáng)小模型！參數(shù)極小、超GPT-4o

Aceryt ? 1779瀏覽 ? 0回復(fù)
GitHub Copilot免費(fèi)了，可無(wú)條件使用GPT-4o 和Claude 3.5 Sonnet等高級(jí)模型

Syrupup ? 5941瀏覽 ? 0回復(fù)
清華發(fā)布GLM 4！32B參數(shù)模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 1754瀏覽 ? 0回復(fù)
部署一個(gè)大模型，到底需要多大機(jī)器？

hm673c38238a021 ? 1069瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

證件照再也不用線下拍了，輕松制作一個(gè)免費(fèi)的 AI 工作流實(shí)現(xiàn)，你想要的紅底、白底、藍(lán)底我都有..... 2025-04-18 06:15:58發(fā)布
如果你還沒(méi)有 Manus 激活碼，強(qiáng)烈推薦字節(jié)推出的 Agent TARS，免費(fèi)使用！ 2025-03-26 00:08:20發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：基于 Kimi 一鍵整理實(shí)體及其關(guān)系，并制作知識(shí)圖譜

下一篇：國(guó)內(nèi)大模型文心一言、通義千問(wèn)、豆包、混元大模型、訊飛星火、Kimichat、智譜清言，到底該用哪個(gè)？

社區(qū)精華內(nèi)容

目錄

<cite id="qv5iq"><rp id="qv5iq"><form id="qv5iq"></form></rp></cite>

<sub id="qv5iq"><s id="qv5iq"><li id="qv5iq"></li></s></sub>