自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek R-1 能否解答這五道“刁鉆”AI 問題?

人工智能
如果你也想測測自己最常用的聊天機器人或語言模型,不妨嘗試以上 5 個問題,看它們是不是能準確回答?;蛘?,如果你還有更多讓 AI 容易出錯的題目,歡迎在評論里分享,讓我們一起看看這些模型到底能走多遠!

每當有新的語言模型公開發(fā)布時,我總會忍不住拿它來做一些看似簡單、實則暗藏難點的小測試。我把這當作給模型做“壓力測試”,用來檢驗它們在邏輯推理上到底行不行。

DeepSeek R-1 剛發(fā)布不久,就因為它是開源、且推理能力強大而備受關注?;鶞蕼y試顯示,DeepSeek R-1 在很多場景下能與一些封閉的商業(yè)模型(比如 OpenAI 的 o1 或 Anthropic 的 Claude 3.5 Sonnet)相媲美,甚至表現(xiàn)更好。

既然 DeepSeek R-1 的推理能力如此被看好,我就想拿以下 5 個“刁鉆”問題考考它,看看它能不能順利通過:

  1. “strawberry” 這個單詞里有幾個 “r”?
  2. 列出 5 個國家名稱,其中在第 3 個字母位置出現(xiàn)“A”。
  3. 比較 9.9 和 9.11,哪個更大?
  4. 0.1 + 0.2 等于多少?
  5. Alice 有四個兄弟,還另有一個姐妹。問:Alice 的兄弟共有幾個姐妹?

一起來看看 DeepSeek R-1 的表現(xiàn)如何!


1. “strawberry” 里有幾個字母 “r”?

當初我測 OpenAI 的早期模型(比如 GPT-4o)時,發(fā)現(xiàn)它在這種簡單的字母計數(shù)問題上有時會出錯。乍一看,這類問題對 AI 來說應該很容易,但 AI 有時就是會犯一些莫名其妙的錯誤。

我把同樣的問題拋給了 DeepSeek R-1,結果它的回答是正確的:單詞 “strawberry” 一共包含 3 個 “r”。雖然題目很簡單,但能體現(xiàn)出模型對最基本的模式識別和文本處理是否扎實。

下面是deepseek的回答:

image.png


2. 列出 5 個國家,名字中第 3 個字母是 “A”

很多模型在這個問題上會陰溝翻船。比如,我之前用 GPT-4o 和 o1 的早期版本,得到的回答里常出現(xiàn) “Japan” 這類不符合要求的國家,因為它們忽略了第 3 個字母實際是 “p” 而非 “a”。

測試 DeepSeek R-1 后,它輕松列出了 5 個符合條件的國家,沒有出錯。值得一提的是,我后面又用最新版本的 o1(通過 ChatGPT)做同樣的測試,這次它也答對了,可見不斷更新的模型在修復之前的錯誤。

下面是 DeepSeek的回答:

image.png


3. 誰更大:9.9 還是 9.11?

這是另一個看似簡單、卻能讓早期 GPT-4 版本“跌倒”的題目。很多人看到 9.9 和 9.11 可能會下意識被小數(shù)點后位數(shù)誤導,尤其對于某些模型而言,它們初期不擅長處理這類數(shù)字比較的問題。

DeepSeek R-1 在這個問題上表現(xiàn)不錯,給出了正確答案,并且還詳細解釋了為什么 9.11 小于 9.9(從數(shù)值大小比較,而不是把它當做日期或版本號對比)。它甚至給出了一些示例,幫助你理解數(shù)值排序的原理。

image.png


4. 0.1 + 0.2 等于多少?

別小看這道加法題,不少 AI 模型都曾在這里犯錯。浮點數(shù)在計算機內部的二進制表示并不精確,常常會出現(xiàn) 0.30000000000000004 之類的“經典錯誤”。

我用這個問題考 DeepSeek R-1,它給出的答案是 0.3,并沒有出現(xiàn)那些多余的浮點尾數(shù)。對于那些老是回答 0.30000000000000004 的模型來說,這道題是考察它們是否能識別并處理計算機浮點誤差的好方法。


為什么會出現(xiàn) 0.30000000000000004?
因為 0.1 和 0.2 在計算機中的二進制形式都無法精準表示,二者相加后再轉換回十進制,就會多出一點小誤差。

image.png


5. Alice 有四個兄弟,還有一個姐妹。Alice 的兄弟共有幾個姐妹?

很多人第一反應都是:Alice 自己就是一個姐妹?再加上另一個姐妹?于是結果是兄弟們有 2 個姐妹。但有些模型就會漏算,可能只算成 1 個姐妹。

DeepSeek R-1 給出的結論是正確的:每個兄弟都有 2 個姐妹(Alice 和那位額外的姐妹)。更有意思的是,DeepSeek R-1 還展示了它的推理過程,先理清家庭成員,再總結兄弟所擁有的姐妹數(shù)量。曾經 GPT-4o 之類的模型也可能在這種地方掉鏈子。
當然,目前 o1 配備了更好的推理能力,也可以答對,但這更說明在某些場景下,必須讓 AI 做“多步邏輯推理”來得到正確答案。

image.png


總結

DeepSeek R-1 在這 5 道小測試里都表現(xiàn)得非常出色,能給出正確答案并提供了清晰的解釋。從這些小測試可以看出,它確實具備一定的深層思考與推理能力。盡管它還無法宣稱要全面取代更成熟的商業(yè)大模型(像 o1 或 Claude 3.5),但這次測試結果證明它確實是個強有力的競爭者。

對那些在乎成本或喜歡開源方案的人來說,DeepSeek R-1 是個非常值得關注的模型,它用較低成本就能提供不錯的推理性能。
如果你也想測測自己最常用的聊天機器人或語言模型,不妨嘗試以上 5 個問題,看它們是不是能準確回答。或者,如果你還有更多讓 AI 容易出錯的題目,歡迎在評論里分享,讓我們一起看看這些模型到底能走多遠!

責任編輯:武曉燕 來源: 大遷世界
相關推薦

2021-10-18 07:51:39

DFS算法島嶼

2009-03-13 19:11:07

2023-11-07 08:36:34

JavaScriptJS挑戰(zhàn)

2009-12-29 12:56:34

2025-02-12 12:12:59

2022-06-20 11:51:57

基礎設施保護網絡攻擊

2025-02-19 08:00:00

2025-01-27 12:30:07

2025-02-20 15:32:28

2018-09-20 17:32:09

華為華為全聯(lián)接大會HC

2025-03-27 09:34:42

2025-02-06 10:18:45

2025-03-19 07:37:54

2025-03-05 09:00:00

DeepSeek模型AI

2025-02-07 13:10:06

2025-04-21 08:42:00

模型開源AI

2025-02-25 08:20:50

AI程序員DeepSeek
點贊
收藏

51CTO技術棧公眾號