DeepSeek V3“報錯家門”：我是ChatGPT

作者：量子位 2024-12-30 09:25:00

人工智能新聞

從目前網(wǎng)友們整體討論的觀點來看，說DeepSeek V3是在ChatGPT輸出上訓(xùn)練的可能性不大。

要說這兩天大模型圈的頂流話題，那絕對是非DeepSeek V3莫屬了。

不過在網(wǎng)友們紛紛測試之際，有個bug也成了熱議的焦點——

只是少了一個問號，DeepSeek V3竟然稱自己是ChatGPT。

甚至讓它講個笑話，生成的結(jié)果也是跟ChatGPT一樣：

加之DeepSeek V3這次爆火的一個亮點，就是訓(xùn)練只花了557.6萬美元的成本。

于是乎，有人就開始懷疑了：它不會是在ChatGPT的輸出基礎(chǔ)上訓(xùn)練的吧？

好巧不巧，Altman也發(fā)了一個狀態(tài)，似乎在暗諷著什么……

不過DeepSeek V3并非是第一個出現(xiàn)“報錯家門”的大模型。

例如Gemini就曾說過自己是百度的文心一言……

那么這到底是怎么一回事？

為什么DeepSeek V3報錯家門？

首先需要強調(diào)的一點是，從目前網(wǎng)友們整體討論的觀點來看，說DeepSeek V3是在ChatGPT輸出上訓(xùn)練的可能性不大。

之所以這么說，正如網(wǎng)友Riley Goodside所總結(jié)的那樣——因為ChatGPT的影子無處不在。

即便DeepSeek V3故意用ChatGPT的輸出做了訓(xùn)練，但這并不重要。所有在ChatGPT之后出現(xiàn)的大模型，幾乎都見過它。
例如ShareGPT，一個并不新鮮的ChatGPT對話數(shù)據(jù)集，許多人已經(jīng)嘗試在它和其它ChatGPT數(shù)據(jù)源上進行調(diào)整。但即便如此，也沒能出現(xiàn)DeepSeek V3級別的大模型。

緊接著，Riley Goodside又拿出了DeepSeek V3報告中的一些證據(jù)：

而且要是用了ChatGPT數(shù)據(jù)的話，有些關(guān)于DeepSeek V3質(zhì)量的問題是解釋不通的。
例如Pile測試（基礎(chǔ)模型壓縮Pile的效果），DeepSeek V3得分幾乎與Llama 3.1 405B相當(dāng)，這跟它接沒接觸ChatGPT數(shù)據(jù)無關(guān)。
而且報告稱95%的GPU-hours用于預(yù)訓(xùn)練基礎(chǔ)模型，即便是跟ChatGPT數(shù)據(jù)有關(guān)，那這部分也會在post-training階段發(fā)生（后5%）。