藏不住了!OpenAI的推理模型有時(shí)用中文「思考」
OpenAI o1 在推理時(shí)有個(gè)特點(diǎn),就像有人考試會把關(guān)鍵解題步驟寫在演草紙上,它會把推理時(shí)的內(nèi)心 os 分點(diǎn)列出來。
然而,最近 o1 的內(nèi)心 os 是越來越不對勁了,明明是用英語提問的,但 o1 開始在演草紙上用中文「碎碎念」了。
比如這道編碼題,前面 o1 還在老老實(shí)實(shí)用英語,后腳就進(jìn)入了「中文時(shí)間」。
這波操作,怎么看都像留子寫論文的反向操作:先用中文打草稿,再翻譯成英文交作業(yè),倒反天罡了。
這件事先在 reddit 上掀起了一陣討論,匿名發(fā)帖者表示:「我只見過 Deepseek 的模型這樣做,但我不知道為什么 OpenAI 的模型會突然偏向中文啊!」
神經(jīng)科學(xué) × AI 研究員 Rishab Jain 也在 X 上表示疑惑:「為啥 o1 突然開始用中文思考了?明明整個(gè)對話(5 + 條消息)都是英文啊...... 很有意思...... 該不會是訓(xùn)練數(shù)據(jù)在作祟吧?」
OpenAI 并未做出解釋,甚至都沒有承認(rèn)這一現(xiàn)象。
谷歌的 Gemini 也出現(xiàn)了類似的行為。它會在段落中間隨機(jī)插入古吉拉特語(印度的一種主要語言)單詞。ChatGPT 也可能會用沒有出現(xiàn)在對話中的語言來定義網(wǎng)頁左邊列表里整個(gè)對話的名稱。
這種多語言能力者的現(xiàn)象不只出現(xiàn)在推理或語言模型中,多模態(tài)模型也「躺槍」,有網(wǎng)友提到自己在跟 GPT-4o 對話的時(shí)候,它也會半途隨機(jī):「讓我們說中文?」
那么,這到底是怎么一回事呢?
難道是 o1 套殼「QwQ」的事,藏不住了?
嗯,AI 專家們也不太確定。但他們先針對推理模型提出了幾種推測。
訓(xùn)練數(shù)據(jù)的鍋?
Hugging Face CEO Clément Delangue 在 X 上轉(zhuǎn)貼,表示:「或許這是因?yàn)殚]源公司在使用(目前是中國機(jī)構(gòu)主導(dǎo))的開源 AI 和開源數(shù)據(jù)集?」
他還提到:「未來在開源 AI 領(lǐng)域勝出的國家或公司,將在 AI 的未來發(fā)展中擁有巨大的影響力和話語權(quán)?!?/span>
「OpenAI 和 Anthropic 的實(shí)驗(yàn)室都會使用第三方數(shù)據(jù)標(biāo)注服務(wù)來處理科學(xué)、數(shù)學(xué)和編程方面的博士級推理數(shù)據(jù),」RT-X 系列的主要作者、Google DeepMind 研究員 Ted Xiao 做出了進(jìn)一步解釋,「出于專業(yè)勞動力可用性和成本考慮,許多這些第三方數(shù)據(jù)標(biāo)記供應(yīng)商都位于中國。」
而 o1 切換到中文可能是這種影響的一個(gè)例子。
軟件工程師 @ClaudiuDP 也表示:「可能是 AI 的訓(xùn)練數(shù)據(jù)中里,一些需要用來構(gòu)建回答的信息是用中文寫的?!?/span>
除了中文占訓(xùn)練數(shù)據(jù)的比重高之外,由于是中文是象形文字系統(tǒng),一個(gè)漢字往往可以表達(dá)一個(gè)完整的概念,相比之下,英文可能需要多個(gè)字母才能表達(dá)同樣的概念。這可能也是一種「節(jié)省 token」的策略?
「AI 選擇用中文思考,是因?yàn)橹形脑谀承┍磉_(dá)上更經(jīng)濟(jì),可以直接解概念壓縮包?」
「在思維鏈中,同等 token,選中文能思考得更深?」
「與英語相比,中文壓縮了 token 的使用。我懷疑這是否是原因,但節(jié)省這些冗長的內(nèi)部推理模型的成本是明智之舉。」
解起數(shù)學(xué)題來尤為直觀,比如小 A 還在卷子上拼「Quotient」,而旁邊的中國同學(xué)的「商」字已經(jīng)寫完了。
選擇了最順手的語言?
然而,有些專家并不認(rèn)同應(yīng)該讓數(shù)據(jù)標(biāo)注背鍋。因?yàn)槌酥形模琽1 突然切換到印地語、泰語等其他語言的可能性也很大。
他們提出了不同的觀點(diǎn):「o1 可能只是在選擇最順手的語言來解題,或者只是單純的幻覺。」
「模型并不知道什么是語言,也不知道語言之間有什么不同,」阿爾伯塔大學(xué)助理教授、AI 研究員 Matthew Guzdial 對 TechCrunch 表示,「對它來說這些都只是文本?!?/span>
事實(shí)上,模型眼中的語言,和我們理解的完全不同。模型并不直接讀單詞,而是處理 tokens。以「fantastic」為例,它可以作為一個(gè)完整的 token;可以拆成「fan」、「tas」、「tic」三個(gè) token;也可以完全拆散,每個(gè)字母都是一個(gè) token。
但這種拆分方式也會帶來一些誤會。很多分詞器看到空格就認(rèn)為是新詞的開始,但實(shí)際上不是所有語言都用空格分詞,比如中文。
Hugging Face 的工程師 Tiezhen Wang 認(rèn)同 Guzdial 的看法,認(rèn)為推理模型語言的不一致性可能是訓(xùn)練期間建立了某種特殊的關(guān)聯(lián)。
他類比了人類的思維過程,會說雙語并不僅僅是會說兩種語言,而是一種獨(dú)特的思維方式:大腦會自然地選擇最適合當(dāng)下場景的語言。就像用中文算數(shù)學(xué)比較簡潔高效,每個(gè)數(shù)字只需一個(gè)音節(jié),但討論「無意識偏見」時(shí)卻自然切換到英文,因?yàn)樽畛蹙褪怯糜⑽膶W(xué)習(xí)這個(gè)概念。
這種語言切換就像程序員選擇編程語言一樣自然 —— 雖然大多數(shù)編程語言都能完成任務(wù),但我們還是會選擇用 Bash 寫命令行,用 Python 做機(jī)器學(xué)習(xí),因?yàn)槊糠N語言都有它的「最佳場景」。
「工具要看場合」,這也啟發(fā)訓(xùn)練 AI 時(shí)也要讓它接觸多種語言,學(xué)習(xí)到不同文化中的獨(dú)特思維方式,這種包容性也能讓 AI 更全面,也更公平。
有許多 AI 專家與 Wang 的觀點(diǎn)不謀而合。
「在思維鏈推理過程中,肯定會冒出很多種語言,用哪種語言思考都行。就像我自己,當(dāng)某些概念用英語很難表達(dá)時(shí),我的思維就會自動切換到俄語。大語言模型就是硅基大腦,可能也是同理?!?/span>
「這是訓(xùn)練過程中產(chǎn)生的一個(gè)現(xiàn)象。Deepseek 的 R1 模型也有同樣的表現(xiàn)。在訓(xùn)練過程中,模型會搜索那些最能幫助它得出正確結(jié)論的詞。而其他語言中的詞向量往往能更好地影響它的推理過程?!?/span>
同時(shí),不少圈內(nèi)人表示,既然切換語言對思考有幫助,而且用戶最終看到的還是英文結(jié)果,那這完全 OK。
「作為一個(gè)中國人,我經(jīng)常在腦子里用英文思考,因?yàn)槲沂请p語者。所以我一點(diǎn)也不驚訝大語言模型會用中文思考,畢竟它們也是多語言通。只要最后輸出的是預(yù)期語言就行,我覺得這不能算是幻覺。不過,這是不是要進(jìn)一步思考:最好的 AI 思考方式,是不是應(yīng)該是一種與具體語言無關(guān)的隱藏狀態(tài)?」
「半路用中文思考」不是 bug,反而是一個(gè)意外的驚喜,說明 AI 出現(xiàn)了「以我為主,為我所用」的智能涌現(xiàn)?