自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌、OpenAI學者談AI:語言模型正在努力「攻克」數(shù)學

人工智能 新聞
AI 到底擅不擅長數(shù)學,還得具體問題具體分析。

如果問計算機擅長什么,在所有的答案里,數(shù)學必須榜上有名。在經(jīng)歷了漫長的研究之后,頂尖學者們在研究計算機關于數(shù)學計算方面的發(fā)展,取得了令人驚訝的成績。

就拿去年來說,來自加州大學伯克利分校、OpenAI 和 Google 的研究人員在語言模型方面取得了長足的進步,GPT-3、DALL·E 2 等被開發(fā)出來。然而,直到現(xiàn)在,語言模型還無法解決一些簡單的、用語言描述的數(shù)學問題,例如「Alice 比 Bob 多五個球,Bob 在給 Charlie 四個球后有兩個球。問 Alice 有幾個球?」這對語言模型來說,想要給出正確答案,可能就有點「吃力」了。

「當我們說計算機非常擅長數(shù)學時,意思是它們非常擅長特定的、具體的事情,」來自谷歌的機器學習專家 Guy Gur-Ari 表示。計算機擅長算術是不假,但在特定的模式之外,計算機就無能為力了,簡單的文字描述題都回答不了。

谷歌研究員 Ethan Dyer 曾經(jīng)表示:做數(shù)學研究的人有一套僵化的推理系統(tǒng),對于他們熟知的和不了解的內(nèi)容,這兩者之間有著明顯的鴻溝。

解決文字問題或定量推理問題很棘手,因為不同于其他問題,這兩者需要魯棒性和嚴謹性。如果過程中的任何一步出現(xiàn)錯誤,將會導致錯誤的答案。DALL·E 在繪畫方面令人印象深刻,盡管它生成的圖像有時會很奇怪,可能遺漏人的手指、眼睛長得奇怪…… 這些我們都能接受,但是它在數(shù)學方面出現(xiàn)了錯誤,我們的容忍度就會非常小。來自 OpenAI 的機器學習專家 Vineet Kosaraju 也曾表達過這種想法,「我們對語言模型所犯的數(shù)學錯誤(比如將 10 誤解為 1 和 0,而不是 10)容忍性還是比較小的?!?/span>

「我們研究數(shù)學僅僅是因為我們發(fā)現(xiàn)它獨立且非常有趣,」OpenAI 機器學習專家 Karl Cobbe 說。

隨著機器學習模型在更大的數(shù)據(jù)樣本上訓練而成,它們的魯棒性更好、出錯也更少。但擴大模型規(guī)模似乎只能通過定量推理進行。研究人員意識到,對于語言模型所犯的錯誤似乎需要更有針對性的方法來解決。

去年,加州大學伯克利分校和 OpenAI 的兩個研究團隊分別發(fā)布了數(shù)據(jù)集 MATH 和 GSM8K,這兩個數(shù)據(jù)集包含幾何、代數(shù)、初等數(shù)學等數(shù)千個數(shù)學問題?!肝覀兿肟纯催@是否是數(shù)據(jù)集的問題,」從事數(shù)學工作的 AI 安全中心研究員 Steven Basart 說。眾所周知,語言模型不擅長單詞問題,在這個問題上它們表現(xiàn)的有多糟糕,是否可以通過引入格式更好、更大的數(shù)據(jù)集來解決? 

在 MATH 數(shù)據(jù)集上,頂級語言模型的準確率為 7%,而人類研究生的準確率為 40%,奧林匹克冠軍的準確率為 90%。在 GSM8K 數(shù)據(jù)集上(小學級別的問題),模型達到了 20% 的準確率。實驗中 OpenAI 使用了微調(diào)和驗證這兩種技術,結果表明模型可以看到很多自身錯誤的例子,這一發(fā)現(xiàn)很有價值。

當時,OpenAI 的模型需要在 100 倍以上的數(shù)據(jù)上進行訓練,才能在 GSM8K 上達到 80% 的準確率。但在今年 6 月,谷歌發(fā)布了 Minerva,達到 78% 的準確率。這一結果超出了預期,研究者表示,比預想的時間來的更快。

圖片

論文地址:https://arxiv.org/pdf/2206.14858.pdf

Minerva 基于谷歌自研的 Pathways 語言模型 (PaLM),具有更多的數(shù)學數(shù)據(jù)集,包含 arXiv、 LaTeX 等數(shù)學格式。Minerva 還采用了其他策略,在思維鏈提示(chain-of-thought prompting)中,Minerva 將更大的問題分解成小塊。此外,Minerva 還使用多數(shù)投票(majority voting),不是要求模型給出一個答案,而是要求它提出 100 種答案。在這些答案中,Minerva 選擇最常見的一種答案。

這些新策略的收益是巨大的,Minerva 在 MATH 上的準確率高達 50%,在 GSM8K 以及 MMLU(包括化學和生物學在內(nèi)的一組更通用的 STEM 問題)上的準確率接近 80%。當 Minerva 被要求重做稍微調(diào)整過的問題時,它的表現(xiàn)同樣很好,這表明它的能力不僅僅是來自記憶。

Minerva 可能有奇怪、混亂的推理,但仍然得出正確的答案。盡管像 Minerva 這樣的模型可能會得出與人類相同的答案,但它們所遵循的實際過程可能大不相同。

谷歌機器學習專家 Ethan Dyer 表示,「我認為存在這樣一種觀念,即數(shù)學相關人士有一些嚴格的推理系統(tǒng),了解某事和不了解某事之間存在明顯的區(qū)別。」但人們給出的答案不一致,會犯錯誤,也無法應用核心概念。在機器學習前沿中,邊界是模糊的。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-02-16 10:26:58

谷歌AI

2024-06-13 17:34:52

2011-07-22 09:42:52

谷歌ChromeLion

2025-04-09 11:01:19

2024-07-29 14:39:39

2023-05-12 12:43:49

開源人工智能

2024-07-25 13:46:43

2023-12-09 14:30:50

2024-11-25 09:00:00

2023-04-09 16:17:05

ChatGPT人工智能

2025-04-15 08:50:00

2024-07-24 11:38:07

2023-06-01 12:46:46

GPT-4數(shù)學OpenAI

2022-07-26 15:45:30

AI模型

2023-03-06 15:24:54

谷歌人才

2021-01-19 22:38:59

人工智能語言人臉識別

2024-10-17 14:15:00

模型AI

2024-08-01 09:30:00

2019-08-26 15:00:13

2023-03-31 08:11:04

點贊
收藏

51CTO技術棧公眾號