打破美國AI公司霸榜,上交AI數學開源模型阿貝爾排行榜首
以 ChatGPT 為代表的大模型產品引領了一場新的產業(yè)革命,激發(fā)了國內外各機構積極投入相關技術研究的熱情。在過去幾個月的技術競爭中,國產大模型在文本理解和知識理解任務方面表現出色,堪稱一位優(yōu)秀的 “文科生”。
然而,在復雜數學推理計算、物理建模、科學發(fā)現等 “理科” 領域,大模型的研究尚未達到令人滿意的水平,與美國頂尖科技公司(OpenAI、Google、Anthropic)相比,仍存在很大差距。例如,在數學推理方面的權威評測集 GSM8K 和 MATH 上,美國 AI 公司一直占據前幾名,突顯了其領先地位。
在這樣的背景下,上海交大生成式人工智能研究組 (GAIR) 積極攻克難關,研發(fā)并開源了數學計算大模型 “阿貝爾(Abel)”,在多個榜單上取得開源第一!是首個海內外高校團隊推出的 SOTA 數學開源大模型。
- 項目主頁:https://GAIR-NLP.github.io/abel
- 開源模型:https://github.com/GAIR-NLP/abel
“在還未回國前,我和 Meta 非常優(yōu)秀的科學家合作了一篇叫做 LIMA 的工作,在那篇工作里我們僅使用 1000 個樣本就可以訓練模型使其在達到接近 GPT4 的水平。但是這種 “少即是多” 的思想并沒有在所有的任務場景上都得到了驗證,比如數學推理。這也成為當時的遺憾,使得我對如何讓大模型學好數學充滿了興趣。”上海交大生成式人工智能研究組負責人同時也是阿貝爾項目的負責人劉鵬飛分享道。“Abel 是為了致敬挪威偉大數學家 尼爾斯?阿貝爾 (Niels Henrik Abel) 在代數和分析方面的開創(chuàng)性工作而創(chuàng)建的,代數也是現在模型相對擅長解決的,不過,我們還有很長的路要走?!?/span>
模型表現
表 1:?? 代表專有模型,而 ?? 表示開源模型,?? 表示模型開發(fā)由學術大學主導(而不是由公司主導);這里僅考慮不使用任何工具(例如 Python)的模型;GAIRMath-Abel 為該團隊提出的模型
在阿貝爾(GAIRMath-Abel)這個項目里,作者展示了,盡管
- 沒有使用工具
- 沒有使用數學領域的大規(guī)模預訓練數據
- 沒有使用獎勵模型
- 沒有使用基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)
- 僅使用有監(jiān)督精調(Supervised Fine-tuning,SFT)
阿貝爾在 GSM8k(83.62)和 MATH(28.26)權威評測集上實現了開源數學模型(不使用外部工具)的最好成績,具體說來:
- 在 GSM8K 上的性能達到了 83.62,超過了許多國外大廠優(yōu)秀的模型,如 PaLM-1、Minerva(Google)、Claude-instant(Anthropic)以及 ChatGPT(OpenAI),僅落后于 Google 的最新模型 PaLM-2-Flan1 個百分點;同時也顯著高于所有開源國產模型
- 在具有高難度的數學競賽問題上,阿貝爾準確率達到了 28.26%(相比于 GPT4 的 42.5%),它在其他開源模型中保持了顯著領先地位,超過了之前最佳的開源模型 5 個多百分點
- 7B 和 13B 模型在 GSM8K 和 MATH 兩方面以顯著優(yōu)勢取得了開源模型性能的最佳
- 阿貝爾在排行榜前十名中占據了 3 個位置,并且是唯一一家由大學領導的項目(其他都是明星創(chuàng)業(yè)公司或大型科技公司)
- 使用作者的方法,不僅在 GSM8K 和 MATH 上取得了出色的成績,而且在提供新數據集(TALSCQ-EN)時,迅速達到了最好性能(SOTA),并且輕松超越了商業(yè)模型 MathGPT 和 GPT4。
除了優(yōu)秀的性能本身,該項目也揭示了:
- 有監(jiān)督精調的能力被嚴重低估,研究人員應該以應有的敬畏和謹慎來對待這個過程。
- 出色的數學問題解決能力可以通過有監(jiān)督精調實現的很好,這將在未來對這個方向的探索中引發(fā)更多富有想象力的可能性
訓練方法
為了訓練阿貝爾,該團隊提出Parental Oversight (家長監(jiān)督),一種監(jiān)督微調的保姆策略(Babysitting Strategy)。
Parental Oversight 的核心理念在于,在對大模型進行微調的過程中應該懷著一種敬畏和謹慎的態(tài)度,就如同家長在對孩子進行教育時,必須要用最淺顯易懂并謹慎的方式進行教導,在穩(wěn)健成長的同時避免揠苗助長。各種不同的數據和數據的呈現方式 代表的是不同的教育方式,而研究者必須謹慎小心的選擇最好的方式教導大模型。
事實上,在 GAI 的背景下,數據結構工程 (Data Structure Engineering) 已經成為一種新的范式。有效的處理數據的方向對大模型在不同下游任務上的成功與否有著極為關鍵性的影響。從 Parental Oversight 理念出發(fā),在復雜推理任務上取得好的結果,最關鍵的是要精心策劃訓練數據,而不是不加選擇地使用任何樣本進行監(jiān)督學習。
通過最精確謹慎的監(jiān)督,協助大模型在復雜推理的下游任務上成長。在有監(jiān)督精調的訓練樣本中,不僅應包含正確的答案,還應告訴模型如何從預訓練模型的知識中獲得正確答案。此外,如果語言模型的知識不足以獲得真實答案,監(jiān)護監(jiān)督應該幫助模型迅速填補知識上的空白。
局限性 & 規(guī)劃
盡管阿貝爾數學模型在評估的幾個數據集上表現優(yōu)異,但是開發(fā)者也總結了它的不足之處:
- 過擬合:盡管進行了魯棒性分析,并考慮到數學生成型 AI 天生具有脆弱性(通常需要高級解碼策略,如多數投票),但過于依賴構建 SFT 樣本以提高性能可能會不可避免地導致模型出現過擬合現象。(然而,過擬合并不是當前項目的主要關注點,因為即使對過擬合各種增強訓練數據,對于復雜的數學推理任務,如 MATH 數據集,仍然很難實現有利的測試結果。)盡管如此,團隊仍然需要進行更廣泛的健壯性分析,并積極探索可以將模型轉化為數學通才的訓練方法,并進行更全面的跨領域泛化分析。
- 泛化性:一個好的數學模型不應僅限于解決 GSM8K 和 MATH 數據集上的問題;它應該能夠處理各種類型的問題,包括評估不同知識領域并需要不同類型的回答的問題(例如,多項選擇、真假、證明、算術等)。當前模型的能力不足以泛化到這些多樣的場景。
- 通用性:最終,作者預計大型模型賦予的數學推理能力可以整合到各個領域的聊天機器人中,如醫(yī)學、法律、物理學、化學等。實現 AGI 的關鍵在于將強大的數學模型的力量融入其他模型中,而這在當前項目中尚未探索。
- 多語言性:當前模型的訓練數據和基本模型限制了它在除英語以外的語言中提供回應的能力。
- 高級技術:當前模型主要關注有監(jiān)督精調(SFT),尚未探索獎勵模型、RLHF(從人類反饋中進行強化學習)和工具調用等高級技術。
開發(fā)者表示已經列出了一系列問題,并用 Github 維護這些限制和潛在解決方案。歡迎大家提出建設性意見和見解。
下一步計劃
最后,作者也簡單用一張圖透露了實驗室的下一步計劃:從 “阿貝爾” 到 “伯努利”。