陶哲軒神預(yù)言!Transformer破解百年三體難題,憑數(shù)學(xué)直覺找到李雅普諾夫函數(shù)
三體問題,竟被Transformer解決了?
發(fā)現(xiàn)全局李雅普諾夫函數(shù),已經(jīng)困擾了數(shù)學(xué)家們132年。
作為分析系統(tǒng)隨時(shí)間穩(wěn)定性的關(guān)鍵工具,李雅普諾夫函數(shù)有助于預(yù)測動(dòng)態(tài)系統(tǒng)行為,比如著名的天體力學(xué)三體問題。
它是天體力學(xué)中的基本力學(xué)模型,指三個(gè)質(zhì)量、初始位置和初始速度都是任意的可視為質(zhì)點(diǎn)的天體,在相互之間萬有引力作用下的運(yùn)動(dòng)規(guī)律問題。
現(xiàn)在已知,三體問題不能精確求解,無法預(yù)測所有三體問題的數(shù)學(xué)情景。(「三體人」的困境,就是三體問題的一個(gè)極端案例。)
現(xiàn)在,Meta AI解決了這個(gè)問題。目前,論文已被NeurIPS 2024接收。
論文地址:https://arxiv.org/abs/2410.08304
今天,論文發(fā)布十幾天后,AI社區(qū)再度被它刷屏。
就在前一陣,蘋果的一項(xiàng)研究引起廣泛熱議:LLM不具備推理能力,可能只是復(fù)雜的模式匹配器而已。
有趣的是,這篇論文在結(jié)尾呼應(yīng)了這個(gè)問題,做了極其精彩的論述——
從邏輯和推理的角度來看,有人認(rèn)為規(guī)劃和高層次的推理可能是自回歸Transformer架構(gòu)的固有限制。然而,我們的研究結(jié)果表明,Transformer確實(shí)可以通過精心選擇訓(xùn)練樣本,而非更改架構(gòu),來學(xué)會(huì)解決一個(gè)人類通過推理解決的復(fù)雜符號(hào)數(shù)學(xué)問題。我們并不認(rèn)為Transformer是在進(jìn)行推理,而是它可能通過一種「超級(jí)直覺」來解決問題,這種直覺源自對(duì)數(shù)學(xué)問題的深刻理解。
雖然這個(gè)系統(tǒng)化的方法仍是一個(gè)黑箱,無法闡明Transformer的「思維過程」,但解決方案明確,且數(shù)學(xué)正確性可以得到驗(yàn)證。
Meta研究者表示:生成式AI模型可以用于解決數(shù)學(xué)中的研究級(jí)問題,為數(shù)學(xué)家提供可能解的猜測。他們相信,這項(xiàng)研究是一個(gè)「AI解決數(shù)學(xué)開放問題」的藍(lán)圖。
無論如何,陶哲軒和今天的這項(xiàng)研究都已證明,無論LLM究竟會(huì)不會(huì)推理,它都已經(jīng)徹底改變數(shù)學(xué)這類基礎(chǔ)科學(xué)的研究范式。
那些在歷史長河中的未解數(shù)學(xué)之謎,破解答案的一天或許已經(jīng)離我們無比接近。
Transformer解決132年前數(shù)學(xué)難題
全局李亞普諾夫函數(shù),控制著動(dòng)力系統(tǒng)的穩(wěn)定性。它會(huì)衡量一個(gè)開始接近平衡的系統(tǒng),是否會(huì)始終保持接近平衡(或偏離平衡)?
其中最著名的案例,就是「三體問題」了。
軌跡可能很復(fù)雜,但只要從紅球開始,它們最終都會(huì)留在藍(lán)球的位置
1892年,李亞普諾夫證明,如果可以找到一個(gè)函數(shù)V,在平衡時(shí)具有嚴(yán)格的最小值,在無窮大時(shí)具有無限大,并且梯度始終指向遠(yuǎn)離系統(tǒng)梯度的方向,那么全局穩(wěn)定性就能得到保證。
遺憾的是,他未能提供尋找函數(shù)V的方法。
好在,一百多年后,大模型出現(xiàn)了。
以前,不存在尋找李亞普諾夫函數(shù)的通用方法,現(xiàn)在LLM是否能解決?
研究者們驚喜地發(fā)現(xiàn),自己的模型發(fā)現(xiàn)了兩個(gè)穩(wěn)定系統(tǒng),以及相關(guān)的李雅普諾夫函數(shù)。
為此,Meta AI研究者引入一種后向生成技術(shù)來訓(xùn)練模型。這項(xiàng)技術(shù)根據(jù)Lyapunov函數(shù)創(chuàng)建動(dòng)力系統(tǒng),而這些系統(tǒng)的分布與我們實(shí)際想要解決的問題不同。
盡管模型必須在分布外進(jìn)行泛化,但使用逆向生成數(shù)據(jù)訓(xùn)練的模型,在可以用數(shù)值工具求解的多項(xiàng)式系統(tǒng)測試集上仍能取得良好的性能。
通過向后向訓(xùn)練集中添加少量(0.03%)簡單且可解決的“前向”示例,性能就得到極大提高。這種「啟動(dòng)模型」大大優(yōu)于最先進(jìn)的方法。
在穩(wěn)定性未知的一組隨機(jī)動(dòng)力系統(tǒng)上,研究者測試了自己的模型,發(fā)現(xiàn)在10%到13%的情況下,都能找到新的新的李亞普諾夫函數(shù)。
在這項(xiàng)任務(wù)上,這些增強(qiáng)的模型在各種基準(zhǔn)測試中大大超越了最先進(jìn)的技術(shù)和人類表現(xiàn)。
它們的準(zhǔn)確率超過80%,但碩士生級(jí)別的人類數(shù)學(xué)家在這項(xiàng)任務(wù)上的準(zhǔn)確率不到10%。
最后,研究者測試了模型在隨機(jī)生成系統(tǒng)中發(fā)現(xiàn)未知李雅普諾夫函數(shù)的能力。
在多項(xiàng)式系統(tǒng)中(當(dāng)前方法唯一能解決的系統(tǒng)),模型為10.1%的系統(tǒng)找到了李雅普諾夫函數(shù),而最先進(jìn)的技術(shù)僅為2.1%。
在非多項(xiàng)式系統(tǒng)中(當(dāng)前沒有已知算法),最佳模型為12.7%的系統(tǒng)發(fā)現(xiàn)了新的李雅普諾夫函數(shù)。
系統(tǒng)穩(wěn)定性與李雅普諾夫函數(shù)
發(fā)現(xiàn)控制動(dòng)力系統(tǒng)全局穩(wěn)定性的李雅普諾夫函數(shù),是一個(gè)長期存在但易于形式化的數(shù)學(xué)開放問題。
這個(gè)函數(shù)代表著當(dāng)時(shí)間趨于無窮時(shí),其解相對(duì)于平衡點(diǎn)或軌道的有界性。
動(dòng)力系統(tǒng)的穩(wěn)定性是一個(gè)復(fù)雜的數(shù)學(xué)問題,吸引了許多代數(shù)學(xué)家的興趣,從18世紀(jì)的牛頓和拉格朗日,到20世紀(jì)研究三體問題的龐加萊。
評(píng)估穩(wěn)定性的主要數(shù)學(xué)工具是由李雅普諾夫提出的,他在1892年證明,如果可以找到一個(gè)遞減的類似熵的函數(shù)——李雅普諾夫函數(shù),那么系統(tǒng)就是穩(wěn)定的。
系統(tǒng)穩(wěn)定性
全局漸進(jìn)穩(wěn)定性
后來,李雅普諾夫函數(shù)的存在被證明是大系統(tǒng)穩(wěn)定性的必要條件。
不幸的是,目前尚無已知方法可以在一般情況下推導(dǎo)出李雅普諾夫函數(shù),已知的李雅普諾夫函數(shù)僅適用于少數(shù)系統(tǒng)。
事實(shí)上,130年后,系統(tǒng)推導(dǎo)全局李雅普諾夫函數(shù)的方法僅在少數(shù)特殊情況下已知,而在一般情況下的推導(dǎo)仍然是一個(gè)著名的開放問題。
為此,研究者提出了一種從隨機(jī)采樣的李雅普諾夫函數(shù)中生成訓(xùn)練數(shù)據(jù)的新技術(shù)。
在這些數(shù)據(jù)集上訓(xùn)練的大語言模型中的序列到序列Transformer,在保留測試集上實(shí)現(xiàn)了接近完美的準(zhǔn)確率(99%),并在分布外測試集上表現(xiàn)出很高的性能(73%)。
實(shí)驗(yàn)設(shè)置
在這項(xiàng)工作中,研究者訓(xùn)練了序列到序列的Transformer,來預(yù)測給定系統(tǒng)的李雅普諾夫函數(shù)(如果存在)。
他們將問題框定為翻譯任務(wù):問題和解決方案被表示為符號(hào)token的序列,模型從生成的系統(tǒng)和李雅普諾夫函數(shù)對(duì)中進(jìn)行訓(xùn)練,以最小化預(yù)測序列與正確解決方案之間的交叉熵。
為此,研究者訓(xùn)練了具有8層、10個(gè)注意力頭和嵌入維度為640的Transformer,批大小為16個(gè)樣本,使用Adam優(yōu)化器,學(xué)習(xí)率為10^?4,初始線性預(yù)熱階段為10,000次優(yōu)化步驟,并使用反平方根調(diào)度。
所有實(shí)驗(yàn)在8個(gè)32GB內(nèi)存的V100 GPU上運(yùn)行,每個(gè)epoch處理240萬樣本,共進(jìn)行3到4個(gè)epoch。每個(gè)GPU的訓(xùn)練時(shí)間在12到15小時(shí)之間。
數(shù)據(jù)生成
研究者將模型在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,這些數(shù)據(jù)集由穩(wěn)定系統(tǒng)及其相關(guān)的李雅普諾夫函數(shù)對(duì)組成。
采樣此類穩(wěn)定系統(tǒng)有兩個(gè)難點(diǎn)。
首先,大多數(shù)動(dòng)力系統(tǒng)是不穩(wěn)定的,并且沒有通用的方法可以決定一個(gè)系統(tǒng)是否穩(wěn)定。
其次,一旦采樣到一個(gè)穩(wěn)定系統(tǒng),除了特定情況下,沒有通用的技術(shù)可以找到李雅普諾夫函數(shù)。
在本文中,研究者依賴于反向生成,通過采樣解決方案并生成相關(guān)問題來處理一般情況,以及正向生成,通過采樣系統(tǒng)并使用求解器計(jì)算其解決方案,來處理小度數(shù)的可處理多項(xiàng)式系統(tǒng)。
反向生成
反向生成方法,從解決方案中采樣問題,只有在模型能夠避免學(xué)習(xí)逆轉(zhuǎn)生成過程或“讀取”生成問題中的解決方案時(shí)才有用。
例如,當(dāng)訓(xùn)練模型解決求整數(shù)多項(xiàng)式根的難題時(shí),人們可以輕松從其根(3、5、7)生成多項(xiàng)式:
然而,如果模型是從P(X)的因式分解形式進(jìn)行訓(xùn)練的,它將學(xué)會(huì)讀取問題的根,而非計(jì)算它們。
另一方面,簡化形式
也并未提供任何線索。
反向生成的第二個(gè)困難是,對(duì)解決方案而非問題進(jìn)行采樣,會(huì)使訓(xùn)練分布產(chǎn)生偏差。
為此,研究者提出了一種從隨機(jī)李雅普諾夫函數(shù)V生成穩(wěn)定系統(tǒng)S的過程。
經(jīng)過以上六步,產(chǎn)生了一個(gè)穩(wěn)定系統(tǒng)S:?=f(x),其中V作為其Lyapunov函數(shù)。
正向生成
盡管在一般情況下穩(wěn)定性問題尚未解決,但當(dāng)多項(xiàng)式系統(tǒng)的李雅普諾夫函數(shù)存在并可以寫成多項(xiàng)式的平方和時(shí),已有方法可以計(jì)算這些函數(shù)。
這些多項(xiàng)式復(fù)雜度的算法對(duì)于小型系統(tǒng)非常高效,但隨著系統(tǒng)規(guī)模的增長,其CPU和內(nèi)存需求會(huì)急劇增加。
研究者利用這項(xiàng)算法,來生成前向數(shù)據(jù)集。
這種方法也有幾個(gè)局限性,限制了該方法可以解決的多項(xiàng)式系統(tǒng)的類別。
數(shù)據(jù)集
研究者生成了兩個(gè)用于訓(xùn)練和評(píng)估目的的反向數(shù)據(jù)集和兩個(gè)正向數(shù)據(jù)集,以及一個(gè)較小的正向數(shù)據(jù)集用于評(píng)估目的。
結(jié)果
研究者在不同數(shù)據(jù)集上訓(xùn)練的模型,在保留測試集上取得了接近完美的準(zhǔn)確率,并且在分布外測試集上表現(xiàn)非常出色,特別是在用少量正向示例增強(qiáng)訓(xùn)練集時(shí)。
它們大大超越了當(dāng)前最先進(jìn)的技術(shù),并且還能發(fā)現(xiàn)新系統(tǒng)的李雅普諾夫函數(shù)。以下是這些結(jié)果的詳細(xì)信息。
分布內(nèi)和分布外的準(zhǔn)確率
在本節(jié)中,研究者展示了在4個(gè)數(shù)據(jù)集上訓(xùn)練的模型的性能。
所有模型在域內(nèi)測試中都取得了高準(zhǔn)確率,即在它們訓(xùn)練所用數(shù)據(jù)集的留出測試集上進(jìn)行測試時(shí)。
在正向數(shù)據(jù)集上,障礙函數(shù)預(yù)測的準(zhǔn)確率超過90%,李雅普諾夫函數(shù)的準(zhǔn)確率超過80%。
在反向數(shù)據(jù)集上,訓(xùn)練于BPoly的數(shù)據(jù)集的模型幾乎達(dá)到了100%的準(zhǔn)確率。
研究者注意到,束搜索,即允許對(duì)解進(jìn)行多次猜測,顯著提高了性能(對(duì)于表現(xiàn)較差的模型,束大小為50時(shí)提升了7到10%)。
在所有后續(xù)實(shí)驗(yàn)中,研究者都使用了50的束大小。
對(duì)生成數(shù)據(jù)訓(xùn)練的模型的試金石,是其分布外(OOD)泛化能力。
所有反向模型在測試正向生成的隨機(jī)多項(xiàng)式系統(tǒng)(具有平方和李雅普諾夫函數(shù))時(shí),都取得了高準(zhǔn)確率(73%到75%)。
最佳性能由非多項(xiàng)式系統(tǒng)(BNonPoly)實(shí)現(xiàn),這是最多樣化的訓(xùn)練集。
反向模型在具有障礙函數(shù)的正向生成系統(tǒng)集(FBarr)上的較低準(zhǔn)確率,可能是因?yàn)樵S多障礙函數(shù)不一定是李雅普諾夫函數(shù)。在這些測試集上,反向模型必須應(yīng)對(duì)不同的分布和略有不同的任務(wù)。
另一方面,正向模型在反向測試集上的表現(xiàn)較差。這可能是由于這些訓(xùn)練集的規(guī)模較小。
總體而言,這些結(jié)果似乎證實(shí)了反向訓(xùn)練的模型并未學(xué)習(xí)反轉(zhuǎn)其生成過程。如果是這樣,它們在正向測試集上的表現(xiàn)將接近于零。它們還顯示了良好的OOD準(zhǔn)確率。
通過豐富訓(xùn)練分布來提高性能
為了提高反向模型的OOD性能,研究者在其訓(xùn)練集中加入了一小部分正向生成的示例。
值得注意的是,這帶來了顯著的性能提升。
將300個(gè)來自FBarr的示例添加到BPoly中后,F(xiàn)Barr的準(zhǔn)確率從35%提高到89%(盡管訓(xùn)練集中正向示例的比例僅為0.03%),并使FLyap的OOD準(zhǔn)確率提高了10多個(gè)百分點(diǎn)。從FLyap添加示例帶來的改進(jìn)較小。
這些結(jié)果表明,在反向生成數(shù)據(jù)上訓(xùn)練的模型的OOD性能,可以通過在訓(xùn)練集中加入少量我們知道如何解決的示例(幾十或幾百個(gè))來大大提高。
在這里,額外的示例解決了一個(gè)較弱但相關(guān)的問題:發(fā)現(xiàn)障礙函數(shù)。因?yàn)樗枋纠龜?shù)量很少,因而這種技術(shù)特別具有成本效益。
與當(dāng)前最先進(jìn)的基線比較
為了給模型提供基線,研究者開發(fā)了findlyap,這是MATLAB的SOSTOOLS中的李雅普諾夫函數(shù)查找器的Python對(duì)應(yīng)版本。
他們還引入了FSOSTOOLS,這是一個(gè)包含1500個(gè)整數(shù)系數(shù)多項(xiàng)式系統(tǒng)的測試集,具有SOSTOOLS可以求解的整數(shù)系數(shù)。
研究者還測試了基于AI的工具,例如Fossil 2、ANLC v2和LyzNet。
這些方法在測試集上取得了較低的準(zhǔn)確率。這可能是因?yàn)檫@些工具旨在解決不同的問題:發(fā)現(xiàn)局部或半全局李雅普諾夫函數(shù)(并可能尋找控制函數(shù)),而研究者的目標(biāo)是全局李雅普諾夫函數(shù)。
表5比較了findlyap和基于AI的工具以及研究者模型在所有可用測試集上的表現(xiàn)。
一個(gè)在BPoly上訓(xùn)練并補(bǔ)充了500個(gè)來自FBarr的系統(tǒng)的模型(PolyMixture)在FSOSTOOLS上達(dá)到了84%的準(zhǔn)確率,證實(shí)了混合模型的高OOD準(zhǔn)確率。
在所有生成的測試集上,PolyMixture的準(zhǔn)確率都超過了84%,而findlyap在反向生成的測試集上僅達(dá)到了15%。
這表明,在多項(xiàng)式系統(tǒng)上,從反向生成數(shù)據(jù)訓(xùn)練的Transformer模型,相比于之前的最先進(jìn)技術(shù)取得了非常強(qiáng)的結(jié)果。
平均而言,基于Transformer的模型也比SOS方法快得多。
當(dāng)嘗試解決一個(gè)包含2到5個(gè)方程的隨機(jī)多項(xiàng)式系統(tǒng)時(shí),findlyap平均需要935.2秒(超時(shí)為2400秒)。
對(duì)于研究者的模型,使用貪婪解碼進(jìn)行一個(gè)系統(tǒng)的推理和驗(yàn)證平均需要2.6秒,使用束大小為50時(shí)需要13.9秒。
探索未知領(lǐng)域:發(fā)現(xiàn)新的數(shù)學(xué)
這次研究的最終目標(biāo),就是發(fā)現(xiàn)新的李雅普諾夫函數(shù)。
為了測試模型發(fā)現(xiàn)新的李雅普諾夫函數(shù)的能力,研究者生成了三個(gè)隨機(jī)系統(tǒng)的數(shù)據(jù)集:
- 包含2或3個(gè)方程的多項(xiàng)式系統(tǒng)(Poly3)
- 包含2到5個(gè)方程的多項(xiàng)式系統(tǒng)(Poly5)
- 包含2或3個(gè)方程的非多項(xiàng)式系統(tǒng)(NonPoly)
對(duì)于每個(gè)數(shù)據(jù)集,生成100,000個(gè)隨機(jī)系統(tǒng),并消除那些在x^? = 0處局部指數(shù)不穩(wěn)定的系統(tǒng),因?yàn)橄到y(tǒng)的雅可比矩陣具有實(shí)部嚴(yán)格為正的特征值。
然后,將findlyap和基于AI的方法與兩個(gè)在多項(xiàng)式系統(tǒng)上訓(xùn)練的模型進(jìn)行比較:FBarr和PolyM(ixture)——BPoly與來自FBarr的300個(gè)示例的混合——以及一個(gè)在BPoly、BNonPoly和來自FBarr的300個(gè)示例的混合上訓(xùn)練的模型(NonPolyM)。
在多項(xiàng)式數(shù)據(jù)集上,最佳模型(PolyM)為11.8%和10.1%的(3階和5階)系統(tǒng)發(fā)現(xiàn)了李雅普諾夫函數(shù),比findlyap多出十倍。對(duì)于非多項(xiàng)式系統(tǒng),李雅普諾夫函數(shù)在12.7%的示例中被找到。
這些結(jié)果表明,從生成的數(shù)據(jù)集和李雅普諾夫函數(shù)訓(xùn)練的大語言模型確實(shí)能夠發(fā)現(xiàn)尚未知的李雅普諾夫函數(shù),并且表現(xiàn)遠(yuǎn)高于當(dāng)前最先進(jìn)的SOS求解器。
模型找到正確解決方案的百分比
專家迭代
接下來,研究者為多項(xiàng)式系統(tǒng)創(chuàng)建了一個(gè)經(jīng)過驗(yàn)證的模型預(yù)測樣本,F(xiàn)IntoTheWild,將其添加到原始訓(xùn)練樣本中,并繼續(xù)訓(xùn)練模型。
n1:添加20,600個(gè)樣本,分別來自BPoly(20,000)、FBarr(50)、FLyap(50)和FIntoTheWild(500)
n2:添加2,000個(gè)樣本,分別來自FLyap(1,000)和FIntoTheWild(1,000)
n3:添加50個(gè)來自FIntoTheWild的樣本
n4:添加1,000個(gè)來自FIntoTheWild的樣本
n5:添加2,000個(gè)來自FIntoTheWild的樣本
n6:添加5,000個(gè)來自FIntoTheWild的樣本
此外,研究者還從頭開始重新訓(xùn)練一個(gè)模型(n7),使用BPoly(1M)、FBarr(500)、FLyap(500)和FIntoTheWild(2,000)的混合。
不同微調(diào)策略下,模型在前向基準(zhǔn)和「探索未知領(lǐng)域」中的表現(xiàn)
可以看到,向100萬訓(xùn)練集添加1,000個(gè)經(jīng)過驗(yàn)證的預(yù)測可將「探索未知領(lǐng)域」測試集的性能提高約15%,同時(shí)不會(huì)影響其他測試集(n4)。
而添加更多樣本似乎是有害的,因?yàn)樗档土似渌鶞?zhǔn)的性能(n5和n6)。
此外,使用來自其他分布的混合數(shù)據(jù)進(jìn)行微調(diào)效率不高(n1和n2),而少量貢獻(xiàn)已經(jīng)有助于取得一些改進(jìn)(n3)。
最后,從頭開始使用FIntoTheWild的數(shù)據(jù)預(yù)訓(xùn)練模型效率不高(n7)。
Transformer不會(huì)推理,但有「超級(jí)直覺」
這項(xiàng)研究已經(jīng)證明,模型可以通過生成的數(shù)據(jù)集進(jìn)行訓(xùn)練,以解決發(fā)現(xiàn)穩(wěn)定動(dòng)力系統(tǒng)的李雅普諾夫函數(shù)。
對(duì)于隨機(jī)多項(xiàng)式系統(tǒng),研究者的最佳模型可以在五倍于現(xiàn)有最先進(jìn)方法的情況下,發(fā)現(xiàn)李雅普諾夫函數(shù)。
它們還可以發(fā)現(xiàn)非多項(xiàng)式系統(tǒng)的李雅普諾夫函數(shù)(目前尚無已知算法),并且能夠重新發(fā)現(xiàn)由Ahmadi等人發(fā)現(xiàn)的多項(xiàng)式系統(tǒng)的非多項(xiàng)式李雅普諾夫函數(shù)。
研究者也承認(rèn),工作仍有一些局限性。
由于沒有已知的方法來判斷隨機(jī)系統(tǒng)是否穩(wěn)定,他們?nèi)狈Ψ嵌囗?xiàng)式系統(tǒng)的良好基準(zhǔn)。
此外,本文研究的所有系統(tǒng)都相對(duì)較小,多項(xiàng)式系統(tǒng)最多為5個(gè)方程,非多項(xiàng)式最多為3個(gè)方程。
他們相信,擴(kuò)展到更大的模型應(yīng)該有助于處理更大、更復(fù)雜的系統(tǒng)。
最后,這項(xiàng)工作可以擴(kuò)展到考慮非多項(xiàng)式系統(tǒng)的定義域。
總之,這項(xiàng)工作在兩個(gè)方向上具有更廣泛的影響:Transformer的推理能力,以及AI在科學(xué)發(fā)現(xiàn)中的潛在作用。