AI解決132年數(shù)學(xué)難題!Transformer成功尋找新的李雅普諾夫函數(shù),三體問題相關(guān)
訓(xùn)練Transformer,用來解決132年的數(shù)學(xué)世紀(jì)難題!
如何判斷一個(gè)動(dòng)力系統(tǒng)(如三體問題)是否穩(wěn)定?Meta和巴黎理工學(xué)院團(tuán)隊(duì)攜手提出Symbolic Transformer,直指這一經(jīng)典難題的核心:
發(fā)現(xiàn)新的全局李雅普諾夫函數(shù)。
圖片
從牛頓、拉格朗日到龐加萊,無數(shù)科學(xué)家傾力研究三體問題的長(zhǎng)期穩(wěn)定性,卻始終無法給出一個(gè)通用的判定方法。
直到1892年,俄國(guó)數(shù)學(xué)家Aleksandr Lyapunov提出了以他名字命名的李雅普諾夫函數(shù):
如果存在一個(gè)函數(shù)V,其在平衡點(diǎn)處有嚴(yán)格最小值,在無窮遠(yuǎn)處為無窮大,且梯度始終指向遠(yuǎn)離系統(tǒng)梯度的方向,則全局穩(wěn)定性得到保證。
但遺憾的是,李雅普諾夫只證明了這個(gè)結(jié)論,并沒有提供尋找這個(gè)函數(shù)的方法。
圖片
130多年過去了,科學(xué)界仍然不知道對(duì)于一般的系統(tǒng)該如何尋找李雅普諾夫函數(shù),現(xiàn)有的算法只能求解非常小規(guī)模的多項(xiàng)式系統(tǒng)。
換句話說,李雅普諾夫函數(shù)的系統(tǒng)化構(gòu)造方法,依然是一個(gè)懸而未決的數(shù)學(xué)難題。
現(xiàn)在,這一局面有望被AI打破。
圖片
研究團(tuán)隊(duì)把尋找李雅普諾夫函數(shù)構(gòu)建成一種序列到序列翻譯任務(wù),問題和解決方案都表示為符號(hào)tokens序列,就能用上原本為機(jī)器翻譯而生的Transformer模型了。
最終,在8張V100上訓(xùn)練100個(gè)GPU時(shí)左右的模型,取得了驚人的成績(jī):
- 對(duì)于前人已解決的多項(xiàng)式系統(tǒng),模型精度高達(dá)84%,大幅領(lǐng)先人類專家的9%和此前SOTA算法工具。
- 面對(duì)隨機(jī)生成的新多項(xiàng)式系統(tǒng),模型成功找到了10.1%-11.8%的李雅普諾夫函數(shù),而此前最好的算法工具只有0.7%-1.1%。
- 重新發(fā)現(xiàn)了Ahmadi等在2011年首次給出的一個(gè)多項(xiàng)式系統(tǒng)的非多項(xiàng)式李雅普諾夫函數(shù)
相關(guān)論文已入選NeurIPS 2024,且剛剛在ArXiv公開。
圖片
作者M(jìn)eta科學(xué)家Fran?ois Charto表示,盡管Symbolic Transformer像其他AI模型一樣還是一個(gè)黑盒系統(tǒng),但它給出的李雅普諾夫函數(shù)是明確的符號(hào)表達(dá)式,完全可以經(jīng)受數(shù)學(xué)證明的檢驗(yàn)。
作者巴黎師范數(shù)學(xué)教授:黑魔法一般的方法
用Transformer解決數(shù)學(xué)難題,最大的困難是什么?
答案不難想到:缺少數(shù)據(jù),特別是在這個(gè)場(chǎng)景中,需要?jiǎng)恿ο到y(tǒng)與李雅普諾夫函數(shù)的配對(duì)數(shù)據(jù)。
為此,Meta和巴黎理工團(tuán)隊(duì)利用了正向和反向數(shù)據(jù)生成相結(jié)合的策略。
正向數(shù)據(jù)生成,也就是根據(jù)多項(xiàng)式系統(tǒng)生成對(duì)應(yīng)的李雅普諾夫函數(shù)。
雖然沒有通用方法,但如果一個(gè)李雅普諾夫函數(shù)能表示成多項(xiàng)式的平方和,就有現(xiàn)存工具可以計(jì)算。
最終方法分為三步:
- 先隨機(jī)生成一個(gè)多項(xiàng)式系統(tǒng),
- 尋找是否存在平方和形式的李雅普諾夫函數(shù),
- 如果存在則保留這個(gè)多項(xiàng)式系統(tǒng),不存在回到步驟1
圖片
不過這個(gè)方法有幾個(gè)局限。
大多數(shù)對(duì)象是系統(tǒng)都不穩(wěn)定,且計(jì)算平方和李雅普諾夫函數(shù)涉及復(fù)雜的搜索,系統(tǒng)規(guī)模的增長(zhǎng),對(duì)算力和內(nèi)存需求會(huì)呈爆炸式增長(zhǎng),所以這種方法速度很慢且僅適用于小的多項(xiàng)式系統(tǒng)。
于是還需要配合反向數(shù)據(jù)生成方法,根據(jù)答案反向構(gòu)造問題。
這種方法也存在幾個(gè)局限,比如AI傾向于偷懶,從任務(wù)中學(xué)習(xí)更簡(jiǎn)單的子問題,因此也需要做出一些限制。
最終方法大致可以理解成,先隨機(jī)生成一個(gè)滿足特定條件的李雅普諾夫函數(shù),再反向構(gòu)造出與之匹配的動(dòng)力系統(tǒng)。
圖片
最終團(tuán)隊(duì)生成了4個(gè)數(shù)據(jù)集:
- BPoly,包含100萬個(gè)反向生成的多項(xiàng)式系統(tǒng)與配對(duì)的李雅普諾夫函數(shù),系統(tǒng)中的方程數(shù)量為2到5個(gè)不等。
- BNonPoly,包含100萬個(gè)反向生成的非多項(xiàng)式系統(tǒng)配對(duì)樣本,現(xiàn)有算法通常無法處理這種類型的系統(tǒng),非多項(xiàng)式李雅普諾夫函數(shù)的發(fā)現(xiàn)尤其具有挑戰(zhàn)性
- FBarr,包含30萬個(gè)正向生成的Barrier函數(shù)配對(duì)樣本,并不是嚴(yán)格的李雅普諾夫函數(shù),用于測(cè)試模型在尋找不能嚴(yán)格滿足李雅普諾夫正定條件的系統(tǒng)中的李雅普諾夫函數(shù)。
- FLyap,包含10萬個(gè)正向生成的標(biāo)準(zhǔn)李雅普諾夫配對(duì)樣本,每個(gè)動(dòng)力系統(tǒng)的李雅普諾夫函數(shù)都是非齊次多項(xiàng)式,
最終試驗(yàn)發(fā)現(xiàn),在不同數(shù)據(jù)集上訓(xùn)練的模型都取得了很好的準(zhǔn)確性。
使用Beam Search方法在寬度50時(shí)能給低性能模型帶來額外7%-10%的提升。
圖片
特別是在后向數(shù)據(jù)訓(xùn)練集中添加少量前向生成數(shù)據(jù)示例,帶來顯著的分布外測(cè)試性能提升。
將FBarr中的300個(gè)示例添加到BPoly中,就能把FBarr準(zhǔn)確率從35%提高到89%。另外添加FLyap示例帶來的改進(jìn)較小。
圖片
與此前SOTA基線比較,在混合數(shù)據(jù)上訓(xùn)練的模型取得了最好的效果。
基于Transformer的模型也比SOSTOOL方法快得多。
當(dāng)嘗試求解具有2到5個(gè)方程的隨機(jī)多項(xiàng)式系統(tǒng)時(shí),SOSTOOL的Python版本平均需要 935.2 秒。
Transformer模型在貪婪解碼時(shí),一個(gè)系統(tǒng)的推理和驗(yàn)證平均需要2.6 秒,而Beam Search寬度為50時(shí),平均需要13.9秒。
圖片
研究的最終目標(biāo)是發(fā)現(xiàn)新的李雅普諾夫函數(shù),在隨機(jī)生成的2-3個(gè)多項(xiàng)式、2-5個(gè)多項(xiàng)式的數(shù)據(jù)集中,最佳模型發(fā)現(xiàn)了11.8%和10.1%的李雅普諾夫函數(shù),是傳統(tǒng)方法的10倍。
對(duì)于非多項(xiàng)式系統(tǒng),模型發(fā)現(xiàn)了12.7%的李雅普諾夫函數(shù)。
這些結(jié)果表明,從合成數(shù)據(jù)集訓(xùn)練的語言模型確實(shí)可以發(fā)現(xiàn)未知的李雅普諾夫函數(shù),并比此前最先進(jìn)的傳統(tǒng)算法求解器效果更好。
圖片
作者巴黎師范教授Amaury Hayat表示,幾年前剛開始這個(gè)項(xiàng)目時(shí),作為一個(gè)年輕而天真的數(shù)學(xué)家,他認(rèn)為如果方法真的成功了,那簡(jiǎn)直可以算是黑魔法。
幾年過去了,見識(shí)了AI的諸多成就,我對(duì)此已經(jīng)理性得多了,但依然感覺……(不可思議)。
圖片
論文地址:https://arxiv.org/abs/2410.08304
參考鏈接:
[1]https://x.com/f_charton/status/1846884416930402633[2]https://x.com/Amaury_Hayat/status/1846889179780673853
— 完 —