自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中山大學HCP Lab團隊:AI解題新突破,神經(jīng)網(wǎng)絡推開數(shù)學推理大門

人工智能 新聞
本文對中山大學人機物智能融合實驗室(HCP Lab)在數(shù)學解題領域的一系列研究進行了簡要介紹,這些工作主要由 HCP 實驗室秦景輝博士等人完成。該系列工作獲得國家科技創(chuàng)新 2030 重大項目 “因果推理與決策理論模型研究” 支持。

人類在成長過程的不同階段均需要掌握很多的知識點來求解大量的數(shù)學題。然而,知識點看懂了不算真的懂,能求解題目才能體現(xiàn)人類的智慧。近年來,神經(jīng)網(wǎng)絡在計算機視覺,模式匹配、自然語言處理、強化學習等領域取得了巨大成功,但神經(jīng)網(wǎng)絡模型的離散組合推理能力遠不及人類。那么,神經(jīng)網(wǎng)絡能否理解數(shù)學題,并解出這些題目呢?如果可以,那么神經(jīng)網(wǎng)絡的解題能力如何?

從數(shù)據(jù)形式上來說,一道數(shù)學題可以看作是一個序列,而其解答(解題步驟或者求解表達式)往往也是以序列的形式呈現(xiàn)。那么數(shù)學題求解可以看作是從自然語言到數(shù)學語言的翻譯問題,神經(jīng)網(wǎng)絡模型從形式上能求解數(shù)學問題。從前人的各種研究工作中可以獲知,神經(jīng)網(wǎng)絡能在翻譯問題上獲得很好的性能,并在多個數(shù)據(jù)集上獲得了超越了人類的性能。然而,與機器翻譯顯著不同,除了題目語義理解能力之外,數(shù)學題求解往往還需要模型具備對代數(shù)泛化對象和實體的離散組合推理能力。

為了探究深度模型對數(shù)學題的解題能力,中山大學人機物智能融合實驗室在前人研究的基礎上以中小學數(shù)學應用題和幾何計算題為切入點,開展了一系列研究,改進了深度模型的語義理解、認知推理和數(shù)學解題能力。本文將對中山大學人機物智能融合實驗室在數(shù)學解題領域的一系列研究進行簡要介紹。

論文1:Semantically-Aligned Universal Tree-Structured Solver for Math Word Problems

圖片

The 2020 Conference on Empirical Methods in Natural Language Processing

論文地址:https://aclanthology.org/2020.emnlp-main.309.pdf

一個實用的數(shù)學應用題求解器應該能夠解決各種類型的數(shù)學應用題,如一元一次方程,二元一次方程組,一元二次方程等類型。然而,大多數(shù)的數(shù)學應用題求解工作只針對四則運算類題目進行設計,而這類設計往往難以擴展到更多題型,無法使用一個統(tǒng)一的數(shù)學應用題求解器同時求解各種類型表達式的應用題。此外,當下的大部分數(shù)學應用題求解器缺乏對題目文本和求解表達式之間的語義約束。

針對上述問題,中山大學人機物智能融合實驗室團隊提出一種統(tǒng)一表達式樹表示方案,通過引入額外的運算符連結(jié)多個表達式,將一元一次方程,二元一次方程組,一元二次方程等類型的表達式進行統(tǒng)一表示,從而可以簡化求解器的設計的同時也可以求解多種類型的應用題,如圖 1 所示。

圖片

圖 1 統(tǒng)一表達式樹表示方案設計

基于統(tǒng)一表達式樹表示方案,我們進而提出了一種語義對齊的樹結(jié)構通用求解器(SAU-Solver),如圖 2 所示。我們的樹結(jié)構通用求解器由兩部分組成,基于雙層 GRU 的問題編碼器和基于統(tǒng)一表達式樹表示的樹結(jié)構解碼器。并且在訓練過程中,我們引入了語義對齊正則化,通過約束表達式子樹與題目上下文的一致性使得我們的通用求解器能更充分地考慮問題和表達式之間的語義關系,發(fā)掘各類數(shù)學知識,從而提升求解器的表達式生成能力。

圖片

圖 2 語義對齊樹結(jié)構求解器

此外,為了更好地衡量求解器的通用性和求解能力,我們還針對當前標注數(shù)據(jù)集中題型種類單一的問題,構建了一個中等規(guī)模的多題型數(shù)據(jù)集 HMWP,該數(shù)據(jù)集包括了求解表達式為一元一次方程,二元一次方程組,一元二次方程等多種表達式類型的數(shù)千道數(shù)學文字題目。我們的實驗表明,具有多題型的數(shù)據(jù)集比種類單一的數(shù)據(jù)集對求解器來說更具有挑戰(zhàn)性,也能更好地衡量求解器的解題能力,推動求解器社區(qū)的研究。

在實驗中,文章將提出的 SAU-Solver 與現(xiàn)有方法在 HMWP、Math23K、ALG514 和 Dolphin18K-Manual 進行了對比。實驗結(jié)果如下圖所示,證明了我們方法的通用性和更好的數(shù)學解題能力。

圖片

更多研究細節(jié),可參考原論文。

論文2:Neural-Symbolic Solver for Math Word Problems with Auxiliary Tasks

圖片

The 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing

論文地址:https://arxiv.org/abs/2107.01431

當前的初等數(shù)學應用題求解器沒有考慮各種數(shù)學符號約束,而是僅是簡單地使用編碼器 - 解碼器框架進行求解的問題,從而導致了不合理的預測。而引入符號約束和符號推理對于數(shù)學應用題自動求解是非常關鍵的。

因此,中山大學人機物智能融合實驗室團隊引入神經(jīng) - 符號計算范式,提出新型的神經(jīng) - 符號求解器(NS-Solver),以輔助任務的方式進行顯式的知識注入,從而實現(xiàn)不同層級的符號約束。其技術架構如圖 3 所示。NS-Solver 在網(wǎng)絡骨干上由三個組件構建:1)Problem Reader,通過雙層雙向 GRU 網(wǎng)絡對數(shù)學題進行高效的語義理解和表示;2)Programmer,負責基于問題語義以及常識預測結(jié)果進行符號推理,生成求解表達式。3)Executor,利用 sympy 庫進行表達式求解,獲取最終答案。

在符號約束上,我們提出多種輔助任務來利用額外的訓練信號和利用常識預測結(jié)果來顯式地約束符號表,降低問題求解搜索空間:1)自監(jiān)督的數(shù)字預測任務:通過預測題目中數(shù)字的位置和數(shù)量來更好地理解題目語義;2)常識量詞預測任務:注入常識知識并利用預測結(jié)果約束符號表,降低搜索空間;3)一致性檢查:從語義層面檢查解題器的輸出與目標表達式的一致性;4)對偶利用任務:通過問題到表達式和表達式到問題的雙向約束,強化解題器的問題語義理解。

圖片

圖 3 神經(jīng) - 符號求解器(NS-Solver)

此外,為了更好地驗證求解器的性能,我們還構建了一個更大規(guī)模的多題型數(shù)學應用題數(shù)據(jù)集 CM17K,從而更好地推動數(shù)學解題社區(qū)的研究。CM17K 包含了 6215 道四則運算類應用題,5193 道一元一次方程類應用題,3129 道一元非線性方程類應用題和 2498 道方程組類應用題。CM17K 和 Math23K 的數(shù)據(jù)統(tǒng)計如下表所示。從數(shù)據(jù)統(tǒng)計上可以看出,CM17K 相比 Math23K 具有更長的題目信息,更長的求解表達式,涉及更多的常識等,這意味著 CM17K 在求解難度上更好地刻畫解題器的性能。

圖片

在實驗中,文章將提出的 NS-Solver 與現(xiàn)有方法在 Math23K 和 CM17K 上進行了對比,并進行了消融實驗,證明了 NS-Solver 良好的解題能力和通用性。其實驗結(jié)果如下面兩個表所示。

圖片

此外,我們還對輔助任務進行了消融實驗,如下圖所示。實驗結(jié)果證明了各個輔助任務均能提升 NS-Solver 的解題能力。

圖片

更多研究細節(jié),可參考原論文。

論文3:GeoQA – A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning

圖片

Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021

論文地址:https://arxiv.org/pdf/2105.14517.pdf

自動數(shù)學解題最近獲得了越來越多的關注。自動數(shù)學解題大多數(shù)工作關注數(shù)學應用題自動求解。然而很少工作關注幾何題。相比較于數(shù)學應用題,幾何題需要同時對文本描述、圖形圖表進行理解,因為在幾何題目中,題目文本和圖形圖表通常是相輔相成,缺一不可的?,F(xiàn)有的幾何題自動求解方法高度依賴規(guī)則并只在小數(shù)據(jù)集上進行評估。

圖片

圖 4 幾何題樣例

為了推動幾何題自動求解的研究,中山大學人機物智能融合實驗室團隊構建了一個由 5010 道幾何選擇題組成的問答數(shù)據(jù)集 GeoQA。如圖 4 所示,GeoQA 數(shù)據(jù)集中的每一個樣本具有題目描述、幾何圖像、問題選項、答案、問題類型、知識點、解答解析,以及按解題步驟標注的形式程序。在題目規(guī)模上,該數(shù)據(jù)集是前人工作常用的 GeoS 數(shù)據(jù)集的 25 倍。GeoQA 數(shù)據(jù)集的相關統(tǒng)計信息如下表所示。

圖片

而 GeoQA 數(shù)據(jù)集所使用的形式程序算子和所涉及的常量如下表所示。

圖片

為了更好地促進幾何題求解器的研究,我們除了在 GeoQA 數(shù)據(jù)集的基礎上搭建了一些基線模型外,還提出了神經(jīng)幾何題求解器 NGS 來理解多模態(tài)語義信息并生成具有解釋性的形式化程序。神經(jīng)幾何題求解器 NGS 的總體設計如圖 5 所示。

圖片

圖 5 神經(jīng)幾何題求解器(NGS)示意圖

我們的 NGS 主要由文本編碼器、幾何圖形編碼器,聯(lián)合推理模塊和程序解碼器組成。文本編碼器負責對題目文本語義表征,幾何圖形編碼器則負責幾何圖形的表征。文本表征和圖形表征均會輸入到聯(lián)合推理模型進行多模態(tài)語義表征,并投喂到程序解碼器中進行程序解碼,輸出可解釋可執(zhí)行的形式化求解程序。

此外,為了增強幾何圖形編碼器對幾何圖形的表征能力以及推進聯(lián)合推理模塊對題目所包含的多模態(tài)信息進行充分融合和高效表達,我們還引入了多種輔助任務來改善模型的表征能力和注入定理知識。這些輔助任務包括:1)拼圖位置預測:通過把幾何圖形切割為多個 patch,并隨機排列,然后讓幾何圖形編碼器對其重新排列,實現(xiàn)對幾何圖形的像素級圖形理解;2)幾何元素預測:讓幾何圖形編碼器學習預測哪些幾何元素出現(xiàn)在了當前的幾何圖形中,實現(xiàn)對象級圖形理解;3)知識點預測:在聯(lián)合推理模塊進行題目文本表征和幾何圖形表征的多模態(tài)融合的同時引入知識點分類任務來改進整體的問題表征。在 NGS 中,我們利用拼圖位置預測和幾何元素預測對幾何圖形編碼器進行預訓練。而知識點預測任務則作為一個子任務和 NGS 進行多任務訓練。

在實驗中,文章基于 GeoQA 構建了多個基于神經(jīng)網(wǎng)絡的基線模型,并將 NGS 與他們進行對比。NGS 和基線模型在 GeoQA 上的實驗效果如下表所示。

圖片

從上表可以看到,NGS 相比基線模型在 GeoQA 上能達到更好的解題性能。但是我們也可以看到各類模型與人類在幾何題求解上仍然存在較大的差距。

此外,我們還進行了各種消融實驗,驗證了 NGS 中各種設計的有效性。更多研究細節(jié),可參考原論文。

論文4:Unbiased Math Word Problems Benchmark for Mitigating Solving Bias

圖片

Findings of the Association for Computational Linguistics: NAACL 2022

論文地址:https://aclanthology.org/2022.findings-naacl.104.pdf

在這個工作中,中山大學人機物智能融合實驗室團隊重新審視在當前的數(shù)學應用題求解基準上評估模型的解題偏置(solving bias)。這種解題偏置主要數(shù)據(jù)偏置(data bias)和學習偏置(learning bias)引起。數(shù)據(jù)偏置(data bias)是指訓練數(shù)據(jù)集未能涵蓋每個問題的所有不同敘述方式而導致的解題模型只能學習到淺層語義,未能對題意進行深度語義理解的問題,如圖 6(a)所示,由于解題模型只學習到淺層語義,并以此來進行解題, 那么即使我們把題目中的問題部分移除后,解題器仍然能達到 69.4%。

而學習偏置則是指一個 MWP 可以由多個等價的表達式來求解,但是當前的數(shù)據(jù)集均只采用其中某一個等價方程作為標簽,強制模型學習該標簽,而忽略了其他等價方程,導致學習訓練的偏置。如圖 6(b)所示,在訓練過程中,模型可能會生成與 GroundTruth 表達式不一致但是答案是正確的表達式,但是由于數(shù)據(jù)集只采用了某一等價表達式作為標簽,會導致在計算損失函數(shù)時認為該表達式是錯誤表達式,并將兩個正確表達式之間的損失反向傳播給求解模型,導致了模型的過度矯正。

圖片

圖 6 數(shù)據(jù)偏置和學習偏置的示例

為了緩解數(shù)據(jù)偏置(data bias),中山大學人機物智能融合實驗室團隊作了一個新的嘗試,我們以盡可能覆蓋題目問法的方式重新標注了一個新的 MWP 基準 UnbiasedMWP。我們采集了 2907 到應用題作為基礎問題,然后我們?yōu)槊總€問題中所蘊涵的故事標注盡可能多的問題。

為了簡化人工標注過程,我們首先根據(jù)題目骨干的內(nèi)容生成一些合理的表達式,然后再反向重寫問題。為了生成合理的表達式,我們設計了三種表達式變種方式:1)Variable assortment (Va) 變形:從題目骨干隨機選擇兩個數(shù)字變量,并使用數(shù)學運算符(+、-、*、/)對他們進行組合,例如 n0 + n1, n0 ? n1 等。2)Subexpression (Sub) 變形:對原題目的目標表達式所蘊含的所有子表達是運算符的修改,從而獲得新的表達式。3)Whole-expression (Whole)變形:通過改變原題目的目標表達式所包含的運算符來獲取新的表達式。對于從上述三個變種獲取得到的新表達式集進行人工過濾,過濾出無法進行新問題標注的表達式,對剩余表達式進行人工問題標注。

為了緩解學習偏置(learning bias),我們提出動態(tài)目標選擇策略,在訓練過程中根據(jù)模型輸出的結(jié)果來選擇與其更加接近的目標表達式來作為 GroundTruth。為了獲得等價的表達式,我們利用數(shù)學運算中的交換律來對表達式樹進行變形,從而獲得多個等價的表達式。如圖 7 所示。

圖片

圖 7 等價表達式樹生成示意圖

在實驗中,文章首先在多個 SOTA 基線模型上對 UnbiasedMWP 數(shù)據(jù)集進行驗證。其實驗結(jié)果如下表所示。

圖片

從實驗結(jié)果可以看到,相比于現(xiàn)存的 Math23K,我們的數(shù)據(jù)集 UnbiasedMWP 所存在的數(shù)據(jù)偏置更少,因為當我們移除了題目問題后,模型的求解性能急劇下降,從側(cè)面證明了我們的數(shù)據(jù)集更加能使得模型需要關注深層語義信息才能進行求解。

為了驗證我們的動態(tài)目標選擇策略是否能降低學習偏置,我們將動態(tài)目標選擇策略應用在多個解題模型上。實驗結(jié)果如下表所示。

圖片

從實驗結(jié)果可以看到,我們的動態(tài)目標選擇策略能有效地降低學習偏置,并提升了模型的求解效果。更多研究細節(jié),可參考原論文。

論文5:LogicSolver: Towards Interpretable Math Word Problem Solving with Logical Prompt-enhanced Learning

圖片

Findings of the Association for Computational Linguistics: EMNLP 2022

論文地址:https://arxiv.org/pdf/2205.08232.pdf

近年來,深度學習模型在數(shù)學應用題自動求解任務上取得了很大的成功,特別是在答案準確率方面。但是由于這些模型只利用了統(tǒng)計線索(shallow heuristics)實現(xiàn)了高求解性能,并沒有真正地理解和推理題目背后的數(shù)學邏輯,因此,這些方法是難以解釋的。

為了解決該問題并推動可解釋數(shù)學應用題求解領域的發(fā)展,中山大學人機物智能融合實驗室團隊構建了第一個高質(zhì)量的帶解釋的數(shù)學應用題數(shù)據(jù)集 InterMWP。該數(shù)據(jù)集包含了 11,495 道數(shù)學應用題和 210 種基于代數(shù)知識的邏輯公式,每道應用題的求解表達式均使用邏輯公式進行標注。與現(xiàn)有的數(shù)學應用題求解數(shù)據(jù)集不同,我們的 InterMWP 不僅要求解題器輸出求解表達式,還要求解題器輸出該求解表達式所對應的基于代數(shù)知識的邏輯表達式,從而實現(xiàn)對模型輸出的解釋。InterMWP 數(shù)據(jù)集與其他解題數(shù)據(jù)集的異同可以參考圖 8。具體的標注過程可以參考原文。

圖片

圖 8 InterMWP 數(shù)據(jù)集示例

為了利用數(shù)學邏輯知識并賦能 MWP 解題器具備可解釋性,我們團隊進一步地構建了新的數(shù)學應用題求解框架 LogicSolver,如圖 9 所示。該框架通過檢索的方式從邏輯公式庫提取相關的邏輯知識作為提示信息,改進問題編碼器對 MWP 的語義表示的同時增強 MWP 的邏輯解釋的生成能力。

圖片

圖 9 LogicSolver 設計示意圖

LogicSolver 主要由邏輯知識檢索組件、邏輯提示增強 MWP 求解器和解釋生成組件三大組件構成。邏輯知識檢索組件。對于每一道 MWP,我們從 210 種邏輯公式檢索 top-k 個高度相關的邏輯公式作為提示,以增強 MWP 的求解。我們將邏輯公式提示與問題文本連接起來作為輸入,驅(qū)動 MWP 模型生成求解表達式。最后,為了獲取基于邏輯公式的解釋,我們部署一個邏輯生成器來預測邏輯表達式樹的每個內(nèi)部節(jié)點(即運算符)所對應的邏輯公式作為求解的解釋。

在實驗中,我們在 InterMWP 數(shù)據(jù)集上構建了多個基線模型,并將我們的 LogicSolver 與這些基線模型進行對比。其實驗結(jié)果如下表所示。

圖片

從實驗結(jié)果可以看出,我們的 LogicSolver 在答案準確度,公式準確率,以及邏輯公式準確度上均能獲得提升,說明了我們的 LogicSolver 在改善求解性能(Answer Acc 和 Formula Acc)的同時能具有更好的邏輯解釋性(Logic Acc)。更多研究細節(jié),可參考原論文。

論文 6:UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression

Jiaqi Chen, Tong Li, Jinghui Qin, Pan Lu, Liang Lin, Chongyu Chen and Xiaodan Liang

The 2022 Conference on Empirical Methods in Natural Language Processing

幾何題自動求解是一個用于評估深度模型多模態(tài)推理能力的基準。然而,在大多數(shù)現(xiàn)有的工作中,幾何計算題自動求解和幾何題自動證明通過會被視作兩個不同的任務,并施加不同的標注處理,妨礙了深度模型在不同數(shù)學任務進行統(tǒng)一推理的研究進展。從本質(zhì)上來說,幾何計算題和幾何證明題目具有相似的問題表達和解題所需的數(shù)學知識也有所重疊。因此,通過對幾何計算題自動求解和幾何題自動兩個任務進行統(tǒng)一表示和學習有助于提升深度模型對這兩種問題的語義理解和符號推理。

為此,中山大學人機物智能融合實驗室團隊構建了一個包含了數(shù)千道幾何題的基準數(shù)據(jù)集 UniGeo。UniGeo 包括了 4,998 道幾何計算題和 9,543 個幾何證明題。我們對每個證明題均進行了多步驟證明標注,且這些標注可以很輕易地被轉(zhuǎn)換為可執(zhí)行的符號程序。而計算題也采用類似的標注,如圖 10 所示。經(jīng)過采用如圖 10 所示的方式進行標注后,UniGeo 能很好地以形式化符號語言將幾何計算題和幾何證明題進行統(tǒng)一的表示。

圖片

圖 10 UniGeo 數(shù)據(jù)樣例

在利用形式化符號語言對幾何計算題和幾何證明題進行統(tǒng)一標注后,為了驗證這兩種題目的統(tǒng)一表示能有效地促進模型對幾何計算題和幾何證明題的語義理解和符號推理能力,從而實現(xiàn)更高效的計算題求解和證明題證明。中山大學人機物智能融合實驗室團隊構建了面向幾何題求解和證明統(tǒng)一處理的 Geoformer 來同時處理幾何計算題和幾何證明題,如圖 11 所示。

圖片

圖 11 GeoFormer 示意圖

此外,為了習得高效的 Geoformer 實現(xiàn)統(tǒng)一的幾何推理,中山大學人機物智能融合實驗室團隊還進一步地提出數(shù)學表達預訓練任務,結(jié)合 MLM 任務對 Geoformer 進行任務預訓練,如圖 12 所示。

圖片

圖 12 數(shù)學表達預訓練示意圖

在實驗中,我們在 UniGeo 基準的基礎上構建多個基線模型,并對我們提出的 GeoFormer 進行性能對比。實驗結(jié)果如下表所示。

圖片

從實驗結(jié)果可以看到,我們提出的 GeoFormer 在計算題和證明題兩個子數(shù)據(jù)集上均能獲得比基線模型更好的總體性能。類似地,在需要統(tǒng)一求解計算題和證明題的全數(shù)據(jù)集上 GeoFormer 相比 NGS 和 BERT 基線模型也是更優(yōu)勝的。而在經(jīng)過數(shù)學表達預訓練和 MLM 預訓練后,GeoFormer+Pretraining 相比 GeoFormer 會有進一步的性能提升。這些實驗結(jié)果充分證明了 GeoFormer 的有效性,也說明了對幾何計算題和幾何證明題進行統(tǒng)一模型推理對于各自的任務來說也是有幫助的。

該工作已被 EMNLP2022 主會收錄,更多研究細節(jié),更多細節(jié)敬請期待。

論文 7:Template-based Contrastive Distillation Pre-training for Math Word Problem Solving

Jinghui Qin*, Zhicheng Yang*, Jiaqi Chen, Xiaodan Liang and Liang Lin

雖然深度學習模型在數(shù)學解題領域取得很好的進展,但是這些模型忽視了蘊涵在問題描述中的求解邏輯,而這種解題邏輯往往可以和解題模板(解法)相對應。如圖 13 所示,兩個不同的應用題均可以對應相同的解法。

圖片

圖 13 語言描述不同但解法相同的應用題示例

此外,預訓練語言模型 (PLM) 包含豐富的知識和擁有高質(zhì)量語義表示的能力,這對于 MWP 問題的求解會有幫助。

為了充分利用預訓練語言模型所包含的豐富知識以及利用求解邏輯來更高效地求解應用題,中山大學人機物智能融合實驗室團隊提出基于解法模板和預訓練語言模型的對比蒸餾預訓練方法對求解器中的問題編碼器進行領域預訓練,如圖 14 所示。該方法使用多視角對比學習有效地考慮數(shù)學邏輯知識的同時利用知識蒸餾的方式有效地保留了預訓練語言模型中的知識和高質(zhì)量語義表示能力。

具體來說, 我們首先以兩道題目之間的解法模板是否一致來作為判定兩道題目是否應該在表示空間上互相靠近的標識。然后,我們提出多視角對比學習,從教師編碼器以及學生編碼器及其對應的 Momentum 編碼器進行對比學習,使得兩道具有相同解法模板的題目表示在教師表示空間中和學生表示空間中進行互相靠近,從而實現(xiàn)解法邏輯的注入。此外,為了盡可能地保留以預訓練語言模型進行初始化的學生編碼器中所蘊涵的知識和高質(zhì)量表示能力,我們使用知識蒸餾,利用教師編碼器的特征表示作為監(jiān)督,約束學生編碼器的表示要與已訓練好的教師編碼器具有相同的表示能力,從而實現(xiàn)語義保持。

圖片

圖 14 基于解法模板和預訓練語言模型的對比蒸餾預訓練方法

在實驗中,我們使用不同的預訓練語言模型作為初始化并驗證我們方法的效果。我們分別使用 BERT-base 和 Roberta-base 權重對問題編碼器 MathEncoder 進行初始化,并使用 GTS 中的 decoder 作為表達式解碼器。我們統(tǒng)稱基于 MathEncoder 的求解器為 MathSolver。我們將 MathSolver 與多個方法在 Math23K 和 CM17K 上進行了對比。實驗結(jié)果如下表所示。

圖片

圖片

從實驗結(jié)果可以看到,我們所提出的方法能有效地提升求解器的解題能力,并能在多種不同的預訓練語言模型上進行應用。該成果已投稿到 IEEE Transactions on Neural Networks and Learning Systems,更多細節(jié)敬請期待。

論文 8:An Introspective Data Augmentation Method for Training Math Word Problem Solvers

Jinghui Qin, Zhongzhan Huang, Ying Zeng, and Liang Lin

近年來,越來越多的研究者開始研究基于深度學習的方法進行數(shù)學應用題自動求解,因為數(shù)學應用題自動求解能充分展示機器智能的程度。因為標注高質(zhì)量大規(guī)模的 MWP 數(shù)據(jù)集的代價很高,比如需要相應教育程度的專業(yè)知識和大規(guī)??稍L問的題目數(shù)據(jù),所以現(xiàn)有的高質(zhì)量 MWP 數(shù)據(jù)集的規(guī)模對于訓練一個高效的 MWP 解題器是遠遠不夠的。

MWP 的數(shù)據(jù)瓶頸問題鼓舞我們思考如何使用成本高效的數(shù)據(jù)增強方法來改進數(shù)據(jù)利用效率,提升求解器的性能。最直接的數(shù)據(jù)增強方法就是基于輸入的數(shù)據(jù)增強方法,如常用的字符替換,字符刪除等,但是這類方法對于 MWP 來說是不適用的,因為 MWP 具有言簡意賅的特點,對輸入的文本的擾動或修改容易使得題意模糊。此外,題意所蘊含的數(shù)學關系是不能被改變的,但這類方法很可能會改變題意所蘊含的數(shù)學關系,如圖 15 所示。

圖片

圖 15  基于輸入的數(shù)據(jù)增強方法不適用于 MWP 任務的示例

此外,中山大學人機物智能融合實驗室團隊還對基于輸入的數(shù)據(jù)增強方法進行了一定的驗證,其實驗結(jié)果如圖 16 所示。實驗結(jié)果表明了基于輸入的顯式數(shù)據(jù)增強方法對于 MWP 任務來說是不適用的,無法有效地緩解 MWP 任務所遇到的數(shù)據(jù)瓶頸問題。

圖片

圖 16 基于輸入的數(shù)據(jù)增強方法無法提升 MWP 解題效果

為此,我們提出了一種適用于 MWP 數(shù)據(jù)的簡單高效的數(shù)據(jù)增強方法 - 自省式數(shù)據(jù)增強方法(IDAM),在訓練過程種對題目在隱空間的表示進行增強,從而解決了基于輸入的數(shù)據(jù)增強方法在 MWP 求解任務上所遇到的問題。IDAM 方法通過對問題的表示編碼執(zhí)行不同的表示構建方法(均值池化、層次化聚合,隨機丟棄,隨機交換等),得到一個新的問題表示,然后使用一致性目標函數(shù)(基于表達式之間的 JS 散度)來約束求解器基于新問題表示的表達式解碼輸出要和基于原問題表示的表達式解碼輸出具有一致性。該方法的示意圖如圖 17 所示。

圖片

圖 17 自省式數(shù)據(jù)增強方法(IDAM)示意圖

在實驗中,我們將 IDAM 嵌入到多個 SOTA 方法里并在多個數(shù)據(jù)集上進行了對比,驗證了我們 IDAM 方法的有效性和通用性。實驗結(jié)果如下表所示。從實驗結(jié)果可以看到,在相同的實驗配置下,我們的 IDAM 在不同的 MWP 數(shù)據(jù)集上均能對不同的求解器基線模型的性能進行提升。這充分說明了我們 IDAM 方法在 MWP 問題上的有效性。

該成果已投稿到 IEEE/ACM Transactions on Audio, Speech and Language Processing,更多細節(jié)敬請期待。

實驗室簡介

中山大學人機物智能融合實驗室(HCP Lab)由林倞教授于2010年創(chuàng)辦,圍繞人工智能前沿技術布局研究課題,獲得中國圖像圖形學會科技一等獎、吳文俊自然科學獎、省級自然科學一等獎等榮譽;培養(yǎng)了梁小丹、王可澤等國家級青年人才。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-03-14 14:06:52

訓練模型

2022-08-08 15:48:17

研究模型

2020-11-05 16:21:15

中山大學

2014-11-13 10:17:30

中山大學新炬網(wǎng)絡學院大數(shù)據(jù)技術

2009-05-19 11:46:21

2024-04-11 07:09:43

大模型人工智能AI

2024-07-01 12:19:33

2016-12-24 00:08:11

教育信息化

2024-01-12 13:10:06

AI數(shù)據(jù)

2016-07-15 09:53:27

太一星晨

2021-02-24 15:38:37

數(shù)據(jù)語言架構

2024-10-17 14:17:44

DiTSOTA機制

2015-11-18 17:12:25

太一星晨/應用交付

2023-11-29 15:00:00

數(shù)據(jù)訓練

2023-10-30 17:23:54

數(shù)據(jù)模型

2024-02-29 13:55:00

模型訓練

2024-01-29 06:40:00

AI模型

2021-11-16 15:37:43

AI 數(shù)據(jù)人工智能
點贊
收藏

51CTO技術棧公眾號