2021語言與智能技術(shù)競賽頒獎典禮舉行 冠軍團(tuán)隊分享獲勝心得
8月28日,由中國計算機(jī)學(xué)會(CCF)和中國中文信息學(xué)會(CIPS)共同發(fā)起并聯(lián)合主辦的第六屆語言與智能高峰論壇召開。會上,2021語言與智能技術(shù)競賽頒獎典禮圓滿落幕。

2021語言與智能技術(shù)競賽由中國計算機(jī)學(xué)會(CCF)和中國中文信息學(xué)會(CIPS)聯(lián)合主辦,百度公司、中國計算機(jī)學(xué)會自然語言處理專委會和中國中文信息學(xué)會評測工作委員會承辦。本屆競賽設(shè)置了機(jī)器閱讀理解、多技能對話和多形態(tài)信息抽取三大任務(wù),與往屆競賽僅關(guān)注模型在單一數(shù)據(jù)上的效果不同,本屆競賽聯(lián)手“千言”開源數(shù)據(jù)集項目,對每項任務(wù)設(shè)置了更加豐富的數(shù)據(jù)集合和評測維度,重點關(guān)注模型的魯棒性、泛化性和多任務(wù)能力等,從多個維度對技術(shù)效果進(jìn)行綜合評價。
雖然賽題難度較往年有所提升,但開發(fā)者們的參賽熱度不減。據(jù)統(tǒng)計,來自產(chǎn)學(xué)研各界4300余人次、3500支隊伍參與了賽事爭奪,累計收到有效提交結(jié)果1萬多次,較去年平均單任務(wù)提交數(shù)提升22%,競爭非常激烈。
比賽過程中,選手們提出了很多創(chuàng)新思路和方案,三大任務(wù)效果相對基線大幅提升20%以上,對話任務(wù)甚至達(dá)到80%+,有力推動了相關(guān)任務(wù)的技術(shù)進(jìn)步。在頒獎現(xiàn)場,三個任務(wù)的優(yōu)勝團(tuán)隊也進(jìn)行了技術(shù)方案的分享和交流。
本次競賽的機(jī)器閱讀理解任務(wù)從細(xì)粒度、多維度挑戰(zhàn)了機(jī)器理解語言的能力,包括詞匯理解、短語理解、語義角色理解等五大考察維度。該賽道冠軍——來自深圳平安集團(tuán)金融壹賬通的團(tuán)隊,介紹了行為型微調(diào)和注意力機(jī)制改良的兩階段微調(diào)方案。在行為型微調(diào)方案中,針對本次賽題的挑戰(zhàn),分別設(shè)計了詞匯替換、正/負(fù)短語理解問題構(gòu)造、語義角色互換樣本構(gòu)造和負(fù)推理樣本構(gòu)造的方法進(jìn)行數(shù)據(jù)增強。并將增強的數(shù)據(jù)分為低質(zhì)量和高質(zhì)量兩部分,先用低質(zhì)量數(shù)據(jù)對模型做自適應(yīng)的微調(diào),再用高質(zhì)量數(shù)據(jù)作為訓(xùn)練集擴(kuò)充,從而提高模型的魯棒性。

深圳平安集團(tuán)金融壹賬通團(tuán)隊方案分享
多技能對話賽道冠軍——來自螞蟻集團(tuán)大安全的團(tuán)隊利用了百度開源的對話預(yù)訓(xùn)練模型PLATO-2,對多種對話任務(wù)進(jìn)行統(tǒng)一建模,并加入OOV處理、知識篩選、推理優(yōu)化等優(yōu)化點,效果大幅提升。同時,該團(tuán)隊也表示,目前業(yè)界中文的開源對話數(shù)據(jù)較少,“千言”數(shù)據(jù)集的開源開放有助于對話技術(shù)的研究發(fā)展。

螞蟻集團(tuán)大安全團(tuán)隊方案分享
對于此次參賽的研究成果與自身業(yè)務(wù)的落地結(jié)合,多形態(tài)信息抽取賽道獲獎隊伍之一——來自小米公司的團(tuán)隊也給出了肯定的答案。針對本次賽題,該團(tuán)隊針對關(guān)系抽取、句子級事件抽取和篇章級事件抽取分別設(shè)計了不同的策略。同時他們表示,大規(guī)模知識圖譜和事件圖譜的構(gòu)建需要使用準(zhǔn)確度高的信息抽取算法,構(gòu)建好的知識圖譜可以應(yīng)用到廣告、對話機(jī)器人等場景,對于提高廣告CTR和對話機(jī)器人回答準(zhǔn)確率都有一定的價值。

小米公司團(tuán)隊方案分享
頒獎典禮現(xiàn)場,百度自然語言處理部主任研發(fā)架構(gòu)師劉璟做了競賽的整體報告,對本次比賽進(jìn)行全面總結(jié)。他還提到聯(lián)合建設(shè)“千言”數(shù)據(jù)集開源項目的宗旨:“我們的目標(biāo)是構(gòu)建全面的、面向自然語言理解和生成的開源數(shù)據(jù)集合,希望能夠通過多維度的綜合評價,以及覆蓋豐富的任務(wù)類型,共同推動中文信息處理技術(shù)的進(jìn)步”。作為面向自然語言理解和生成任務(wù)的中文開源數(shù)據(jù)集合,“千言”旨在為研究人員帶來一站式的數(shù)據(jù)集瀏覽、整理、下載和評測的科研體驗。在本次比賽結(jié)束后,自然語言處理領(lǐng)域的研究者、開發(fā)者可通過“千言”官網(wǎng)(luge.ai)繼續(xù)下載和使用相關(guān)數(shù)據(jù)集,并參與相應(yīng)的常規(guī)評測,不斷打磨和提升相關(guān)任務(wù)的技術(shù)水平,形成創(chuàng)新閉環(huán)。
近年來,學(xué)術(shù)界、產(chǎn)業(yè)界對自然語言處理這一領(lǐng)域持續(xù)深耕,促進(jìn)著人工智能學(xué)科不斷向前發(fā)展。自然語言處理技術(shù)的應(yīng)用不僅改變著人類的生活方式,也為實際產(chǎn)業(yè)應(yīng)用的升級提供了更多新的可能。語言與智能競賽持續(xù)“以賽促學(xué)”,挖掘和培養(yǎng)更多的AI技術(shù)人才、賦能社會百業(yè),為中國AI產(chǎn)業(yè)的發(fā)展再添動能。