自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中文自動(dòng)轉(zhuǎn)SQL,準(zhǔn)確率高達(dá)92%,這位Kaggle大師刷新世界紀(jì)錄

新聞 人工智能
首屆中文NL2SQL挑戰(zhàn)賽上,又一項(xiàng)超越國(guó)外水平的NLP研究成果誕生了。在NL2SQL這項(xiàng)任務(wù)上,比賽中的最佳成績(jī)達(dá)到了92.19%的準(zhǔn)確率,超過(guò)英文NL2SQL數(shù)據(jù)集WikiSQL目前完全匹配精度86.0%,執(zhí)行匹配精度91.8%的最高成績(jī)。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

追一科技主辦的首屆中文NL2SQL挑戰(zhàn)賽上,又一項(xiàng)超越國(guó)外水平的NLP研究成果誕生了。

在NL2SQL這項(xiàng)任務(wù)上,比賽中的最佳成績(jī)達(dá)到了92.19%的準(zhǔn)確率,超過(guò)英文NL2SQL數(shù)據(jù)集WikiSQL目前完全匹配精度86.0%,執(zhí)行匹配精度91.8%的最高成績(jī)。

達(dá)成這一成績(jī)的隊(duì)伍的名字很有野心,名叫“不上90不改名字”,團(tuán)隊(duì)成員包括來(lái)自國(guó)防科技大學(xué)的博士張嘯宇、碩士賽斌,來(lái)自昂鈦客AI的王蘇宏,他們拿下了本屆比賽的冠軍,抱走了8萬(wàn)獎(jiǎng)金。

[[279191]]

冠軍團(tuán)隊(duì)從來(lái)自CMU、北大、清華、上交、南大、中科大等多所高校和移動(dòng)、平安、搜狗等公司的1457支參賽隊(duì)伍中脫穎而出,超過(guò)92%的成績(jī),讓比賽評(píng)委、復(fù)旦大學(xué)教授肖仰華驚喜的說(shuō):“結(jié)果完全超出預(yù)期”。

而另一位評(píng)委、比賽主辦方追一科技的CTO劉云峰說(shuō),該任務(wù)的準(zhǔn)確率從比賽初期最好成績(jī)60%多提升到超過(guò)92.19%的水平,提升幅度超出了他們?cè)镜南胂蟆?/p>

而且由于本次比賽用到的中文數(shù)據(jù)集難度比WikiSQL英文數(shù)據(jù)集要高,證明在同樣設(shè)定下,冠軍團(tuán)隊(duì)的方案已經(jīng)超過(guò)了國(guó)外機(jī)構(gòu)最佳算法(state-of-the-art)在中文任務(wù)上的表現(xiàn)。

NL2SQL最佳方法揭秘

NL2SQL,也就是把自然語(yǔ)言“翻譯”成機(jī)器能理解的SQL語(yǔ)句,在人機(jī)交互中有巨大的價(jià)值,這樣的成績(jī)意味著,92.19%的情況下,你說(shuō)的話都能被機(jī)器準(zhǔn)確的理解,并給到你想要的答案。

那么,既然機(jī)器能理解人話,那從紛繁復(fù)雜的數(shù)據(jù)庫(kù)中找到資料也是更為容易的事情了。

肖仰華教授說(shuō),現(xiàn)在阻礙大數(shù)據(jù)價(jià)值變現(xiàn)的最大難題就是訪問(wèn)數(shù)據(jù)門(mén)檻太高,依賴數(shù)據(jù)庫(kù)管理員寫(xiě)復(fù)雜的SQL,而且考慮到中文的表述更加多樣,中文NL2SQL要比英文難很多。

[[279192]]

 肖仰華教授

因此,解決了從中文人類語(yǔ)言到SQL這種計(jì)算機(jī)語(yǔ)言的轉(zhuǎn)化問(wèn)題,那些和你對(duì)話的AI系統(tǒng)們,就會(huì)變得更“聰明”,更容易理解你的問(wèn)題并找到答案,App里的智能客服、家里的智能音箱們一問(wèn)三不知的情況也會(huì)少很多。

針對(duì)中文NL2SQL的問(wèn)題,冠軍團(tuán)隊(duì)的張嘯宇在比賽答辯中揭秘了實(shí)現(xiàn)的方法:

[[279193]]

 冠軍隊(duì)隊(duì)長(zhǎng)張嘯宇

WikiSQL排行榜上的第一名、來(lái)自微軟Dynamics 365團(tuán)隊(duì)的X-SQL有一些問(wèn)題,模型框架不完全適配,在value抽取上colume特征不顯著,容易抽取混亂。

針對(duì)這些問(wèn)題,冠軍團(tuán)隊(duì)提出了M-SQL,將原本X-SQL的6個(gè)子任務(wù)改為8個(gè)子任務(wù),并且增加三個(gè)子模型,S-num、Value抽取、Value匹配,一次性將query中含有的所有Value抽取出來(lái),并對(duì)value和數(shù)據(jù)庫(kù)表字段的隸屬關(guān)系進(jìn)行判斷。

之后進(jìn)行了一些細(xì)節(jié)提升,比如在數(shù)據(jù)預(yù)處理方面,將數(shù)據(jù)、年份、單位、日期、同義詞進(jìn)行修正,統(tǒng)一query的范式;在query信息表達(dá)方面,用XLS標(biāo)記替換CLS標(biāo)記,這樣在線下驗(yàn)證集上準(zhǔn)確率提高了0.3個(gè)百分點(diǎn)。

用到的預(yù)訓(xùn)練模型,則是哈工大發(fā)布的BERT-wwm-ext模型。

最終的成果,張嘯宇覺(jué)得非常滿意:“我覺(jué)得機(jī)器轉(zhuǎn)的比我好,大言不慚的說(shuō),已經(jīng)超過(guò)了人類的水平。”

冠軍團(tuán)隊(duì)

“不上90不改名字”隊(duì)伍的隊(duì)長(zhǎng)張嘯宇是一名國(guó)防生,也是一位競(jìng)賽熱愛(ài)者,專注NLP領(lǐng)域。他在2018年萊斯杯軍事閱讀理解挑戰(zhàn)賽上獲得第二名;在2019年的Kaggle PetFinder比賽上獲得金牌,現(xiàn)在是榜上有名的Kaggle Master了。

中文自動(dòng)轉(zhuǎn)SQL,準(zhǔn)確率高達(dá)92%,這位Kaggle大師刷新世界紀(jì)錄

另一位隊(duì)員賽斌則是他在國(guó)防科大的同學(xué),王蘇宏則是他在Kaggle社區(qū)結(jié)識(shí)的一位隊(duì)友,目前也是Kaggle排行榜上前1000名的用戶。

中文自動(dòng)轉(zhuǎn)SQL,準(zhǔn)確率高達(dá)92%,這位Kaggle大師刷新世界紀(jì)錄

雖然取得了冠軍,不過(guò)這個(gè)團(tuán)隊(duì)籌備比賽的時(shí)間卻比其他隊(duì)伍晚了一些,他們開(kāi)始準(zhǔn)備的時(shí)候,其他團(tuán)隊(duì)已經(jīng)進(jìn)行了兩個(gè)星期。

剩下的時(shí)間只有一個(gè)月了。在這一個(gè)月的準(zhǔn)備時(shí)間里,三人每天都在線上協(xié)同商量方案,平均下來(lái)基本每天都要工作五六個(gè)小時(shí)。

對(duì)于第一名的成績(jī),他們感到毫不意外。畢竟在排行榜上已經(jīng)是第一名,準(zhǔn)確度也在這項(xiàng)任務(wù)上實(shí)現(xiàn)了業(yè)界領(lǐng)先,奪得第一當(dāng)之無(wú)愧。

最后,關(guān)于比賽的經(jīng)驗(yàn),張嘯宇總結(jié)地非常簡(jiǎn)單:多敲代碼,多看paper。

幫技術(shù)的“錘子”,找場(chǎng)景的“釘子”

追一科技總部在深圳,另外在北京、上海、南京、香港、新加坡、白俄羅斯也有研發(fā)團(tuán)隊(duì)或分公司。

成立3年來(lái),追一已經(jīng)完成了來(lái)自招商局資本、創(chuàng)新工場(chǎng)、晨興資本、高榕資本、紀(jì)源資本的4輪投資,總計(jì)融資額7000萬(wàn)美元,招商銀行信用卡、中國(guó)移動(dòng)、南方電網(wǎng)、中國(guó)人保、騰訊都是追一的客戶。

從融資規(guī)模上來(lái)看,可以說(shuō)這家騰訊系的AI公司已經(jīng)是 國(guó)內(nèi)NLP領(lǐng)域的領(lǐng)頭羊了。

技術(shù)方面,追一在各項(xiàng)NLP任務(wù)上都有所突破,拿到了CoQA、CMRC2018 中文機(jī)器閱讀理解等挑戰(zhàn)的冠軍。

而在NL2SQL這個(gè)任務(wù)上,曾經(jīng)在騰訊達(dá)到T4職級(jí)的劉云峰說(shuō),中文NL2SQL在比賽之前只有追一和微軟兩家,通過(guò)這場(chǎng)比賽,如果能達(dá)到眾人拾柴火焰高的目的,就可以將這項(xiàng)技術(shù)推廣出去了:

“客戶這邊有一個(gè)釘子,但是不知道用什么錘子來(lái)砸;但是我們這些搞AI的公司有一個(gè)錘子,不知道去哪里找釘子。通過(guò)這個(gè)比賽我們可以很好地把釘子和錘子匹配在一起,給技術(shù)找到落地的場(chǎng)景。”

從NLP到計(jì)算機(jī)視覺(jué)

值得注意的是,本次比賽雖說(shuō)是在NLP領(lǐng)域的賽事,但仍然吸引了不少計(jì)算機(jī)視覺(jué)方面的研究者參賽,闖入決賽的隊(duì)伍“大佬帶我飛”中的兩名成員就是CV方面的研究生。

[[279194]]

 追一科技CTO劉云峰

評(píng)委追一科技CTO劉云峰認(rèn)為,在工業(yè)落地時(shí),現(xiàn)在越來(lái)越呈現(xiàn)出多模態(tài)融合的趨勢(shì),視覺(jué)和NLP結(jié)合的越來(lái)越多,需要同時(shí)處理多種信號(hào),人機(jī)交互的時(shí)候也不僅僅用到NLP方面的技術(shù),也需要用到視覺(jué)方面的技術(shù),追一科技作為一家NLP公司,本身也有視覺(jué)、語(yǔ)音方面的技術(shù)團(tuán)隊(duì)。

“AI公司主要做企業(yè)服務(wù),一個(gè)企業(yè)不會(huì)只要一個(gè)方向(的技術(shù)),他同時(shí)要NLP、視覺(jué)的時(shí)候不會(huì)找兩家公司,因?yàn)樗约簺](méi)法把兩個(gè)技術(shù)融合在一起。”

因此劉云峰判斷,未來(lái)頭部AI公司一定是全棧AI公司,雖然會(huì)有最拿手的技術(shù),但不會(huì)只布局一個(gè)領(lǐng)域的技術(shù)。

最后,本屆比賽的數(shù)據(jù)集之后也會(huì)公開(kāi),或許這會(huì)是NLP領(lǐng)域下一個(gè)競(jìng)相角逐的高地。

追一科技主辦的首屆中文NL2SQL挑戰(zhàn)賽上,又一項(xiàng)超越國(guó)外水平的NLP研究成果誕生了。

在NL2SQL這項(xiàng)任務(wù)上,比賽中的最佳成績(jī)達(dá)到了92.19%的準(zhǔn)確率,超過(guò)英文NL2SQL數(shù)據(jù)集WikiSQL目前完全匹配精度86.0%,執(zhí)行匹配精度91.8%的最高成績(jī)。

 

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2018-08-03 16:09:42

搜狗

2011-03-23 10:20:25

中興光通信100G

2018-07-03 09:37:12

量子計(jì)算機(jī)編碼

2021-04-25 21:26:47

量子芯片U盤(pán)

2020-05-21 10:26:35

數(shù)據(jù)庫(kù)

2020-05-21 10:06:23

支付寶OceanBaseTPC-C

2018-11-14 10:01:30

谷歌開(kāi)源機(jī)器學(xué)習(xí)

2024-06-03 12:03:56

2014-11-03 16:07:03

華為服務(wù)器

2014-10-23 16:22:05

華為

2011-11-17 13:13:18

戴爾服務(wù)器

2020-10-09 08:31:00

AI

2017-05-18 16:52:44

阿里云人工智能NASA計(jì)劃

2016-06-20 17:55:18

戴爾閃存

2019-02-21 22:25:18

曙光

2017-11-14 12:27:44

ThinkSystem

2018-06-12 07:15:18

阿里巴巴技術(shù)語(yǔ)音識(shí)別

2023-05-04 09:39:16

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)