NLPer內(nèi)部巨大分歧!美國三所頂尖大學(xué)發(fā)布調(diào)查報(bào)告:62%從業(yè)者認(rèn)同寒冬正來臨
自然語言理解(NLP)素有人工智能皇冠上的明珠的盛譽(yù),在大規(guī)模語言模型的加持下,人類也終于有了讓計(jì)算機(jī)理解語言的能力。
但這個(gè)「理解」還是得打個(gè)引號,按目前NLP模型的效果來看,雖然在部分領(lǐng)域模型可以為人類提供輔助,例如寫作、文本分類等,但離真正達(dá)到人類水平的語言智能還有很遠(yuǎn)的距離。
今年5月-6月,華盛頓大學(xué)、紐約大學(xué)、約翰霍普金斯大學(xué)的11位研究人員在NLP研究社區(qū)中發(fā)起了一份調(diào)查問卷,對NLP領(lǐng)域的爭議性問題廣泛征求意見,包括行業(yè)在該領(lǐng)域的影響力、行業(yè)規(guī)模、通用人工智能(AGI)的風(fēng)險(xiǎn)的擔(dān)憂、語言模型是否理解語言、未來的研究方向以及道德問題等。
調(diào)查主頁:https://nlpsurvey.net/
報(bào)告地址:https://nlpsurvey.net/nlp-metasurvey-results.pdf
問題形式諸如:
語言模型能理解語言嗎?未來可以做到嗎?
傳統(tǒng)的模型基準(zhǔn)范式是否仍然可用?
構(gòu)建和發(fā)布哪種預(yù)測類模型對于研究者來說符合道德標(biāo)準(zhǔn)?
下一個(gè)最有影響力的進(jìn)步會(huì)來自工業(yè)界還是學(xué)術(shù)界?
從調(diào)查結(jié)果來看,受訪者對于這些問題的看法幾乎都是對半開。 除了回答問題外,研究者還會(huì)要求受訪者預(yù)測該問題的答案分布情況,以發(fā)現(xiàn)社區(qū)預(yù)測與現(xiàn)實(shí)不匹配的錯(cuò)誤社會(huì)學(xué)信念(false sociological beliefs),實(shí)驗(yàn)結(jié)果也是不出所料:NLP從業(yè)者的想法和整個(gè)領(lǐng)域的現(xiàn)狀之間產(chǎn)生了巨大的分歧。 在其他結(jié)果中還可以看到,社區(qū)對benchmark的用處和NLP模型解決現(xiàn)實(shí)世界問題的能力大大高估了,而低估了對語言結(jié)構(gòu)、歸納偏見和跨學(xué)科科學(xué)的重要性。 總共有480人完成了調(diào)查問卷,其中327人(68%)在2019-2022年間至少與人合著了2篇ACL出版物,屬于該調(diào)查的目標(biāo)人群。根據(jù)ACL Anthology提供的數(shù)據(jù)來看,有6323人滿足條件,也就是說有約有5%的資深NLP從業(yè)者都參與了調(diào)研。
以地理位置進(jìn)行劃分的話,58%來自美國(超過ACL統(tǒng)計(jì)值35%),23%來自歐洲,8%來自亞洲(遠(yuǎn)小于ACL統(tǒng)計(jì)值26%)。其中,來自中國的 NLP 研究者占3%(ACL統(tǒng)計(jì)值為9%)。
領(lǐng)域現(xiàn)狀
該部分包括六個(gè)問題,用戶需要回答「認(rèn)同」、「稍微認(rèn)同」、「不太認(rèn)同」、「不認(rèn)同」。
1、私營公司的影響力過大?
77%的受訪者認(rèn)同。
2、工業(yè)界將會(huì)產(chǎn)出最被廣泛引用的研究成果?
86%受訪者認(rèn)同未來十年被廣泛引用的論文更有可能來自工業(yè)界而非學(xué)術(shù)界。
不過很多受訪者都認(rèn)為一項(xiàng)工作的被引用次數(shù)并不能很好地代表其價(jià)值或重要性,而且工業(yè)界對該領(lǐng)域的持續(xù)主導(dǎo)地位將產(chǎn)生負(fù)面影響,比如在基礎(chǔ)系統(tǒng)方面如GPT-3和PaLM的絕對領(lǐng)導(dǎo)地位。
而且在學(xué)術(shù)界的受訪者中,認(rèn)為工業(yè)界的影響力過大的人大約占82%,而工業(yè)界的受訪者僅有58%的人認(rèn)同。
3、NLP會(huì)在十年內(nèi)進(jìn)入寒冬?
僅有30%的受訪者認(rèn)同,屆時(shí)NLP R&D的投資和工作機(jī)會(huì)將比高峰期至少減少50%。
盡管 30 %不是一個(gè)大數(shù)字,但這也反映了這一部分NLP研究者認(rèn)為該領(lǐng)域?qū)⒃诓痪玫膶戆l(fā)生重大變化,至少投資資金會(huì)減少。至于悲觀的原因可能有很多,比如由于工業(yè)界影響力過大而導(dǎo)致的創(chuàng)新停滯,工業(yè)界將憑借少量資源充足的實(shí)驗(yàn)室來壟斷行業(yè),NLP 和其他 AI 子領(lǐng)域之間的界限將消失等等。
4、NLP會(huì)在三十年內(nèi)進(jìn)入寒冬?
62%的受訪者認(rèn)同,長期來看,NLP領(lǐng)域可能會(huì)「退燒」甚至變冷。
5、大部分NLP領(lǐng)域發(fā)表的相關(guān)工作在科學(xué)價(jià)值上都值得懷疑(dubious)?
67%的受訪者認(rèn)同。
6、作者匿名評審很重要?
63%的受訪者認(rèn)同。評審期間作者的匿名是有價(jià)值的,足以證明對正在評審的研究的傳播的限制。
規(guī)?;?、歸納偏差和相關(guān)領(lǐng)域
該部分包含四個(gè)問題。
1、規(guī)?;梢越鉀Q幾乎所有的關(guān)鍵問題?
僅有17%的受訪者認(rèn)同,如果用上21世紀(jì)內(nèi)所有的計(jì)算資源和數(shù)據(jù)資源,用現(xiàn)有技術(shù)的規(guī)?;瘜?shí)施將足以實(shí)際解決任何重要的現(xiàn)實(shí)世界問題或NLP的應(yīng)用。
2、引入語言學(xué)結(jié)構(gòu)是必要的?
50%的受訪者認(rèn)同以語言學(xué)理論為基礎(chǔ)的語言結(jié)構(gòu)的離散的通用表征(例如,涉及詞義、句法或語義圖)對于實(shí)際解決NLP中的一些重要的現(xiàn)實(shí)世界的問題或應(yīng)用是必要的。
3、專家的歸納偏見是必要的?
51%的受訪者認(rèn)同,專家設(shè)計(jì)的強(qiáng)歸納偏見(如通用語法、符號系統(tǒng)或認(rèn)知啟發(fā)的計(jì)算基元)對于實(shí)際解決NLP中一些重要的現(xiàn)實(shí)世界問題或應(yīng)用是必要的。
4、 Ling/CogSci將對引用最多的模型作出貢獻(xiàn)?
61%的受訪者認(rèn)同2030年被引用最多的五個(gè)系統(tǒng)中,很可能至少有一個(gè)會(huì)從過去50年的語言學(xué)或認(rèn)知科學(xué)研究中的具體的、非微不足道的成果中獲得明確的靈感。
AGI和主要風(fēng)險(xiǎn)
1、AGI是一個(gè)重要的關(guān)注點(diǎn)?
58%的受訪者認(rèn)同,了解人工通用智能(AGI)的潛在發(fā)展以及與之相關(guān)的利益/風(fēng)險(xiǎn),應(yīng)該是NLP研究人員的一個(gè)重要優(yōu)先事項(xiàng)。
2、最近的進(jìn)展正在使我們走向AGI?
57%的受訪者認(rèn)同,大規(guī)模ML建模的最新發(fā)展(如語言建模和強(qiáng)化學(xué)習(xí))是朝著AGI發(fā)展的重要步驟。
3、人工智能可能很快導(dǎo)致革命性的社會(huì)變革?
73%的受訪者認(rèn)同,在本世紀(jì),由人工智能/ML的進(jìn)步引起的勞動(dòng)自動(dòng)化可能會(huì)導(dǎo)致經(jīng)濟(jì)重組和社會(huì)變革,其規(guī)模至少是工業(yè)革命時(shí)期的規(guī)模。
4、人工智能的決策可能導(dǎo)致核彈級別的災(zāi)難?
36%受訪者認(rèn)同,人工智能或機(jī)器學(xué)習(xí)系統(tǒng)做出的決策可能會(huì)在本世紀(jì)造成至少與全面核戰(zhàn)爭一樣嚴(yán)重的災(zāi)難。
語言理解
1、語言模型能理解(understand)語言?
51%的受訪者認(rèn)同。一些只對文本進(jìn)行訓(xùn)練的生成模型,如果有足夠的數(shù)據(jù)和計(jì)算資源,就可以在某種意義上理解自然語言
2、多模態(tài)模型能理解語言?
67%的受訪者認(rèn)同。對于多模態(tài)生成模型而言,比如一個(gè)經(jīng)過訓(xùn)練可以訪問圖像、傳感器和驅(qū)動(dòng)器actuator數(shù)據(jù)等的模型,只要有足夠的數(shù)據(jù)和計(jì)算資源,就可以理解自然語言。
3、純文本評價(jià)可以衡量模型的語言理解能力?
36%的受訪者認(rèn)同。原則上,我們可以通過跟蹤一個(gè)模型在純文本分類或語言生成基準(zhǔn)上的表現(xiàn)來評估其理解自然語言的程度。
NLP未來的研究方向
1、從業(yè)者太過于關(guān)注語言模型的規(guī)模?
72%受訪者認(rèn)同。目前,該領(lǐng)域過多地關(guān)注機(jī)器學(xué)習(xí)模型的大規(guī)?;?。
2、過于關(guān)注基準(zhǔn)數(shù)據(jù)集?
88%的受訪者認(rèn)同目前NLP模型過多地關(guān)注在基準(zhǔn)上優(yōu)化性能。
3、「模型架構(gòu)」走錯(cuò)了方向?
37%受訪者認(rèn)同。過去5年發(fā)表的大部分關(guān)于模型架構(gòu)的研究都走在了錯(cuò)誤的道路上。
4、「語言生成」走錯(cuò)了方向?
41%受訪者認(rèn)同,過去5年中發(fā)表的關(guān)于開放式語言生成任務(wù)的大部分研究都走在了錯(cuò)誤的道路上。
5、「可解釋模型的研究」走錯(cuò)了方向?
50%的受訪者認(rèn)同,過去5年中發(fā)表的大多數(shù)關(guān)于建立可解釋模型的研究都走在了錯(cuò)誤的道路上。
6、「黑盒的可解釋性」走錯(cuò)了方向?
42%的受訪者認(rèn)同過去5年中發(fā)表的關(guān)于解釋黑箱模型的大部分研究都走在了錯(cuò)誤的道路上。
7、我們應(yīng)該做更多的工作來吸收跨學(xué)科的見解?
82%的受訪者認(rèn)同,與目前的狀況相比,NLP研究人員應(yīng)該更優(yōu)先考慮納入相關(guān)領(lǐng)域科學(xué)(如社會(huì)語言學(xué)、認(rèn)知科學(xué)、人機(jī)交互)的見解和方法。
AI道德規(guī)范
1、 NLP過去產(chǎn)生的影響是正向的?
89%受訪者認(rèn)同,總的來說,NLP研究對世界產(chǎn)生了積極的影響。
2、NLP的未來產(chǎn)生的影響會(huì)是正向的?
87%的受訪者認(rèn)同,總的來說,NLP的研究在未來會(huì)對世界產(chǎn)生積極的影響。
3、構(gòu)建一個(gè)容易被濫用的系統(tǒng)是不道德的?
59%的受訪者認(rèn)同。
4、倫理和科學(xué)可能發(fā)生沖突?
74%的受訪者認(rèn)同,在NLP研究的背景下,倫理方面的考慮有時(shí)會(huì)與科學(xué)的進(jìn)步相抵觸。
5、倫理方面的問題大多歸咎于數(shù)據(jù)質(zhì)量和模型準(zhǔn)確性方面?
25%的受訪者認(rèn)同,目前的機(jī)器學(xué)習(xí)系統(tǒng)所帶來的主要倫理問題原則上可以通過提高數(shù)據(jù)質(zhì)量/覆蓋率和模型精度來解決。
6、預(yù)測心理特征是不道德的?
48%的受訪者認(rèn)同,開發(fā)機(jī)器學(xué)習(xí)系統(tǒng)來預(yù)測人們的內(nèi)部心理特征(如情緒、性別認(rèn)同、性取向)本身就是不道德的。
7、碳足跡是一個(gè)重要的考量嗎?
60%的受訪者認(rèn)同,訓(xùn)練大型模型產(chǎn)生的碳足跡應(yīng)該是NLP研究人員的一個(gè)主要關(guān)注點(diǎn)。
8、NLP應(yīng)該受到監(jiān)管嗎?
41%的受訪者認(rèn)同,NLP系統(tǒng)的開發(fā)和部署應(yīng)該由政府監(jiān)管。