多個(gè)中國團(tuán)隊(duì)斬獲EMNLP'24最佳論文!UCLA華人學(xué)者中三篇杰出論文,明年頂會(huì)落戶蘇州
剛剛,EMNLP 2024最佳論文獎(jiǎng)新鮮出爐!
5篇中榜論文中,華人學(xué)者參與三篇,分別來自CMU、上海交通大學(xué)、中國科學(xué)院大學(xué)等機(jī)構(gòu)。
其中,Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method主要由中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)、中國科學(xué)院大學(xué)的學(xué)者完成。
論文一作Weichao Zhang;通訊作者郭嘉豐,現(xiàn)任中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任。
這項(xiàng)研究提出了一個(gè)新的數(shù)據(jù)集和方法,用于檢測(cè)給定文本是否為L(zhǎng)LM預(yù)訓(xùn)練數(shù)據(jù)的一部分,有助于提高LLM訓(xùn)練數(shù)據(jù)透明度。
EMNLP’24今年收錄論文總共2978篇,比去年增長(zhǎng)5%,其中2455篇主會(huì)議論文,523篇workshop論文。
除最佳論文外,杰出論文也揭曉了,超半數(shù)華人學(xué)者參與。
順便提一嘴,EMNLP 2025將于明年11月5-9日,在中國蘇州舉辦!
國內(nèi)學(xué)者們可以搓搓手準(zhǔn)備起來了~
接下來,具體康康獲獎(jiǎng)?wù)撐挠心男?/p>
上交大CMU等團(tuán)隊(duì)獲最佳論文
此次共有5項(xiàng)研究成果獲得EMNLP’24最佳論文獎(jiǎng)。
1、An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance
(圖像能表達(dá)千言萬語,但每個(gè)人都能傾聽嗎?關(guān)于圖像再創(chuàng)造的文化相關(guān)性)
這篇來自CMU的論文研究了圖像跨文化再創(chuàng)作任務(wù)。鑒于多媒體內(nèi)容興起,翻譯需涵蓋圖像等模態(tài),傳統(tǒng)翻譯局限于處理語音和文本中的語言,跨文化再創(chuàng)作應(yīng)運(yùn)而生。
作者構(gòu)建了三個(gè)包含SOTA生成模型的管道:e2e-instruct 直接編輯圖像,cap-edit 通過字幕和 LLM 編輯后處理圖像,cap-retrieve 利用編輯后的字幕檢索圖像,還創(chuàng)建了概念和應(yīng)用兩部分評(píng)估數(shù)據(jù)集。
結(jié)果發(fā)現(xiàn),當(dāng)前圖像編輯模型均未能完成這項(xiàng)任務(wù),但可以通過在循環(huán)中利用 LLM 和檢索器來改進(jìn)。
2、Towards Robust Speech Representation Learning for Thousands of Languages
(為數(shù)千種語言實(shí)現(xiàn)穩(wěn)健的語音表征學(xué)習(xí))
這篇來自CMU、上海交大、豐田工業(yè)大學(xué)芝加哥分校的論文,介紹了一種名為XEUS的跨語言通用語音編碼器,旨在處理多種語言和聲學(xué)環(huán)境下的語音。
研究通過整合現(xiàn)有數(shù)據(jù)集和新收集的數(shù)據(jù),構(gòu)建了包含 4057 種語言、超 100 萬小時(shí)數(shù)據(jù)的預(yù)訓(xùn)練語料庫,并提出新的自監(jiān)督任務(wù)(聲學(xué)去混響)增強(qiáng)模型魯棒性。研究結(jié)果顯示,XEUS 在多個(gè)下游任務(wù)中表現(xiàn)優(yōu)異,在 ML-SUPERB 基準(zhǔn)測(cè)試中超越了其他模型,如在多語言自動(dòng)語音識(shí)別任務(wù)中實(shí)現(xiàn)SOTA,且在語音翻譯、語音合成等任務(wù)中也表現(xiàn)出色。
該團(tuán)隊(duì)超半數(shù)都是華人,其中一作William Chen目前是CMU語言技術(shù)研究所的碩士生,此前獲得佛羅里達(dá)大學(xué)計(jì)算機(jī)科學(xué)和歷史學(xué)學(xué)士學(xué)位。
3、Backward Lens: Projecting Language Model Gradients into the Vocabulary Space
(逆向透鏡:將語言模型梯度投射到詞匯空間)
了解基于Transformer的語言模型如何學(xué)習(xí)和調(diào)用信息成為行業(yè)一個(gè)關(guān)鍵目標(biāo)。最近的可解釋性方法將前向傳遞獲得的權(quán)重和隱藏狀態(tài)投射到模型的詞匯表中,有助于揭示信息如何在語言模型中流動(dòng)。
來自以色列理工學(xué)院、特拉維夫大學(xué)的研究人員將這一方法擴(kuò)展到語言模型的后向傳遞和梯度。
首先證明,梯度矩陣可以被視為前向傳遞和后向傳遞輸入的低秩線性組合。然后,開發(fā)了將這些梯度投射到詞匯項(xiàng)目中的方法,并探索了新信息如何存儲(chǔ)在語言模型神經(jīng)元中的機(jī)制。
4、Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method
(大語言模型的預(yù)訓(xùn)練數(shù)據(jù)檢測(cè):基于散度的校準(zhǔn)方法)
這篇論文作者來自中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)、中國科學(xué)院大學(xué)、中關(guān)村實(shí)驗(yàn)室、阿姆斯特丹大學(xué)。
通訊作者郭嘉豐,現(xiàn)為中國科學(xué)院計(jì)算技術(shù)研究所研究員、中國科學(xué)院大學(xué)教授、北京人工智能研究院研究員,中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室主任。目前研究方向是信息檢索 (Neural IR) 和自然語言理解的神經(jīng)模型。
他們的研究旨在解決大語言模型預(yù)訓(xùn)練數(shù)據(jù)檢測(cè)問題,因模型開發(fā)者不愿透露訓(xùn)練數(shù)據(jù)細(xì)節(jié),現(xiàn)有方法在判斷文本是否為訓(xùn)練數(shù)據(jù)時(shí)存在局限。
基于這樣的原因,他們提出 DC-PDD 方法,通過計(jì)算文本的詞元概率分布與詞元頻率分布的交叉熵(即散度)來校準(zhǔn)詞元概率,從而判斷文本是否在模型預(yù)訓(xùn)練數(shù)據(jù)中。實(shí)驗(yàn)在 WikiMIA、BookMIA 和新構(gòu)建的中文基準(zhǔn) PatentMIA 上進(jìn)行,結(jié)果顯示 DC-PDD 在多數(shù)情況下優(yōu)于基線方法,在不同模型和數(shù)據(jù)上表現(xiàn)更穩(wěn)定。
5、CoGen: Learning from Feedback with Coupled Comprehension and Generation
(CoGen,結(jié)合理解和生成,從反饋中學(xué)習(xí))
來自康奈爾大學(xué)的研究團(tuán)隊(duì)研究了語言理解和生成能力的耦合,提出在與用戶交互中結(jié)合兩者以提升性能的方法。
具體通過參考游戲場(chǎng)景,部署模型與人類交互,收集反饋信號(hào)用于訓(xùn)練。采用聯(lián)合推理和數(shù)據(jù)共享策略,如將理解數(shù)據(jù)點(diǎn)轉(zhuǎn)換為生成數(shù)據(jù)點(diǎn)。
實(shí)驗(yàn)結(jié)果顯示,耦合方法使模型性能大幅提升,理解準(zhǔn)確率提高 19.48%,生成準(zhǔn)確率提高 26.07%,且數(shù)據(jù)效率更高。在語言方面,耦合系統(tǒng)的有效詞匯增加,與人類語言更相似,詞匯漂移減少。
杰出論文
再來看看杰出論文的獲獎(jiǎng)情況,此次共有20篇論文上榜。
GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory,香港科技大學(xué)研究團(tuán)隊(duì)完成,論文共同一作Wei Fan、Haoran Li。
團(tuán)隊(duì)提出了一個(gè)新框架,基于情境完整性理論來調(diào)整大語言模型使其符合隱私法律,提高其在不同情境下檢測(cè)隱私風(fēng)險(xiǎn)的能力。
Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge,南京大學(xué)團(tuán)隊(duì)完成,論文共同一作Jiahuan Li、Yiqing Cao。
論文研究了大語言模型在訓(xùn)練數(shù)據(jù)中存在沖突信息時(shí)的學(xué)習(xí)傾向。
科技巨頭獲獎(jiǎng)團(tuán)隊(duì)有微軟,Learning to Retrieve Iteratively for In-Context Learning提出了一種創(chuàng)造性的方法,模擬上下文學(xué)習(xí)示例的選擇作為馬爾可夫決策過程。
Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs,由Adobe、蘋果與羅馬大學(xué)研究人員聯(lián)合完成。
論文探討并挑戰(zhàn)了在跨文化機(jī)器翻譯中翻譯文化相關(guān)命名實(shí)體的傳統(tǒng)方法。
此外值得一提的是,華人學(xué)者、加州大學(xué)洛杉磯分校計(jì)算機(jī)科學(xué)系副教授Nanyun Peng團(tuán)隊(duì)這次贏麻了,她參與/指導(dǎo)的三篇論文都獲獎(jiǎng)了。
三項(xiàng)工作都是關(guān)于評(píng)估LLM在創(chuàng)意敘事生成方面的能力,分別為:
- Measuring Psychological Depth in Language Models(測(cè)量語言模型中的心理深度)
- Do LLMs Plan Like Human Writers? Comparing Journalist Coverage of Press Releases with LLMs(大語言模型能像人類作家一樣規(guī)劃嗎?通過與記者對(duì)新聞稿的報(bào)道比較來評(píng)估)
- Are Large Language Models Capable of Generating Human-Level Narratives?(大語言模型能生成人類水平的敘述嗎?)
以下是完整獲獎(jiǎng)名單:
最佳論文鏈接:
[1]https://arxiv.org/abs/2404.01247
[2]https://arxiv.org/abs/2407.00837
[3]https://arxiv.org/abs/2402.12865
[4]https://arxiv.org/abs/2409.14781
[5]https://www.arxiv.org/abs/2408.15992