自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多個(gè)中國團(tuán)隊(duì)斬獲EMNLP'24最佳論文!UCLA華人學(xué)者中三篇杰出論文,明年頂會(huì)落戶蘇州

人工智能 新聞
5篇中榜論文中,華人學(xué)者參與三篇,分別來自CMU、上海交通大學(xué)、中國科學(xué)院大學(xué)等機(jī)構(gòu)。

剛剛,EMNLP 2024最佳論文獎(jiǎng)新鮮出爐!

5篇中榜論文中,華人學(xué)者參與三篇,分別來自CMU、上海交通大學(xué)、中國科學(xué)院大學(xué)等機(jī)構(gòu)。

圖片

其中,Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method主要由中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)、中國科學(xué)院大學(xué)的學(xué)者完成。

論文一作Weichao Zhang;通訊作者郭嘉豐,現(xiàn)任中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任。

這項(xiàng)研究提出了一個(gè)新的數(shù)據(jù)集和方法,用于檢測(cè)給定文本是否為L(zhǎng)LM預(yù)訓(xùn)練數(shù)據(jù)的一部分,有助于提高LLM訓(xùn)練數(shù)據(jù)透明度。

圖片

EMNLP’24今年收錄論文總共2978篇,比去年增長(zhǎng)5%,其中2455篇主會(huì)議論文,523篇workshop論文。

圖片

除最佳論文外,杰出論文也揭曉了,超半數(shù)華人學(xué)者參與。

圖片

順便提一嘴,EMNLP 2025將于明年11月5-9日,在中國蘇州舉辦!

國內(nèi)學(xué)者們可以搓搓手準(zhǔn)備起來了~


接下來,具體康康獲獎(jiǎng)?wù)撐挠心男?/p>

上交大CMU等團(tuán)隊(duì)獲最佳論文

此次共有5項(xiàng)研究成果獲得EMNLP’24最佳論文獎(jiǎng)。

1、An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance
(圖像能表達(dá)千言萬語,但每個(gè)人都能傾聽嗎?關(guān)于圖像再創(chuàng)造的文化相關(guān)性)

圖片

這篇來自CMU的論文研究了圖像跨文化再創(chuàng)作任務(wù)。鑒于多媒體內(nèi)容興起,翻譯需涵蓋圖像等模態(tài),傳統(tǒng)翻譯局限于處理語音和文本中的語言,跨文化再創(chuàng)作應(yīng)運(yùn)而生。

作者構(gòu)建了三個(gè)包含SOTA生成模型的管道:e2e-instruct 直接編輯圖像,cap-edit 通過字幕和 LLM 編輯后處理圖像,cap-retrieve 利用編輯后的字幕檢索圖像,還創(chuàng)建了概念和應(yīng)用兩部分評(píng)估數(shù)據(jù)集。

結(jié)果發(fā)現(xiàn),當(dāng)前圖像編輯模型均未能完成這項(xiàng)任務(wù),但可以通過在循環(huán)中利用 LLM 和檢索器來改進(jìn)。

2、Towards Robust Speech Representation Learning for Thousands of Languages
(為數(shù)千種語言實(shí)現(xiàn)穩(wěn)健的語音表征學(xué)習(xí))

圖片

這篇來自CMU、上海交大、豐田工業(yè)大學(xué)芝加哥分校的論文,介紹了一種名為XEUS的跨語言通用語音編碼器,旨在處理多種語言和聲學(xué)環(huán)境下的語音。

研究通過整合現(xiàn)有數(shù)據(jù)集和新收集的數(shù)據(jù),構(gòu)建了包含 4057 種語言、超 100 萬小時(shí)數(shù)據(jù)的預(yù)訓(xùn)練語料庫,并提出新的自監(jiān)督任務(wù)(聲學(xué)去混響)增強(qiáng)模型魯棒性。研究結(jié)果顯示,XEUS 在多個(gè)下游任務(wù)中表現(xiàn)優(yōu)異,在 ML-SUPERB 基準(zhǔn)測(cè)試中超越了其他模型,如在多語言自動(dòng)語音識(shí)別任務(wù)中實(shí)現(xiàn)SOTA,且在語音翻譯、語音合成等任務(wù)中也表現(xiàn)出色。

該團(tuán)隊(duì)超半數(shù)都是華人,其中一作William Chen目前是CMU語言技術(shù)研究所的碩士生,此前獲得佛羅里達(dá)大學(xué)計(jì)算機(jī)科學(xué)和歷史學(xué)學(xué)士學(xué)位。

圖片

3、Backward Lens: Projecting Language Model Gradients into the Vocabulary Space
(逆向透鏡:將語言模型梯度投射到詞匯空間)

圖片

了解基于Transformer的語言模型如何學(xué)習(xí)和調(diào)用信息成為行業(yè)一個(gè)關(guān)鍵目標(biāo)。最近的可解釋性方法將前向傳遞獲得的權(quán)重和隱藏狀態(tài)投射到模型的詞匯表中,有助于揭示信息如何在語言模型中流動(dòng)。

來自以色列理工學(xué)院、特拉維夫大學(xué)的研究人員將這一方法擴(kuò)展到語言模型的后向傳遞和梯度。

首先證明,梯度矩陣可以被視為前向傳遞和后向傳遞輸入的低秩線性組合。然后,開發(fā)了將這些梯度投射到詞匯項(xiàng)目中的方法,并探索了新信息如何存儲(chǔ)在語言模型神經(jīng)元中的機(jī)制。

4、Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method
(大語言模型的預(yù)訓(xùn)練數(shù)據(jù)檢測(cè):基于散度的校準(zhǔn)方法)

圖片

這篇論文作者來自中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)、中國科學(xué)院大學(xué)、中關(guān)村實(shí)驗(yàn)室、阿姆斯特丹大學(xué)。

通訊作者郭嘉豐,現(xiàn)為中國科學(xué)院計(jì)算技術(shù)研究所研究員、中國科學(xué)院大學(xué)教授、北京人工智能研究院研究員,中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室主任。目前研究方向是信息檢索 (Neural IR) 和自然語言理解的神經(jīng)模型。

圖片

他們的研究旨在解決大語言模型預(yù)訓(xùn)練數(shù)據(jù)檢測(cè)問題,因模型開發(fā)者不愿透露訓(xùn)練數(shù)據(jù)細(xì)節(jié),現(xiàn)有方法在判斷文本是否為訓(xùn)練數(shù)據(jù)時(shí)存在局限。

基于這樣的原因,他們提出 DC-PDD 方法,通過計(jì)算文本的詞元概率分布與詞元頻率分布的交叉熵(即散度)來校準(zhǔn)詞元概率,從而判斷文本是否在模型預(yù)訓(xùn)練數(shù)據(jù)中。實(shí)驗(yàn)在 WikiMIA、BookMIA 和新構(gòu)建的中文基準(zhǔn) PatentMIA 上進(jìn)行,結(jié)果顯示 DC-PDD 在多數(shù)情況下優(yōu)于基線方法,在不同模型和數(shù)據(jù)上表現(xiàn)更穩(wěn)定。

5、CoGen: Learning from Feedback with Coupled Comprehension and Generation
(CoGen,結(jié)合理解和生成,從反饋中學(xué)習(xí))

圖片

來自康奈爾大學(xué)的研究團(tuán)隊(duì)研究了語言理解和生成能力的耦合,提出在與用戶交互中結(jié)合兩者以提升性能的方法。

具體通過參考游戲場(chǎng)景,部署模型與人類交互,收集反饋信號(hào)用于訓(xùn)練。采用聯(lián)合推理和數(shù)據(jù)共享策略,如將理解數(shù)據(jù)點(diǎn)轉(zhuǎn)換為生成數(shù)據(jù)點(diǎn)。

實(shí)驗(yàn)結(jié)果顯示,耦合方法使模型性能大幅提升,理解準(zhǔn)確率提高 19.48%,生成準(zhǔn)確率提高 26.07%,且數(shù)據(jù)效率更高。在語言方面,耦合系統(tǒng)的有效詞匯增加,與人類語言更相似,詞匯漂移減少。

杰出論文

再來看看杰出論文的獲獎(jiǎng)情況,此次共有20篇論文上榜。

GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory,香港科技大學(xué)研究團(tuán)隊(duì)完成,論文共同一作Wei Fan、Haoran Li。

團(tuán)隊(duì)提出了一個(gè)新框架,基于情境完整性理論來調(diào)整大語言模型使其符合隱私法律,提高其在不同情境下檢測(cè)隱私風(fēng)險(xiǎn)的能力。

圖片

Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge,南京大學(xué)團(tuán)隊(duì)完成,論文共同一作Jiahuan Li、Yiqing Cao。

論文研究了大語言模型在訓(xùn)練數(shù)據(jù)中存在沖突信息時(shí)的學(xué)習(xí)傾向。

圖片

科技巨頭獲獎(jiǎng)團(tuán)隊(duì)有微軟,Learning to Retrieve Iteratively for In-Context Learning提出了一種創(chuàng)造性的方法,模擬上下文學(xué)習(xí)示例的選擇作為馬爾可夫決策過程。

圖片

Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs,由Adobe、蘋果與羅馬大學(xué)研究人員聯(lián)合完成。

論文探討并挑戰(zhàn)了在跨文化機(jī)器翻譯中翻譯文化相關(guān)命名實(shí)體的傳統(tǒng)方法。

圖片

此外值得一提的是,華人學(xué)者、加州大學(xué)洛杉磯分校計(jì)算機(jī)科學(xué)系副教授Nanyun Peng團(tuán)隊(duì)這次贏麻了,她參與/指導(dǎo)的三篇論文都獲獎(jiǎng)了。

圖片

三項(xiàng)工作都是關(guān)于評(píng)估LLM在創(chuàng)意敘事生成方面的能力,分別為:

  • Measuring Psychological Depth in Language Models(測(cè)量語言模型中的心理深度)
  • Do LLMs Plan Like Human Writers? Comparing Journalist Coverage of Press Releases with LLMs(大語言模型能像人類作家一樣規(guī)劃嗎?通過與記者對(duì)新聞稿的報(bào)道比較來評(píng)估)
  • Are Large Language Models Capable of Generating Human-Level Narratives?(大語言模型能生成人類水平的敘述嗎?)

以下是完整獲獎(jiǎng)名單:

圖片
圖片
圖片圖片

最佳論文鏈接:
[1]https://arxiv.org/abs/2404.01247

[2]https://arxiv.org/abs/2407.00837
[3]https://arxiv.org/abs/2402.12865
[4]https://arxiv.org/abs/2409.14781
[5]https://www.arxiv.org/abs/2408.15992

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-11-10 12:53:35

論文AI

2022-12-13 15:14:45

論文

2021-10-28 09:23:17

論文學(xué)術(shù)數(shù)據(jù)

2024-11-08 11:06:07

2023-07-26 14:35:12

論文方法

2023-06-21 10:33:13

SIGMOD阿里云數(shù)據(jù)庫

2021-07-19 15:02:48

機(jī)器人人工智能算法

2024-06-20 10:39:49

2025-03-04 09:10:44

2023-12-11 13:41:23

2017-10-31 10:17:06

阿里

2025-02-24 12:33:28

2024-06-19 11:47:10

2024-05-17 10:54:51

2024-05-08 09:37:36

AI論文

2021-10-13 17:53:14

AI 數(shù)據(jù)人工智能

2024-08-14 11:35:48

2021-07-20 17:52:21

谷歌Android開發(fā)者
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)