ACL 2024獎(jiǎng)項(xiàng)公布:華科大破譯甲骨文最佳論文之一、GloVe時(shí)間檢驗(yàn)獎(jiǎng)
為期六天的 ACL 2024 正在泰國(guó)曼谷舉辦。
ACL 是計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議,由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)組織,每年舉辦一次。一直以來(lái),ACL 在 NLP 領(lǐng)域的學(xué)術(shù)影響力都位列第一,它也是 CCF-A 類(lèi)推薦會(huì)議。
今年的 ACL 大會(huì)已是第 62 屆,接收了 400 余篇 NLP 領(lǐng)域的前沿工作。昨天下午,大會(huì)公布了最佳論文等獎(jiǎng)項(xiàng)。此次,最佳論文獎(jiǎng) 7 篇(兩篇未公開(kāi))、最佳主題論文獎(jiǎng) 1 篇、杰出論文獎(jiǎng) 35 篇。
大會(huì)還評(píng)出了資源論文獎(jiǎng)(Resource Award)3 篇、社會(huì)影響力獎(jiǎng)(Social Impact Award)3 篇、時(shí)間檢驗(yàn)獎(jiǎng) 2 篇。
此外,本屆大會(huì)終身成就獎(jiǎng)?lì)C給了紐約大學(xué)計(jì)算機(jī)科學(xué)系教授 Ralph Grishman。
以下是具體的獲獎(jiǎng)信息。
最佳論文
論文 1:Mission: Impossible Language Models
- 作者:Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
- 機(jī)構(gòu):斯坦福大學(xué)、加州大學(xué)爾灣分校、得克薩斯大學(xué)奧斯汀分校
- 論文鏈接:https://arxiv.org/abs/2401.06416
論文簡(jiǎn)介:?jiǎn)棠匪够热苏J(rèn)為:對(duì)于人類(lèi)可能或不可能學(xué)會(huì)的語(yǔ)言,大型語(yǔ)言模型(LLM)的學(xué)習(xí)能力是一樣的。然而,幾乎沒(méi)有公開(kāi)的實(shí)驗(yàn)證據(jù)來(lái)支持這種說(shuō)法。
該研究開(kāi)發(fā)了一組具有不同復(fù)雜性的合成語(yǔ)言,每一種都是通過(guò)使用不自然的詞序和語(yǔ)法規(guī)則系統(tǒng)地改變英語(yǔ)數(shù)據(jù)而設(shè)計(jì)的,旨在合成人類(lèi)不可能學(xué)會(huì)的語(yǔ)言。
該研究進(jìn)行了廣泛的評(píng)估實(shí)驗(yàn),以評(píng)估 GPT-2 小模型學(xué)習(xí)這些「不可能語(yǔ)言」的能力,并且在整個(gè)訓(xùn)練的不同階段進(jìn)行這些評(píng)估,以比較每種語(yǔ)言的學(xué)習(xí)過(guò)程。該研究的核心發(fā)現(xiàn)是:與英語(yǔ)相比,GPT-2 很難學(xué)習(xí)「不可能語(yǔ)言」,這挑戰(zhàn)了喬姆斯基等人的主張。
更重要的是,該研究希望其方法能夠開(kāi)辟一條富有成效的探究路線,讓不同的 LLM 架構(gòu)在各種「不可能語(yǔ)言」上進(jìn)行測(cè)試,以了解如何將 LLM 用作認(rèn)知和類(lèi)型學(xué)調(diào)查工具。
論文 2:Why are Sensitive Functions Hard for Transformers?
- 作者:Michael Hahn, Mark Rofin
- 機(jī)構(gòu):薩爾大學(xué)
- 論文鏈接:https://arxiv.org/abs/2402.09963
論文簡(jiǎn)介:實(shí)驗(yàn)研究已經(jīng)確定了 transformer 的一系列可學(xué)習(xí)性偏置和局限性,例如學(xué)習(xí)計(jì)算 PARITY 等簡(jiǎn)單形式語(yǔ)言的持續(xù)困難,以及對(duì)低度(low-degree)函數(shù)的偏置。然而,理論理解仍然有限,現(xiàn)有的表達(dá)理論要么高估要么低估現(xiàn)實(shí)的學(xué)習(xí)能力。
該研究證明,在 transformer 架構(gòu)下,損失函數(shù)景觀(loss landscape)受到輸入空間靈敏度的限制:輸出對(duì)輸入串的許多部分敏感的 transformer 位于參數(shù)空間中的孤立點(diǎn),導(dǎo)致泛化中的低靈敏度偏置。
該研究從理論上和實(shí)驗(yàn)上表明,該理論統(tǒng)一了關(guān)于 transformer 學(xué)習(xí)能力和偏置的廣泛實(shí)驗(yàn)觀察,例如它們對(duì)低靈敏度和低度的泛化偏置,以及奇偶校驗(yàn)長(zhǎng)度泛化的困難。這表明,了解 transformer 的歸納偏置(inductive biases)不僅需要研究其原則上的表達(dá)能力,還需要研究其損失函數(shù)景觀。
論文 3:Deciphering Oracle Bone Language with Diffusion Models
- 作者:Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han 等
- 機(jī)構(gòu):華中科技大學(xué)、阿德萊德大學(xué)、安陽(yáng)師范學(xué)院、華南理工大學(xué)
- 論文鏈接:https://arxiv.org/pdf/2406.00684
論文簡(jiǎn)介:甲骨文(Oracle Bone Script,OBS)起源于約 3000 年前的中國(guó)商朝,是語(yǔ)言史上的基石,早于許多既定的書(shū)寫(xiě)系統(tǒng)。盡管發(fā)現(xiàn)了數(shù)千份銘文,但仍有大量的甲骨文未被破譯,從而為這一古老的語(yǔ)言蒙上了一層神秘的面紗?,F(xiàn)代 AI 技術(shù)的出現(xiàn)為甲骨文破譯開(kāi)辟了新的領(lǐng)域,對(duì)嚴(yán)重依賴大型文本語(yǔ)料庫(kù)的傳統(tǒng) NLP 方法提出了挑戰(zhàn)。
本文介紹了一種采用圖像生成技術(shù)的新方法,開(kāi)發(fā)出了針對(duì)甲骨文破譯優(yōu)化的擴(kuò)散模型 Oracle Bone Script Decipher (OBSD)。利用條件擴(kuò)散策略,OBSD 為甲骨文破譯生成了重要的線索,并為 古代語(yǔ)言的 AI 輔助分析開(kāi)辟了新方向。為了驗(yàn)證有效性,研究者在甲骨文數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),定量結(jié)果證明了 OBSD 的有效性。
論文 4:Causal Estimation of Memorisation Profiles
- 作者:Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
- 機(jī)構(gòu):劍橋大學(xué)、蘇黎世聯(lián)邦理工學(xué)院
- 論文鏈接:https://arxiv.org/pdf/2406.04327
論文簡(jiǎn)介:理解語(yǔ)言模型中的記憶具有實(shí)際和社會(huì)意義,例如研究模型的訓(xùn)練動(dòng)態(tài)或防止版權(quán)侵權(quán)。以往的研究將記憶定義為「使用實(shí)例進(jìn)行的訓(xùn)練」對(duì)「模型預(yù)測(cè)該實(shí)例的能力」的因果關(guān)系。這個(gè)定義依賴于一個(gè)反事實(shí):觀察如果模型沒(méi)有看到該實(shí)例會(huì)發(fā)生什么的能力?,F(xiàn)有的方法難以提供對(duì)這種反事實(shí)的計(jì)算效率和準(zhǔn)確性估計(jì)。此外,這些方法通常估計(jì)模型架構(gòu)的記憶,而不是特定模型實(shí)例的記憶。
本文填補(bǔ)了一個(gè)重要空白,提出了一種基于計(jì)量經(jīng)濟(jì)學(xué)的差異 - 差異設(shè)計(jì)來(lái)估計(jì)記憶的全新、原則性和高效方法。通過(guò)這種方法,研究者在整個(gè)訓(xùn)練過(guò)程中僅觀察模型在一小部分實(shí)例上的行為來(lái)描述模型的記憶概況,即其在訓(xùn)練過(guò)程中的記憶趨勢(shì)。在使用 Pythia 模型套件進(jìn)行實(shí)驗(yàn)時(shí),他們發(fā)現(xiàn)記憶 (i) 在較大模型中更強(qiáng)大、更持久,(ii) 由數(shù)據(jù)順序和學(xué)習(xí)率決定,以及 (iii) 在不同模型大小之間具有穩(wěn)定的趨勢(shì),因此較大模型中的記憶可以從較小模型中預(yù)測(cè)出來(lái)。
論文 5:Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model
- 作者:Ahmet üstün, Viraat Aryabumi, Zheng Xin Yong, Wei-Yin Ko 等
- 機(jī)構(gòu):Cohere、布朗大學(xué)等
- 論文鏈接:https://arxiv.org/pdf/2402.07827
論文簡(jiǎn)介:大型語(yǔ)言模型 (LLM) 的最新突破集中在少數(shù)數(shù)據(jù)豐富的語(yǔ)言上。如何才能將突破的途徑擴(kuò)展到其他語(yǔ)言之外?該研究引入了 Aya,這是一種大規(guī)模多語(yǔ)言生成語(yǔ)言模型,它遵循 101 種語(yǔ)言指令,其中超過(guò) 50% 的語(yǔ)言被視為資源較少。Aya 在大多數(shù)任務(wù)上的表現(xiàn)都優(yōu)于 mT0 和 BLOOMZ,同時(shí)覆蓋的語(yǔ)言數(shù)量是 mT0 和 BLOOMZ 的兩倍。
此外,該研究還引入了廣泛的新評(píng)估套件,將多語(yǔ)言評(píng)估的最新水平擴(kuò)展到 99 種語(yǔ)言。最后,該研究對(duì)最佳微調(diào)混合組成、數(shù)據(jù)剪枝以及模型的毒性、偏差和安全性進(jìn)行了詳細(xì)調(diào)查。
論文 6:Semisupervised Neural Proto-Language Reconstruction
- 作者:Liang Lu 、 Peirong Xie 、 David R. Mortensen
- 機(jī)構(gòu):CMU、南加州大學(xué)
- 論文鏈接:https://arxiv.org/pdf/2406.05930
獲獎(jiǎng)理由:這項(xiàng)開(kāi)創(chuàng)性的研究旨在半自動(dòng)化歷史語(yǔ)言學(xué)中的原型語(yǔ)言重構(gòu)任務(wù),提出了一種新的半監(jiān)督架構(gòu)。通過(guò)在「母語(yǔ) - 原型」重構(gòu)中引入「原型 - 母語(yǔ)」反射過(guò)程,這種方法優(yōu)于之前的監(jiān)督方法。這篇論文很好地展示了現(xiàn)代計(jì)算模型(如神經(jīng)編碼 - 解碼器)如何為語(yǔ)言學(xué)作出的貢獻(xiàn)。
論文 7:Natural Language Satisfiability: Exploring the Problem Distribution and Evaluating Transformer-based Language Models(未公開(kāi))
- 作者:Tharindu Madusanka、Ian Pratt-Hartmann、Riza Batista-Navarro
獲獎(jiǎng)理由:該論文清晰地描述了一個(gè)用于邏輯推理的合成評(píng)估數(shù)據(jù)集。這是對(duì)大量推理數(shù)據(jù)集的一種良好補(bǔ)充,因?yàn)檫@些數(shù)據(jù)集中并不明確測(cè)量哪些能力。從理論上講,確實(shí)有理由預(yù)期某些子集比其他子集更難,而這些預(yù)期在論文中得到了驗(yàn)證。在每個(gè)類(lèi)別中,作者都特別注意抽取那些真正具有挑戰(zhàn)性的案例。
時(shí)間檢驗(yàn)獎(jiǎng)
ACL 時(shí)間檢驗(yàn)獎(jiǎng)獎(jiǎng)勵(lì)的是對(duì)自然語(yǔ)言處理和計(jì)算語(yǔ)言學(xué)領(lǐng)域產(chǎn)生長(zhǎng)期影響的榮譽(yù)論文,分為 10 年前(2014 年)和 25 年前(1999 年)兩個(gè)獎(jiǎng)項(xiàng),每年最多頒發(fā)兩篇論文。
論文 1:GloVe: Global Vectors for Word Representation
- 作者:Jeffrey Pennington, Richard Socher, Christopher D. Manning
- 機(jī)構(gòu):斯坦福大學(xué)
- 論文鏈接:https://aclanthology.org/D14-1162.pdf
論文簡(jiǎn)介:學(xué)習(xí)詞的向量空間表征的方法已經(jīng)在使用向量算術(shù)捕獲細(xì)粒度的語(yǔ)義和句法規(guī)則方面取得了成功,但是句法規(guī)則仍不透明。該研究分析并明確了為了讓句法規(guī)則出現(xiàn)在詞向量中,模型需要具備哪些屬性。
該研究提出了一個(gè)新的全局對(duì)數(shù)線性回歸模型 ——GloVe,旨在學(xué)習(xí)詞的向量表征。該模型結(jié)合了全局矩陣分解和局部上下文窗口兩種方法的優(yōu)點(diǎn)。
GloVe 在詞類(lèi)比任務(wù)上取得了 75% 的最佳性能,并在詞相似性任務(wù)和命名實(shí)體識(shí)別方面優(yōu)于相關(guān)模型。
獲獎(jiǎng)理由:詞嵌入是 2013 年至 2018 年間自然語(yǔ)言處理(NLP)深度學(xué)習(xí)方法的基石,并且持續(xù)發(fā)揮著顯著影響。它們不僅增強(qiáng)了 NLP 任務(wù)的性能,而且在計(jì)算語(yǔ)義學(xué)方面也產(chǎn)生了顯著影響,例如在詞語(yǔ)相似性和類(lèi)比上。兩種最有影響力的詞嵌入方法可能是 skip-gram/CBOW 和 GloVe。與 skip-gram 相比,GloVe 提出得較晚。它的相對(duì)優(yōu)勢(shì)在于概念上的簡(jiǎn)單性,直接根據(jù)詞之間的分布特性優(yōu)化向量空間相似性,而不是從簡(jiǎn)化的語(yǔ)言建模角度間接作為一組參數(shù)。
論文 2:Measures of Distributional Similarity
- 作者:Lillian Lee
- 機(jī)構(gòu):康奈爾大學(xué)
- 論文鏈接:https://aclanthology.org/P99-1004.pdf
論文簡(jiǎn)介:作者研究了分布相似性度量,目的是提高對(duì)未見(jiàn)共現(xiàn)事件的概率估計(jì)。他們的貢獻(xiàn)有三個(gè)方面:對(duì)一系列廣泛的度量方法進(jìn)行實(shí)證比較;基于它們所包含的信息對(duì)相似性函數(shù)進(jìn)行分類(lèi);引入了一種新的函數(shù),該函數(shù)在評(píng)估潛在代理分布方面更為優(yōu)越。
終身成就獎(jiǎng)
ACL 的終身成就獎(jiǎng)?lì)C給了 Ralph Grishman。Ralph Grishman 是紐約大學(xué)計(jì)算機(jī)科學(xué)系的教授,專注于自然語(yǔ)言處理(NLP)領(lǐng)域的研究。他是 Proteus Project 的創(chuàng)始人,該項(xiàng)目在信息抽?。↖E)方面做出了重大貢獻(xiàn),推動(dòng)了該領(lǐng)域的發(fā)展。
他還開(kāi)發(fā)了 Java Extraction Toolkit (JET),這是一個(gè)廣泛使用的信息抽取工具,提供了多種語(yǔ)言分析組件,如句子分割、命名實(shí)體標(biāo)注、時(shí)間表達(dá)標(biāo)注與規(guī)范化、詞性標(biāo)注、部分解析和共指分析。這些組件可以根據(jù)不同應(yīng)用組合成管道,既可用于單個(gè)句子的交互分析,也可用于整篇文檔的批量分析。此外,JET 還提供了簡(jiǎn)單工具用于文檔的標(biāo)注和顯示,并包括完整的流程以按照 ACE(自動(dòng)內(nèi)容抽?。┮?guī)范進(jìn)行實(shí)體、關(guān)系和事件的抽取。
Grishman 教授的工作涵蓋了多個(gè) NLP 的核心問(wèn)題,并對(duì)現(xiàn)代語(yǔ)言處理技術(shù)產(chǎn)生了深遠(yuǎn)的影響。
35 篇杰出論文
- 論文 1:Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models
- 作者:Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Qing Li, Yong Jiang, Zhihao Jia
- 機(jī)構(gòu):CMU、清華大學(xué)、鵬城實(shí)驗(yàn)室等
- 論文鏈接:https://arxiv.org/pdf/2401.07159
- 論文 2:L-Eval: Instituting Standardized Evaluation for Long Context Language Models
- 作者:Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong, Xipeng Qiu
- 機(jī)構(gòu):復(fù)旦大學(xué)、香港大學(xué)、伊利諾伊大學(xué)厄巴納 - 香檳分校、上海 AI Lab
- 論文鏈接:https://arxiv.org/abs/2307.11088
- 論文 3:Causal-Guided Active Learning for Debiasing Large Language Models
- 論文鏈接:https://openreview.net/forum?id=idp_1Q6F-lC
- 論文 4:CausalGym: Benchmarking causal interpretability methods on linguistic tasks
- 作者:Aryaman Arora, Dan Jurafsky, Christopher Potts
- 機(jī)構(gòu):斯坦福大學(xué)
- 論文鏈接:https://arxiv.org/abs/2402.12560
- 論文 5:Don't Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration
- 作者:Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Vidhisha Balachandran, Yulia Tsvetkov
- 機(jī)構(gòu):華盛頓大學(xué)、加州大學(xué)伯克利分校、香港科技大學(xué)、CMU
- 論文鏈接:https://arxiv.org/abs/2402.00367
- 論文 6:Speech Translation with Speech Foundation Models and Large Language Models: What is There and What is Missing?
- 作者:Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli
- 機(jī)構(gòu):意大利布魯諾?凱斯勒基金會(huì)
- 論文鏈接:https://arxiv.org/abs/2402.12025
- 論文 7:Must NLP be Extractive?
- 作者:Steven Bird
- 機(jī)構(gòu):查爾斯達(dá)爾文大學(xué)
- 論文鏈接:https://drive.google.com/file/d/1hvF7_WQrou6CWZydhymYFTYHnd3ZIljV/view
- 論文 8:IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators
- 作者:Indraneil Paul、Goran Glava?、Iryna Gurevych
- 機(jī)構(gòu):達(dá)姆施塔特工業(yè)大學(xué)等
- 論文鏈接:https://arxiv.org/abs/2403.03894
- 論文 9:MultiLegalPile: A 689GB Multilingual Legal Corpus
- 作者:Matthias Stürmer 、 Veton Matoshi 等
- 機(jī)構(gòu):伯爾尼大學(xué)、斯坦福大學(xué)等
- 論文鏈接:https://arxiv.org/pdf/2306.02069
- 論文 10:PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety
- 作者: Zaibin Zhang 、 Yongting Zhang 、 Lijun Li 、 Hongzhi Gao 、 Lijun Wang 、 Huchuan Lu 、 Feng Zhao 、 Yu Qiao、Jing Shao
- 機(jī)構(gòu):上海人工智能實(shí)驗(yàn)室、大連理工大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)
- 論文鏈接:https://arxiv.org/pdf/2401.11880
- 論文 11:Can Large Language Models be Good Emotional Supporter? Mitigating Preference Bias on Emotional Support Conversation
- 作者:Dongjin Kang、Sunghwan Kim 等
- 機(jī)構(gòu):延世大學(xué)等
- 論文鏈接:https://arxiv.org/pdf/2402.13211
- 論文 12:Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models
- 作者:Paul R?ttger 、 Valentin Hofmann 等
- 機(jī)構(gòu):博科尼大學(xué)、艾倫人工智能研究院等
- 論文鏈接:https://arxiv.org/pdf/2402.16786
- 論文 13:Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
- 作者:Mosh Levy 、 Alon Jacoby 、 Yoav Goldberg
- 機(jī)構(gòu):巴伊蘭大學(xué)、艾倫人工智能研究院
- 論文鏈接:https://arxiv.org/pdf/2402.14848
- 論文 14:Do Llamas Work in English? On the Latent Language of Multilingual Transformers
- 作者:Chris Wendler 、 Veniamin Veselovsky 等
- 機(jī)構(gòu):洛桑聯(lián)邦理工學(xué)院
- 論文鏈接:https://arxiv.org/pdf/2402.10588
- 論文 15:Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models
- 作者:Zachary Horvitz 、 Jingru Chen 等
- 機(jī)構(gòu):哥倫比亞大學(xué)、洛桑聯(lián)邦理工學(xué)院
- 論文鏈接:https://arxiv.org/pdf/2403.00794
- 論文 16:Estimating the Level of Dialectness Predicts Inter-annotator Agreement in Multi-dialect Arabic Datasets
- 作者:Amr Keleg, Walid Magdy, Sharon Goldwater
- 機(jī)構(gòu):愛(ài)丁堡大學(xué)
- 論文鏈接:https://arxiv.org/pdf/2405.11282
- 論文 17:G-DlG: Towards Gradient-based Dlverse and hiGh-quality Instruction Data Selection for Machine Translation
- 作者:Xingyuan Pan, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Shanbo Cheng
- 機(jī)構(gòu):ByteDance Research
- 論文鏈接:https://arxiv.org/pdf/2405.12915
- 論文 18:Media Framing: A typology and Survey of Computational Approaches Across Disciplines
- 作者:Yulia Otmakhova, Shima Khanehzar, Lea Frermann
- 論文鏈接:https://openreview.net/pdf?id=9AV_zM56pwj
- 論文 19:SPZ: A Semantic Perturbation-based Data Augmentation Method with Zonal-Mixing for Alzheimer's Disease Detection
- 作者:FangFang Li、Cheng Huang、PuZhen Su、Jie Yin
- 論文 20:Greed is All You Need: An Evaluation of Tokenizer Inference Methods
- 機(jī)構(gòu):內(nèi)蓋夫本?古里安大學(xué)、麻省理工學(xué)院
- 作者:Omri Uzan、Craig W.Schmidt、Chris Tanner、Yuval Pinter
- 論文鏈接:https://arxiv.org/abs/2403.01289
- 論文 21:Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't
- 機(jī)構(gòu):圣母大學(xué)(美國(guó))
- 作者:Chihiro Taquchi、David Chiang
- 論文鏈接:https://arxiv.org/abs/2406.09202
- 論文 22:Steering Llama 2 via Contrastive Activation Addition
- 機(jī)構(gòu):Anthropic、哈佛大學(xué)、哥廷根大學(xué)(德國(guó))、 Center for Human-Compatible AI
- 作者:Nina Rimsky、Nick Gabrieli、Julian Schulz、Meg Tong、Evan J Hubinger、Alexander Matt Turner
- 論文鏈接:https://arxiv.org/abs/2312.06681
- 論文 23:EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities
- 機(jī)構(gòu):清華大學(xué) - 深圳國(guó)際研究生院、清華大學(xué)
- 作者:Nian Li、Chen Gao、Mingyu Li、Yong Li、Qingmin Liao
- 論文鏈接:https://arxiv.org/abs/2310.10436
- 論文 24:M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models
- 機(jī)構(gòu):香港中文大學(xué)、華為諾亞方舟實(shí)驗(yàn)室、香港科技大學(xué)
- 作者:Wai-Chung Kwan、Xingshan Zeng、Yufei Wang、Yusen Sun、Liangyou Li、Lifeng Shang、Qun Liu、Kam-Fai Wong
- 論文鏈接:https://arxiv.org/abs/2310.19240
- 論文 25:CHECKWHY: Causal Fact Verification via Argument Structure
- 作者:Jiasheng Si、Yibo Zhao、Yingjie Zhu、Haiyang Zhu、Wenpeng Lu、Deyu Zhou
- 論文 26:On Efficient and Statistical Quality Estimation for Data Annotation
- 作者:Jan-Christoph Klie,Juan Haladjian,Marc Kirchner,Rahul Nair
- 機(jī)構(gòu):UKP Lab,、TU Darmstadt 、蘋(píng)果公司
- 論文鏈接:https://arxiv.org/pdf/2405.11919
- 論文 27:Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!
- 作者:Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao
- 機(jī)構(gòu):上海人工智能實(shí)驗(yàn)室
- 論文鏈接:https://arxiv.org/pdf/2402.12343
- 論文 28:IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages
- 作者:Mohammed Safi Ur Rahman Khan, Priyam Mehta, Ananth Sankar 等
- 機(jī)構(gòu):Nilekani Centre at AI4Bharat、印度理工學(xué)院(馬德拉斯)、微軟等
- 論文鏈接:https://arxiv.org/pdf/2403.06350
- 論文 29:MultiPICo: Multilingual Perspectivist lrony Corpus
- 作者:Silvia Casola, Simona Frenda, Soda Marem Lo, Erhan Sezerer等
- 機(jī)構(gòu):都靈大學(xué)、aequa-tech、亞馬遜開(kāi)發(fā)中心(意大利)等
- 論文鏈接:https://assets.amazon.science/08/83/9b686f424c89b08e8fa0a6e1d020/multipico-multilingual-perspectivist-irony-corpus.pdf
- 論文 30:MMToM-QA: Multimodal Theory of Mind Question Answering
- 作者:Chuanyang Jin, Yutong Wu, Jing Cao, jiannan Xiang等
- 機(jī)構(gòu):紐約大學(xué)、哈佛大學(xué)、MIT、加州大學(xué)圣迭戈分校、弗吉尼亞大學(xué)、約翰霍普金斯大學(xué)
- 論文鏈接:https://arxiv.org/pdf/2401.08743
- 論文 31:MAP's not dead yet: Uncovering true language model modes by conditioning away degeneracy
- 作者:Davis Yoshida, Kartik Goyal, Kevin Gimpel
- 機(jī)構(gòu):豐田工業(yè)大學(xué)芝加哥分校、佐治亞理工學(xué)院
- 論文鏈接:https://arxiv.org/pdf/2311.08817
- 論文 32:NounAtlas: Filling the Gap in Nominal Semantic Role Labeling
- 作者:Roberto Navigli, Marco Lo Pinto, Pasquale Silvestri等
- 論文 33:The Earth is Flat because.. lnvestigating LLMs' Belief towards Misinformation via PersuasiveConversation
- 作者:Rongwu Xu, Brian S. Lin, Shujian Yang, Tiangi Zhang等
- 機(jī)構(gòu):清華大學(xué)、上海交通大學(xué)、斯坦福大學(xué)、南洋理工大學(xué)
- 論文鏈接:https://arxiv.org/pdf/2312.09085
- 論文 34:Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation
- 作者:Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim等
- 機(jī)構(gòu):韓國(guó)科學(xué)技術(shù)院(KAIST)
- 論文鏈接:https://arxiv.org/pdf/2406.07867
- 論文 35:Word Embeddings Are Steers for Language Models
- 作者:Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek F. Abdelzaher, Heng Ji
- 機(jī)構(gòu):伊利諾伊大學(xué)厄巴納 - 香檳分校
- 論文鏈接:https://arxiv.org/pdf/2305.12798
最佳主題論文獎(jiǎng)
論文:OLMo:Accelerating the Science of Language Models
- 作者:Dirk Groeneveld 、 Iz Beltagy 等
- 機(jī)構(gòu):艾倫人工智能研究院、華盛頓大學(xué)等
- 論文鏈接:https://arxiv.org/pdf/2402.00838
獲獎(jiǎng)理由:這項(xiàng)工作是朝著大型語(yǔ)言模型訓(xùn)練的透明性和可重復(fù)性邁出的重要一步,這是社區(qū)在取得進(jìn)展(或至少為了讓非行業(yè)巨頭的其他研究者也能貢獻(xiàn)進(jìn)展)方面急需的。
資源論文獎(jiǎng)
3 篇論文獲得 Resource Paper Award。
論文 1:Latxa: An Open Language Model and Evaluation Suite for Basque
機(jī)構(gòu):西班牙巴斯克大學(xué)
- 作者:Julen Etxaniz、Oscar Sainz、Naiara Perez、Itziar Aldabe、German Rigau、Eneko Agirre、Aitor Ormazabal、Mikel Artetxe、Aitor Soroa
- 鏈接:https://arxiv.org/pdf/2403.20266
獲獎(jiǎng)理由:該論文細(xì)致描述了語(yǔ)料收集、數(shù)據(jù)集評(píng)估的細(xì)節(jié)。盡管是巴斯克語(yǔ)言相關(guān)研究,這一方法論可擴(kuò)展到其他低資源語(yǔ)言大模型的構(gòu)建上。
論文 2:Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
- 機(jī)構(gòu):艾倫人工智能研究院、加州伯克利大學(xué)等
- 作者:Luca Soldaini、Rodney Kinney 等
- 鏈接:https://arxiv.org/abs/2402.00159
獲獎(jiǎng)理由:該論文展示了訓(xùn)練大語(yǔ)言模型準(zhǔn)備數(shù)據(jù)集時(shí)數(shù)據(jù)管理的重要性。這為社區(qū)內(nèi)廣大人群提供了非常有價(jià)值的洞見(jiàn)。
論文 3:AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
- 機(jī)構(gòu):紐約州立大學(xué)石溪分校、艾倫人工智能研究院等
- 作者:Harsh Trivedi, Tushar Khot 等
- 鏈接:https://arxiv.org/abs/2407.18901
獲獎(jiǎng)理由:該研究是構(gòu)建交互環(huán)境模擬與評(píng)估方面非常重要、驚艷的工作。它將鼓勵(lì)大家為社區(qū)多多產(chǎn)出硬核動(dòng)態(tài)基準(zhǔn)。
社會(huì)影響力獎(jiǎng)
3 篇論文獲得 Social Impact Award。
論文 1:How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs
- 作者:Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang等
- 機(jī)構(gòu):弗吉尼亞理工大學(xué)、中國(guó)人民大學(xué)、加州大學(xué)戴維斯分校、斯坦福大學(xué)
- 論文鏈接:https://arxiv.org/pdf/2401.06373
獲獎(jiǎng)理由:本文探討了 AI 安全主題 —— 越獄,研究了社會(huì)科學(xué)研究領(lǐng)域內(nèi)開(kāi)發(fā)的一種方法。該研究非常有趣,并有可能對(duì)社區(qū)產(chǎn)生重大影響。
論文 2:DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages
- 作者:Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja 等
- 機(jī)構(gòu):?jiǎn)讨蚊飞髮W(xué)、華盛頓大學(xué)、圣母大學(xué)、 RC Athena
- 論文鏈接:https://arxiv.org/pdf/2403.11009
獲獎(jiǎng)理由:方言變異是 NLP 和人工智能領(lǐng)域未能得到充分研究的現(xiàn)象。然而,從語(yǔ)言和社會(huì)的角度來(lái)看,它的研究具有極高的價(jià)值,對(duì)應(yīng)用也有重要的影響。本文提出了一個(gè)非常新穎的基準(zhǔn)來(lái)研究 LLM 時(shí)代的這個(gè)問(wèn)題。
論文 3:Having Beer after Prayer? Measuring Cultural Bias in Large LanguageModels
- 作者:Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
- 機(jī)構(gòu):佐治亞理工學(xué)院
- 論文鏈接:https://arxiv.org/pdf/2305.14456
獲獎(jiǎng)理由:本文展示了 LLM 時(shí)代的一個(gè)重要問(wèn)題:文化偏見(jiàn)。本文研究了阿拉伯文化和語(yǔ)言環(huán)境,結(jié)果表明,在設(shè)計(jì) LLM 時(shí),我們需要考慮文化差異。因此,同樣的研究可以復(fù)制到其他文化中,以概括和評(píng)估其他文化是否也受到這個(gè)問(wèn)題的影響。