10年前，word2vec經(jīng)典論文就預(yù)定了今天的NeurIPS時間檢驗(yàn)獎

作者：機(jī)器之心 2023-12-12 12:43:36

在 ChatGPT 引爆 AI 熱潮的 2023，一項(xiàng)推動NLP新時代到來的研究拿到了 NeurIPS 時間檢驗(yàn)獎。

NeurIPS 是當(dāng)前全球最負(fù)盛名的 AI 學(xué)術(shù)會議之一，全稱是 Neural Information Processing Systems，神經(jīng)信息處理系統(tǒng)大會，通常在每年 12 月由 NeurIPS 基金會主辦。大會討論的內(nèi)容包含深度學(xué)習(xí)、計(jì)算機(jī)視覺、大規(guī)模機(jī)器學(xué)習(xí)、學(xué)習(xí)理論、優(yōu)化、稀疏理論等眾多細(xì)分領(lǐng)域。

12 月 10 日，NeurIPS 2023 在美國路易斯安那州新奧爾良市拉開帷幕。根據(jù)官網(wǎng)博客公布的數(shù)據(jù)，今年大會收到的論文投稿數(shù)量創(chuàng)造了新紀(jì)錄，達(dá)到 13321 篇，由 1100 名領(lǐng)域主席、100 名高級領(lǐng)域主席和 396 名倫理審稿人審查，其中 3584 篇論文被接收。

剛剛，NeurIPS 官方公布了 2023 年度的獲獎?wù)撐?，包括時間檢驗(yàn)獎、兩篇杰出論文、兩篇杰出論文 runner-up、一個杰出數(shù)據(jù)集和一個杰出基準(zhǔn)，其中大部分論文都是圍繞大型語言模型（LLM）展開的工作。值得注意的是，十年前發(fā)布的 word2vec 相關(guān)論文摘得了時間檢驗(yàn)獎，可謂實(shí)至名歸。

以下是獲獎?wù)撐牡木唧w信息。

時間檢驗(yàn)獎

今年的時間檢驗(yàn)獎頒給了十年前的 NeurIPS 論文「Distributed Representations of Words and Phrases and their Compositionality」。

這篇論文由當(dāng)時都還在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 等人撰寫，被引量超過 4 萬次。

論文地址：https://arxiv.org/pdf/1310.4546.pdf

NeurIPS 官方給出的頒獎理由是：這項(xiàng)工作引入了開創(chuàng)性的詞嵌入技術(shù) word2vec，展示了從大量非結(jié)構(gòu)化文本中學(xué)習(xí)的能力，推動了自然語言處理新時代的到來。

在機(jī)器之心原創(chuàng)技術(shù)分析文章《從 word2vec 開始，說下 GPT 龐大的家族系譜》中，我們曾介紹過 word2vec 的重要性。Word2Vec 和 Glove 等詞嵌入方法可以說是當(dāng)前最為熱門的 GPT 家族老祖級別的研究，引領(lǐng)了后續(xù)龐大的 NLP「家族集團(tuán)」，也為整個 NLP 技術(shù)的蓬勃發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。

從 Word2Vec 等詞嵌入技術(shù)開始到后續(xù)的重要模型

機(jī)器之心整理的重要 NLP 模型發(fā)展脈絡(luò)

所以說，在大模型備受關(guān)注的 2023 年，Word2vec 獲得 NeurIPS 的時間檢驗(yàn)獎也實(shí)至名歸了。

這里補(bǔ)充一句，其實(shí)提到 Word2vec，首篇論文應(yīng)該是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。而投稿到當(dāng)年 NeurIPS 這篇「Distributed Representations of Words and Phrases and their Compositionality」算是真正讓 Word2vec 被廣泛應(yīng)用的改進(jìn)論文。

如果有讀者想要詳細(xì)了解、學(xué)習(xí) Word2vec，也可以查閱機(jī)器之心原創(chuàng)技術(shù)分析文章《詞嵌入的經(jīng)典方法，六篇論文遍歷 Word2vec 的另類應(yīng)用》。

Main Track 杰出論文獎

獲獎?wù)撐?1：Privacy Auditing with One (1) Training Run

論文地址：https://arxiv.org/abs/2305.08846
機(jī)構(gòu)：Google

摘要：本文提出了一種通過單次訓(xùn)練來檢查差分隱私機(jī)器學(xué)習(xí)系統(tǒng)的方案。該方案利用了差分隱私機(jī)器學(xué)習(xí)系統(tǒng)能夠獨(dú)立添加或刪除多個訓(xùn)練示例的并行性。研究者們從這一點(diǎn)入手，分析了差分隱私和統(tǒng)計(jì)泛化的聯(lián)系，從而避免了群體隱私的成本。這種方案對算法的假設(shè)要求極低，可應(yīng)用于黑盒或白盒環(huán)境。研究者們在 DP-SGD 中運(yùn)用了這項(xiàng)方案，以檢驗(yàn)其有效性。在 DP-SGD 中，本文中提出的框架只需要訓(xùn)練一個模型，就能實(shí)現(xiàn)有意義的經(jīng)驗(yàn)隱私下界。相比之下，標(biāo)準(zhǔn)方法需要訓(xùn)練數(shù)百個模型。

獲獎?wù)撐?2：Are Emergent Abilities of Large Language Models a Mirage?

論文地址：https://arxiv.org/abs/2304.15004
機(jī)構(gòu)：斯坦福大學(xué)

摘要：最近有研究稱，大語言模型「涌現(xiàn)」出了在小規(guī)模模型中不存在的能力。大模型「涌現(xiàn)」能力之所以吸引人，有兩個原因：一是其突現(xiàn)性，這些能力幾乎是一瞬間出現(xiàn)的；二是涌現(xiàn)的能力具體將在哪種規(guī)模的模型中出現(xiàn)，不可預(yù)測。因此，研究者們對涌現(xiàn)能力提出了一種新解釋：對于特定的任務(wù)和模型家族，在分析固定的模型輸出時，「涌現(xiàn)」能力的出現(xiàn)是由于研究者選擇了特定的度量標(biāo)準(zhǔn)，而不是模型的表現(xiàn)隨規(guī)模發(fā)生了根本性的變化。

具體來說，非線性或者不連續(xù)度量會產(chǎn)生明顯的「涌現(xiàn)」能力，而線性或連續(xù)度量則會產(chǎn)生平滑、連續(xù)、可預(yù)測的模型性能變化。研究者們在一個簡單的數(shù)學(xué)模型中提出了這項(xiàng)新解釋，并通過三種互補(bǔ)的方式對其進(jìn)行了檢驗(yàn)。首先，他們在 InstructGPT/GPT-3 系列中對聲稱具有「涌現(xiàn)」能力的任務(wù)檢驗(yàn)了這項(xiàng)新假設(shè)的三項(xiàng)內(nèi)容；其次，在 BIG-Bench 的涌現(xiàn)能力元分析中制定、測試并證實(shí)了兩個關(guān)于度量標(biāo)準(zhǔn)選擇的預(yù)測；最后，論文中展示了如何選擇度量標(biāo)準(zhǔn)，以在不同深度網(wǎng)絡(luò)的多個視覺任務(wù)中「創(chuàng)造出」前所未有的「涌現(xiàn)」能力。

通過以上的分析，論文證明了所謂的「涌現(xiàn)」能力會隨著不同的度量或統(tǒng)計(jì)方式消失，而并非人工智能的基本屬性得到了擴(kuò)展。

Main Track 杰出論文 Runner-up 獎

獲獎?wù)撐?1：Scaling Data-Constrained Language Models

論文鏈接：https://arxiv.org/abs/2305.16264
項(xiàng)目鏈接：https://github.com/huggingface/datablations
機(jī)構(gòu)：Hugging Face、哈佛大學(xué)、圖爾庫大學(xué)

摘要：增加參數(shù)數(shù)量、擴(kuò)大訓(xùn)練數(shù)據(jù)集的規(guī)模是當(dāng)今語言模型的發(fā)展趨勢。根據(jù)這一趨勢推斷，訓(xùn)練數(shù)據(jù)集的規(guī)模可能很快就會受互聯(lián)網(wǎng)上可用文本數(shù)據(jù)量的限制。受到這一可見趨勢的啟發(fā)，有研究者對數(shù)據(jù)受限情況下語言模型的拓展進(jìn)行了探索。

具體來說，他們通過改變數(shù)據(jù)的重復(fù)程度和計(jì)算預(yù)算，進(jìn)行了大量的實(shí)驗(yàn)。實(shí)驗(yàn)中的數(shù)據(jù)量最高可達(dá) 9000 億個訓(xùn)練 token，模型規(guī)?？蛇_(dá) 90 億個參數(shù)。研究者發(fā)現(xiàn)，在計(jì)算預(yù)算固定、數(shù)據(jù)受限的情況下，使用重復(fù)數(shù)據(jù)進(jìn)行 4 個周期（epoch）的訓(xùn)練，與使用不重復(fù)的數(shù)據(jù)相比，損失的變化可以忽略不計(jì)。然而，隨著重復(fù)次數(shù)的增加，增加計(jì)算量的價值最終會降至零。研究者們進(jìn)而提出并實(shí)證驗(yàn)證了一個計(jì)算最優(yōu)化的擴(kuò)展定律（scaling law），該定律考慮了重復(fù) token 和多余參數(shù)價值遞減的問題。最后，他們嘗試了多種緩解數(shù)據(jù)稀缺性的方法，包括使用代碼數(shù)據(jù)擴(kuò)充訓(xùn)練數(shù)據(jù)集或刪除常用的過濾器。本研究的模型和數(shù)據(jù)集可在以下鏈接中免費(fèi)獲?。篽ttps://github.com/huggingface/datablations

獲獎?wù)撐?2：Direct Preference Optimization: Your Language Model is Secretly a Reward Model

論文鏈接：https://arxiv.org/abs/2305.18290
機(jī)構(gòu)：斯坦福大學(xué)、 CZ Biohub

摘要：雖然大規(guī)模無監(jiān)督語言模型（LMs）可以廣泛地學(xué)習(xí)世界中的知識，獲得一些推理技能，但由于其訓(xùn)練完全不受監(jiān)督，因此很難實(shí)現(xiàn)對其行為的精確控制。目前獲得這種可控性通常依靠人類反饋強(qiáng)化學(xué)習(xí)（RLHF）這種方法實(shí)現(xiàn)，收集人類對各種模型生成質(zhì)量打出的標(biāo)簽，并根據(jù)這些偏好對無監(jiān)督語言模型進(jìn)行微調(diào)。然而，RLHF 是一個復(fù)雜并且經(jīng)常不穩(wěn)定的過程。它首先需要擬合一個反映人類偏好的獎勵模型，然后利用強(qiáng)化學(xué)習(xí)對大型無監(jiān)督語言模型進(jìn)行微調(diào)，以最大限度地提高預(yù)計(jì)中的獎勵，同時又不會偏離原始模型太遠(yuǎn)。

在這項(xiàng)研究中，研究者們通過獎勵函數(shù)和最優(yōu)策略之間的映射關(guān)系證明了只需進(jìn)行一個階段的策略訓(xùn)練，就能精確優(yōu)化受限獎勵的最大化問題。從根本上解決了人類偏好數(shù)據(jù)的分類問題。研究者們稱這種新方法為：直接偏好優(yōu)化（DPO），它穩(wěn)定、高效、計(jì)算量小，無需擬合獎勵模型、在微調(diào)過程中從語言模型中采樣，或執(zhí)行重要的超參數(shù)調(diào)整。實(shí)驗(yàn)表明，DPO 能夠微調(diào) LM 以符合人類偏好，其效果與現(xiàn)有方法相當(dāng)或更好。值得注意的是，與 RLHF 相比，使用 DPO 進(jìn)行微調(diào)在控制生成內(nèi)容的情感、提高摘要和單輪對話的響應(yīng)質(zhì)量方面表現(xiàn)更好，同時實(shí)現(xiàn)和訓(xùn)練過程大大簡化。

杰出數(shù)據(jù)集和基準(zhǔn)論文

數(shù)據(jù)集

獲獎?wù)撐模篊limSim: A large Multi-scale Dataset for Hybrid Physics-ML Climate Emulation

論文地址：https://arxiv.org/pdf/2306.08754.pdf
機(jī)構(gòu)：UCI、 LLNL、Columbia、UCB、MIT、DLR、Princeton 等

論文摘要：由于計(jì)算限制，現(xiàn)代氣候預(yù)測缺乏足夠的空間和時間分辨率，導(dǎo)致對風(fēng)暴等極端氣候預(yù)測不準(zhǔn)確、不精確。這時融合物理與機(jī)器學(xué)習(xí)的混合方法引入了新一代保真度更高的氣候模擬器，它們可以通過將計(jì)算需求巨大、短時、高分辨率的模擬任務(wù)「外包」給機(jī)器學(xué)習(xí)模擬器以繞過摩爾定律桎梏。不過，這種混合的機(jī)器學(xué)習(xí) - 物理模擬方法需要針對特定領(lǐng)域具體處理，并且由于缺乏訓(xùn)練數(shù)據(jù)以及相關(guān)易用的工作流程，機(jī)器學(xué)習(xí)專家們也無法使用。

本文中，研究者推出了 ClimSim，一個專為混合機(jī)器學(xué)習(xí) - 物理研究設(shè)計(jì)的迄今為止最大的數(shù)據(jù)集，包含了氣候科學(xué)家和機(jī)器學(xué)習(xí)研究人員聯(lián)合開發(fā)的多尺度氣候模擬。具體來講，ClimSim 由 57 億個多元輸入和輸出向量對組成，它們隔絕了局部嵌套、高分辨率、高保真度物理對主機(jī)氣候模擬器宏觀物理狀態(tài)的影響。該數(shù)據(jù)集覆蓋全球，以高采樣頻率持續(xù)多年，設(shè)計(jì)生成的模擬器能夠與下游的操作氣候模擬器相兼容。

ClimSlim 的局部空間版本。

研究者實(shí)現(xiàn)了一系列確定性和隨機(jī)回歸基線，以突出機(jī)器學(xué)習(xí)挑戰(zhàn)和基線得分。他們公開了相關(guān)數(shù)據(jù)和代碼，用以支持混合機(jī)器學(xué)習(xí) - 物理和高保真氣候模擬的開發(fā)，造福科學(xué)和社會。

項(xiàng)目地址：https://leap-stc.github.io/ClimSim/README.html

基準(zhǔn)

獲獎?wù)撐模篋ECODINGTRUST: A Comprehensive Assessment of Trustworthiness in GPT Models

論文地址：https://arxiv.org/pdf/2306.11698.pdf
機(jī)構(gòu)：伊利諾伊大學(xué)厄巴納 - 香檳分校、斯坦福大學(xué)、UC 伯克利、AI 安全中心、微軟

論文摘要：GPT 模型在能力層面已經(jīng)展現(xiàn)出了無與倫比的進(jìn)展，但有關(guān) GPT 模型可信度的文獻(xiàn)仍然不多。從業(yè)者提議將強(qiáng)大的 GPT 模型用于醫(yī)療和金融領(lǐng)域的敏感性應(yīng)用，可能面臨高昂的代價。

為此，本文研究者對大型語言模型進(jìn)行了全面可信度評估，并以 GPT-4 和 GPT-3.5 為重點(diǎn)模型，充分考慮了不同的視角，包括毒性（toxicity）、刻板印象偏差、對抗穩(wěn)健性、分布外穩(wěn)健性、對抗演示穩(wěn)健性、隱私、機(jī)器倫理道德和公平性等。評估結(jié)果發(fā)現(xiàn)了以往未曾披露的可信度威脅漏洞，例如 GPT 模型很容易被誤導(dǎo)，從而輸出有毒和有偏見的內(nèi)容，并泄露訓(xùn)練數(shù)據(jù)和對話記錄中的個人信息。