自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

陳丹琦ACL學(xué)術(shù)報(bào)告來了!詳解大模型「外掛」數(shù)據(jù)庫7大方向3大挑戰(zhàn),3小時干貨滿滿

人工智能 新聞
現(xiàn)已有研究表明,困惑度與下游任務(wù)(尤其是生成任務(wù))有很好的相關(guān)性,并且困惑度通??商峁┓浅7€(wěn)定的結(jié)果,它可以在大規(guī)模評估數(shù)據(jù)上進(jìn)行評估(相對于下游任務(wù)來說,評估數(shù)據(jù)是沒有標(biāo)簽的。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

清華姚班校友陳丹琦,在ACL 2023上做了場最新演講!

話題還是近期非常熱門的研究方向——

像GPT-3、PaLM這樣的(大)語言模型,究竟是否需要依靠檢索來彌補(bǔ)自身缺陷,從而更好地應(yīng)用落地。

在這場演講中,她和其他3位主講人一起,共同介紹了這個主題的幾大研究方向,包括訓(xùn)練方法、應(yīng)用和挑戰(zhàn)等。

圖片圖片

演講期間聽眾的反響也很熱烈,不少網(wǎng)友認(rèn)真地提出了自己的問題,幾位演講者盡力答疑解惑。

圖片圖片

至于這次演講具體效果如何?有網(wǎng)友直接一句“推薦”給到評論區(qū)。

圖片圖片

所以,在這場長達(dá)3個小時的演講中,他們具體講了些什么?又有哪些值得一聽的地方?

大模型為何需要“外掛”數(shù)據(jù)庫?

這場演講的核心主題是“基于檢索的語言模型”,包含檢索語言模型兩個要素。

定義上來看,它指的是給語言模型“外掛”一個數(shù)據(jù)檢索庫,并在進(jìn)行推理(等操作)時對這個數(shù)據(jù)庫進(jìn)行檢索,最后基于檢索結(jié)果進(jìn)行輸出。

這類外掛數(shù)據(jù)存儲庫,也被稱之為半?yún)?shù)模型或非參數(shù)模型。

圖片圖片

之所以要研究這個方向,是因?yàn)槿鏕PT-3和PaLM這類(大)語言模型,在表現(xiàn)出不錯的效果同時,也出現(xiàn)了一些讓人頭疼的“bug”,主要有三個問題:

1、參數(shù)量過大,如果基于新數(shù)據(jù)重訓(xùn)練,計(jì)算成本過高;
2、記憶力不行(面對長文本,記了下文忘了上文),時間一長會產(chǎn)生幻覺,且容易泄露數(shù)據(jù);
3、目前的參數(shù)量,不可能記住所有知識。

在這種情況下,外部檢索語料庫被提出,即給大語言模型“外掛”一個數(shù)據(jù)庫,讓它隨時能通過查找資料來回答問題,而且由于這種數(shù)據(jù)庫隨時能更新,也不用擔(dān)心重訓(xùn)的成本問題。

介紹完定義和背景之后,就是這個研究方向具體的架構(gòu)、訓(xùn)練、多模態(tài)、應(yīng)用和挑戰(zhàn)了。

架構(gòu)上,主要介紹了基于檢索的語言模型檢索的內(nèi)容、檢索的方式和檢索的“時機(jī)”。

具體而言,這類模型主要會檢索token、文本塊和實(shí)體詞語(entity mentions),使用檢索的方式和時機(jī)也很多樣性,是一類很靈活的模型架構(gòu)。

圖片圖片

訓(xùn)練方式上,則著重介紹了獨(dú)立訓(xùn)練(independent training,語言模型和檢索模型分開訓(xùn)練)、連續(xù)學(xué)習(xí)(sequential training)、多任務(wù)學(xué)習(xí)(joint training)等方法。

圖片圖片

至于應(yīng)用方面,這類模型涉及的也就比較多了,不僅可以用在代碼生成、分類、知識密集型NLP等任務(wù)上,而且通過微調(diào)、強(qiáng)化學(xué)習(xí)、基于檢索的提示詞等方法就能使用。

應(yīng)用場景也很靈活,包括長尾場景、需要知識更新的場景以及涉及隱私安全的場景等,都有這類模型的用武之地。

當(dāng)然,不止是文本上。這類模型也存在多模態(tài)擴(kuò)展的潛力,可以將它用于文本以外的任務(wù)上。

圖片圖片

聽起來這類模型優(yōu)點(diǎn)很多,不過基于檢索的語言模型,當(dāng)下也存在一些挑戰(zhàn)

陳丹琦在最后“收尾”的演講中,著重提到了幾點(diǎn)這個研究方向需要解決的幾大難題。

其一,小語言模型+(不斷擴(kuò)張的)大數(shù)據(jù)庫,本質(zhì)上是否意味著語言模型的參數(shù)量依舊很大?如何解決這一問題?

例如,雖然這類模型的參數(shù)量可以做到很小,只有70億參數(shù)量,但外掛的數(shù)據(jù)庫卻能達(dá)到2T……

圖片圖片

其二,相似性搜索的效率。如何設(shè)計(jì)算法使得搜索效率最大化,是目前非?;钴S的一個研究方向。

圖片圖片

其三,完成復(fù)雜語言任務(wù)。包括開放式文本生成任務(wù),以及復(fù)雜的文本推理任務(wù)在內(nèi),如何用基于檢索的語言模型完成這些任務(wù),也是需要持續(xù)探索的方向。

圖片圖片

當(dāng)然,陳丹琦也提到,這些話題是挑戰(zhàn)的同時,也是研究機(jī)遇。還在尋找論文課題的小伙伴們,可以考慮是否把它們加進(jìn)研究列表了~

值得一提的是,這次演講也不是“憑空”找出的話題,4位演講者貼心地在官網(wǎng)放出了演講參考的論文鏈接。

從模型架構(gòu)、訓(xùn)練方法、應(yīng)用、多模態(tài)到挑戰(zhàn),如果對這些話題中的任何一部分感興趣,都可以去官網(wǎng)找找對應(yīng)的經(jīng)典論文來看:

圖片圖片

現(xiàn)場解答聽眾困惑

這么干貨滿滿的演講,四位主講人也不是沒有來頭,在演講中他們還耐心地對聽眾提出的問題進(jìn)行了解答。

我們先來康康主講人都是誰。

首先是主導(dǎo)這次演講的普林斯頓大學(xué)計(jì)算機(jī)科學(xué)助理教授陳丹琦

圖片圖片

她是計(jì)算機(jī)科學(xué)領(lǐng)域近來最受關(guān)注的華人青年學(xué)者之一,也是08級清華姚班校友。

在信息學(xué)競賽圈,她頗具傳奇色彩——CDQ分治算法就是以她的名字命名。2008年,她代表中國隊(duì)斬獲一枚IOI金牌。

而她的那篇長達(dá) 156 頁的博士畢業(yè)論文《Neural Reading Comprehension and Beyond》,更是一度火爆出圈,不光獲得當(dāng)年斯坦福最佳博士論文獎,還成為了斯坦福大學(xué)近十年來最熱門畢業(yè)論文之一。

現(xiàn)在,陳丹琦除了是普林斯頓大學(xué)計(jì)算機(jī)科學(xué)助理教授,也是該校從頭搭建NLP小組的聯(lián)合負(fù)責(zé)人、AIML小組成員。

她的研究方向主要聚焦于自然語言處理和機(jī)器學(xué)習(xí),并且對在實(shí)際問題中具有可行性、可擴(kuò)展性和可泛化性的簡單而又可靠的方法饒有興趣。

同樣來自普林斯頓大學(xué)的,還有陳丹琦的徒弟鐘澤軒(Zexuan Zhong)。

圖片圖片

鐘澤軒是普林斯頓大學(xué)的四年級博士生。碩士畢業(yè)于伊利諾伊大學(xué)香檳分校,導(dǎo)師是謝濤;本科畢業(yè)于北京大學(xué)計(jì)算機(jī)系,曾在微軟亞研院實(shí)習(xí),導(dǎo)師是聶再清。

他的最新研究主要聚焦于從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息、從預(yù)訓(xùn)練語言模型中提取事實(shí)性信息、分析稠密檢索模型的泛化能力,以及開發(fā)適用于基于檢索的語言模型的訓(xùn)練技術(shù)。

此外,主講人還有來自華盛頓大學(xué)的Akari Asai、Sewon Min。

圖片圖片

Akari Asai是華盛頓大學(xué)主攻自然語言處理的四年級博士生,本科畢業(yè)于日本東京大學(xué)。

她主要熱衷于開發(fā)可靠且適應(yīng)性強(qiáng)的自然語言處理系統(tǒng),提高信息獲取的能力。

最近,她的研究主要集中在通用知識檢索系統(tǒng)、高效自適應(yīng)的NLP模型等領(lǐng)域。

圖片圖片

Sewon Min是華盛頓大學(xué)自然語言處理小組的博士候選人,讀博士期間,曾在Meta AI兼職擔(dān)任研究員長達(dá)四年,本科畢業(yè)于首爾國立大學(xué)。

最近她主要關(guān)注語言建模、檢索以及二者的交叉領(lǐng)域。

在演講期間,聽眾也很熱情地提出了眾多問題,例如為啥要用perplexity(困惑度)來作為演講的主要指標(biāo)。

圖片圖片

主講人給出了細(xì)心解答:

在比較參數(shù)化的語言模型時,困惑度(PPL)經(jīng)常被用到。但困惑度的改善能否轉(zhuǎn)化為下游應(yīng)用仍然是一個研究問題。

現(xiàn)已有研究表明,困惑度與下游任務(wù)(尤其是生成任務(wù))有很好的相關(guān)性,并且困惑度通??商峁┓浅7€(wěn)定的結(jié)果,它可以在大規(guī)模評估數(shù)據(jù)上進(jìn)行評估(相對于下游任務(wù)來說,評估數(shù)據(jù)是沒有標(biāo)簽的,而下游任務(wù)可能會受到提示的敏感性和缺乏大規(guī)模標(biāo)記數(shù)據(jù)的影響,從而導(dǎo)致結(jié)果不穩(wěn)定)

圖片圖片

還有網(wǎng)友提出了這樣的疑問:

關(guān)于“語言模型的訓(xùn)練成本高昂,而引入檢索可能會解決這個問題”的說法,你只是將時間復(fù)雜度替換為空間復(fù)雜度(數(shù)據(jù)存儲)了嗎?

圖片

主講人給出的解答是醬嬸的:

我們討論的重點(diǎn)是如何將語言模型縮減到更小,從而減少時間和空間的需求。然而,數(shù)據(jù)存儲實(shí)際上也增加了額外的開銷,這需要仔細(xì)權(quán)衡和研究,我們認(rèn)為這是當(dāng)前的挑戰(zhàn)。

與訓(xùn)練一個擁有一百億以上參數(shù)的語言模型相比,我認(rèn)為目前最重要的是降低訓(xùn)練成本。

圖片圖片

想找這次演講PPT,或是蹲具體回放的,可以去官網(wǎng)看看~

官方網(wǎng)址:https://acl2023-retrieval-lm.github.io/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-07-26 09:56:48

模型AI

2010-08-31 15:47:25

2018-06-13 08:09:57

2018-12-28 07:10:05

2015-08-26 11:20:37

程序員發(fā)展方向

2009-04-23 14:32:37

3G無線互聯(lián)網(wǎng)牌照

2019-09-25 09:09:11

AI 數(shù)據(jù)人工智能

2009-07-23 08:51:27

Windows 7Windows 8未來趨勢

2016-10-27 09:31:19

大數(shù)據(jù)醫(yī)療臨床

2018-02-23 14:12:20

數(shù)據(jù)中心技術(shù)人工智能

2019-04-15 10:19:25

華為云

2021-05-20 13:41:45

數(shù)字人民幣數(shù)字貨幣區(qū)塊鏈

2022-06-24 15:13:17

區(qū)塊鏈數(shù)字資產(chǎn)加密貨幣

2010-07-23 09:48:01

虛擬化

2023-08-04 11:06:49

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)

2017-12-21 06:03:53

運(yùn)營商物聯(lián)網(wǎng)網(wǎng)絡(luò)

2012-09-21 18:05:45

聯(lián)通云服務(wù)

2020-11-04 06:56:45

物聯(lián)網(wǎng)職業(yè)IOT

2014-01-21 10:14:13

微軟研發(fā)集團(tuán)轉(zhuǎn)型

2018-07-03 14:04:56

5G問題方向
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號