谷歌 PaLM 2 訓(xùn)練所用文本數(shù)據(jù)量是初代的近五倍

2023-05-17 13:45:31

谷歌最新發(fā)布的PaLM 2能夠執(zhí)行更高級(jí)的編程、運(yùn)算和創(chuàng)意寫(xiě)作任務(wù)。內(nèi)部文件透露，用于訓(xùn)練PaLM 2的token數(shù)量有3.6萬(wàn)億個(gè)。

5月17日消息，谷歌上周在2023年I/O開(kāi)發(fā)者大會(huì)上推出最新大型語(yǔ)言模型PaLM 2。公司內(nèi)部文件顯示，自2022年起訓(xùn)練新模型所使用的文本數(shù)據(jù)量幾乎是前一代的5倍。

據(jù)悉，谷歌最新發(fā)布的PaLM 2能夠執(zhí)行更高級(jí)的編程、運(yùn)算和創(chuàng)意寫(xiě)作任務(wù)。內(nèi)部文件透露，用于訓(xùn)練PaLM 2的token數(shù)量有3.6萬(wàn)億個(gè)。

所謂的token就是字符串，人們會(huì)將訓(xùn)練模型所用文本中的句子、段落進(jìn)行切分，其中的每個(gè)字符串通常被稱為token。這是訓(xùn)練大型語(yǔ)言模型的重要組成部分，能教會(huì)模型預(yù)測(cè)序列中接下來(lái)會(huì)出現(xiàn)哪個(gè)單詞。

谷歌于2022年發(fā)布的上一代大型語(yǔ)言模型PaLM在訓(xùn)練中使用了7800億個(gè)token。

盡管谷歌一直熱衷于展示其在人工智能技術(shù)領(lǐng)域的實(shí)力，說(shuō)明如何將人工智能嵌入到搜索引擎、電子郵件、文字處理和電子表格中，但一直不愿公布訓(xùn)練數(shù)據(jù)的規(guī)?；蚱渌?xì)節(jié)。微軟支持的OpenAI也對(duì)最新發(fā)布的GPT-4大型語(yǔ)言模型細(xì)節(jié)保密。

兩家公司都表示，不披露這些信息的原因是人工智能行業(yè)存在激烈競(jìng)爭(zhēng)。谷歌和OpenAI都想要吸引那些希望使用聊天機(jī)器人而不是傳統(tǒng)搜索引擎搜索信息的用戶。

但隨著人工智能領(lǐng)域競(jìng)爭(zhēng)的白熱化，研究界要求提高透明度。

自推出PaLM 2以來(lái)，谷歌一直表示，新模型比之前的大型語(yǔ)言模型更小，這意味著該公司技術(shù)在完成更復(fù)雜任務(wù)時(shí)能變得更高效。參數(shù)（parameters）通常用于說(shuō)明語(yǔ)言模型的復(fù)雜性。根據(jù)內(nèi)部文件，PaLM 2接受了3400億個(gè)參數(shù)的訓(xùn)練，初代的PaLM接受了5400億個(gè)參數(shù)的訓(xùn)練。

谷歌沒(méi)有立即發(fā)表評(píng)論。

谷歌在一篇關(guān)于PaLM 2的博客文章中表示，新模型使用了一種名為“計(jì)算最優(yōu)縮放”（compute-optimal scaling）的“新技術(shù)”，能使得PaLM 2“更高效，整體性能更好，比如推理更快、服務(wù)參數(shù)更少，服務(wù)成本也更低?！?/p>

在發(fā)布PaLM 2時(shí)，谷歌透露新模型接受了100種語(yǔ)言的訓(xùn)練，并能勝任各種各樣的任務(wù)。包括谷歌試驗(yàn)性聊天機(jī)器人Bard在內(nèi)的25項(xiàng)功能和產(chǎn)品用的都是PaLM 2。PaLM 2按參數(shù)規(guī)模有四個(gè)不同的版本，從小到大依次是Gecko（壁虎）、Otter（水獺）、Bison（野牛）和Unicorn（獨(dú)角獸）。

根據(jù)谷歌公開(kāi)披露的信息，PaLM 2比任何現(xiàn)有模型都更強(qiáng)大。Facebook在今年2月份宣布推出名為L(zhǎng)LaMA的大型語(yǔ)言模型，其在訓(xùn)練中用了1.4萬(wàn)億個(gè)token。OpenAI發(fā)布GPT-3時(shí)披露了相關(guān)訓(xùn)練規(guī)模，當(dāng)時(shí)公司表示，這一模型接受了3000億個(gè)token的訓(xùn)練。今年3月份，OpenAI發(fā)布新模型GPT-4，并表示在許多專業(yè)測(cè)試中表現(xiàn)出“人類水平”。

根據(jù)最新文件，谷歌兩年前推出的語(yǔ)言模型接受了1.5萬(wàn)億個(gè)token的訓(xùn)練。

隨著新的生成式人工智能應(yīng)用迅速成為科技行業(yè)主流，圍繞底層技術(shù)的爭(zhēng)議也越來(lái)越激烈。

今年2月份，谷歌研究部門(mén)高級(jí)科學(xué)家埃爾·馬赫迪·埃爾·馬哈迪(El Mahdi El Mhamdi)因公司缺乏透明度而辭職。周二，OpenAI首席執(zhí)行官薩姆·奧爾特曼（Sam Altman）在美國(guó)參議院司法小組委員會(huì)關(guān)于隱私和技術(shù)的聽(tīng)證會(huì)上出庭作證，也同意用新系統(tǒng)來(lái)應(yīng)對(duì)人工智能。

“對(duì)于一項(xiàng)非常新的技術(shù)，我們需要一個(gè)新的框架，”奧爾特曼說(shuō)，“當(dāng)然，像我們這種公司對(duì)自己推出的工具負(fù)有很大責(zé)任?！?/p>

責(zé)任編輯：姜華來(lái)源：網(wǎng)易科技

谷歌 PaLM 2

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌 PaLM 2 訓(xùn)練所用文本數(shù)據(jù)量是初代的近五倍