自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

高達3.6萬億token!PaLM 2訓練數據翻5倍,全新Bard對比ChatGPT有8個優(yōu)勢

人工智能 新聞
PaLM2模型訓練數據是上一代的5倍,達到3.6萬億?;赑aLM2的Bard對比ChatGPT有8項優(yōu)勢。

決定大模型能力的關鍵因素,到底是模型的參數,還是訓練文本的大小?

谷歌發(fā)布的PalM2,似乎選擇了后者作為提升的主要路徑。

據悉,谷歌用于訓練的PaLM2的文本數量幾乎是訓練其前身模型的5倍。

圖片

而且上周宣布PaLM 2時,谷歌明確表示,該模型比早期的PaLM更小。

谷歌內部文件顯示,PaLM經過了5400億的參數訓練,而新推出的PaLM2,訓練參數接近腰斬,只有3400億個。

圖片

技術文檔中訓練數據的描述

但是在另一個模型訓練的關鍵數據——訓練語料大小上,谷歌開始瘋狂堆料,把PaLM的7800億的訓練token量直接推到了3.6萬億!

而且除了Token數量的激增,PaLM2在數據質量上也有很大的提升。

圖片

訓練數據中各個語言的比例

所以相比PaLM,第二代在英語語料數據量沒有顯著增長的情況下,英語性能明顯提高,部分原因是因為英語數據的質量提升了。

大模型路線選擇

OpenAI沒有公開GPT-4的訓練參數數量,但是谷歌沒有藏著掖著,主動公開了PaLM2訓練參數。

而且在谷歌I/O大會上,還同時發(fā)布了4個參數更少的模型。

其中最小的一款模型 Gecko(壁虎),甚至可以在智能手機上運行。

圖片

這一舉動側面反應了谷歌未來的野心,希望在更多的平臺上部署自己的大模型。

在這個大背景之下,從長遠的角度來看,谷歌幾乎不可能選擇堆訓練參數量來提升模型性能,增加訓練語料的數量和質量幾乎成了必然的選擇。

PaLM 2:史上最強大模型?

在I/O大會上宣布PaLM 2時,谷歌證實:該模型經過100種語言的訓練,可以執(zhí)行廣泛的任務。它已經被用來為25個功能和產品提供支持,包括谷歌的實驗性聊天機器人Bard。

PaLM 2有四種尺寸,從小到大依次是:Gecko(壁虎)、Otter(水獺)、Bison(野牛)和Unicorn(獨角獸)。

基于現(xiàn)在公開披露的數據,PaLM 2比現(xiàn)有的任何模型都更強大。

Meta的LLaMA在今年二月推出,它在1.4萬億個token上進行了訓練。

圖片

而上一次OpenAI分享訓練規(guī)模,還是在推出GPT-3時,當時OpenAI說,它接受了3000億個token的訓練。

另外,谷歌兩年前曾提出LaMDA模型,當時它接受了1.5萬億個token的訓練。

AI軍備競賽升溫,公眾要求更高透明度

對于大模型訓練數據的細節(jié),大廠們都很默契地選擇了「Close」。

發(fā)布GPT-4時,OpenAI沒有公布架構(包括模型大?。⒂布?、訓練計算、數據集構建、訓練方法等細節(jié),理由是「像GPT-4這樣的大規(guī)模模型的競爭格局和安全影響」。

被OpenAI逼到墻角的谷歌,也一直渴望展示自己AI技術的力量,包括如何將其嵌入到搜索、電子郵件、文字處理和電子表格中,但是此前,谷歌一直不愿意公布訓練數據的大小或其他細節(jié)。

保密的原因,當然就是業(yè)務的競爭性質。

無論是谷歌還是OpenAI,都在爭搶著希望使用聊天機器人而不是傳統(tǒng)搜索引擎的用戶。

但隨著AI軍備競賽的升溫,研究社區(qū)正在要求更高的透明度。

而現(xiàn)在,隨著AI應用迅速成為主流,圍繞底層技術的爭議也愈發(fā)激烈。

隨著新的人工智能應用迅速成為主流,圍繞底層技術的爭議也越來越激烈。

今年2月,谷歌研究高級科學家El Mahdi因公司缺乏透明度,選擇辭職。

周二,OpenAI首席執(zhí)行官Sam Altman在參議院司法小組委員會關于隱私和技術的聽證會上作證,同意立法者的觀點——需要監(jiān)管AI的新系統(tǒng)。

「對于一項非常新的技術,我們需要一個新的框架,」Altman說?!府斎?,像我們這樣的公司,對于在全球推出的工具負有很大責任。」

Bard可以干但ChatGPT干不了的事

1. 訪問網絡

相對于ChatGPT,Bard的一個顯著優(yōu)勢就是——可以訪問互聯(lián)網。

問問今天(5月17日)的體壇大事,Bard快速總結出來了。

圖片

而ChatGPT無法直接訪問互聯(lián)網,只能通過其付費版本Plus上的插件訪問網絡。

2. 圖像生成

圖片

在生成圖像上,Bard也超越了ChatGPT的付費和非付費版本。

谷歌宣布將通過集成Adobe Firefly,提供AI圖像生成功能。這個功能增強了對話的視覺效果,讓用戶獲得了上下文更豐富的信息。

3. 語音輸入

圖片

在語音輸入方面,Bard也優(yōu)于ChatGPT,用戶只要通過語音,就可以和模型交互了。

這樣在多任務處理和打字不方便時,用戶就多了一種快速獲取響應的邊界方式。

小編把今日體壇新聞的問題讀了一遍,Bard就自動顯示了。唯一要注意的是,英文發(fā)音要足夠標準。??

圖片

4. 編碼能力

圖片

在編碼能力上,Bard也超越了ChatGPT,它能夠協(xié)助20多種編程語言,包括 C++、Python、Java、TypeScript、JavaScript等。它可以輔助開發(fā)者進行代碼生成、解釋和調試。

相比之下,雖然ChatGPT也具有編碼功能,但它在處理額外任務時存在不足,相比之下OpenAI的Codex可能更適合執(zhí)行這些任務。

讓Bard用python生成一個斐波那契數列,并打出前10個數字。

Bard成功完成了。

圖片

5. 高度整合Gmail

圖片

與Gmail集成,是Bard是另一個重要優(yōu)勢。

Gmail擁有超過20億用戶,是全球最大的電子郵件服務商。如果在郵件中能用Bard,無疑為電子郵件交互開辟了新的可能性。

但是,微軟也正把ChatGPT添加到Microsoft 365 中,并將嵌入到 Word、Excel、PowerPoint以及Gmail的競爭者中。

6. 分享輸出內容

另外,Bard還可以將結果立即導出到Gmail和Docs。

用戶可以將生成的內容直接導出到這些平臺,輕松與他人分享。這個功能大大簡化了共享信息的過程,使撰寫電子郵件變得非常輕松。

另一方面,OpenAI在設置中有一個類似的導出選項。用戶可以導出帳戶詳細信息和對話,以可下載文件的形式發(fā)送到電子郵箱中。

7. 支持圖像提示

圖片

Bar還有一大功能是,能夠使用圖像作為提示。

用戶只需點擊圖片或使用Google Lens掃描圖像,就可以向Bard尋求幫助了。

比如,用戶可以查找與某張圖片類似的度假勝地,還可以詢問其這個地點的歷史意義。

同樣,GPT-4 也是一個多模態(tài)大模型,可以接受圖像和文本輸入,不過截至本文發(fā)布之日,在付費版本中也沒有引入這個功能。

8. 網頁摘要

因為Bard可以聯(lián)網,因而它可以通過簡單地共享鏈接來總結某個網頁。

相比之下,ChatGPT不能聯(lián)網,用戶只能手動復制和粘貼想要總結的內容。

不過,Bard也有其局限性,特別是在毒性方面。

在測試過程中,當給出明確的有毒提示時,Bard在超過30%的時間內,會產生有毒反應。

此外,在英語、德語和葡萄牙語等語言中,PaLM 2總體上會表現(xiàn)出更明顯的毒性行為。

總的來說,由于不同的架構和測試方法,直接比較這PaLM2和GPT-4有一定的挑戰(zhàn)性。

在推理任務中,PaLM 2的表現(xiàn)與GPT-4類似,甚至更好。

不過,在編碼任務中,PaLM 2需要多次嘗試,以及額外的編碼token,才能獲得良好的性能。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-19 10:26:01

谷歌模型

2023-05-17 13:45:31

谷歌PaLM 2

2023-06-03 13:28:35

ChatGPTAItoken

2023-06-12 08:00:00

聊天機器人ChatGPT人工智能

2023-05-24 07:47:23

ChatGPT參數模型

2023-05-26 07:47:41

ChatGPT模型AI

2023-03-31 08:11:04

2024-04-09 13:21:00

AI開源

2017-02-28 15:35:09

OPPO

2013-07-01 18:43:35

個推公共平臺云推送優(yōu)勢

2023-03-31 13:57:36

谷歌AI

2023-03-29 19:35:43

ChatGPT標注數據

2023-05-15 12:11:24

2023-11-09 12:41:40

AI數據

2025-01-14 16:12:54

2023-05-11 07:06:07

谷歌人工智能

2023-12-08 13:11:58

2009-09-04 12:12:09

思科認證互聯(lián)網專家思科認證

2023-06-08 10:02:50

ChatGPTBardGoogle

2024-07-29 08:52:00

模型數據
點贊
收藏

51CTO技術棧公眾號