谷歌Gemini技術報告出爐,作者多達900余人
備受期待的谷歌 Gemini 技術報告完整版,今天終于出爐了。
兩周前,人們興奮于谷歌提出的「原生多模態(tài)大模型」Gemini,其宣稱超越 GPT-4 的強大性能,以及對于圖像、視頻等領域的理解能力讓人們似乎看到了未來。不過由于谷歌演示的 demo 涉嫌夸大效果,Gemini 又很快陷入了爭議。
但作為生成式 AI 領域最近的重要進展,人們對于 Gemini 的期待越來越高,有團隊很快進行研究發(fā)了測試論文。今天發(fā)布的 64 頁技術報告,或許可以為我們的許多疑惑進行更加直觀的解釋。
這篇技術報告《Gemini: A Family of Highly Capable Multimodal Models》作者包括 Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一眾谷歌研究大佬,另外還有謝爾蓋?布林這樣的公司聯合創(chuàng)始人。
論文鏈接:https://arxiv.org/abs/2312.11805
另外,該文章的作者數量也奪人眼球 ——941 個人,搞得 arXiv 網頁都有點卡:
一頁顯示不過來。
從文章第 35 頁起,谷歌開始羅列所有「貢獻者」,從 Team Leader 到主要貢獻者,再到貢獻者分門別類寫到了第 45 頁,看起來之前各路媒體說谷歌在 Gemini 上投入了大量工程師,的確是沒說錯。
谷歌表示,在每個任務方向上,人們對 Gemini 所做的貢獻是同等重要的,名字按隨機順序列出。Gemini 是一項跨谷歌內部多團隊的工作,成員來自 Google DeepMind、Google Research、Knowledge and Information、Core ML、Cloud、Labs 等部門。
此外還有提供了支持的團隊和人(比如公司 CEO 桑達爾?皮查伊),以及沒有列出的很多谷歌內部貢獻者。
對此有人吐槽道,論文作者比解釋技術寫的還長,你這怕不是在水字數?
光是這些花費在這些工程師、科學家們身上的工資每年就有上億美元。
在技術報告中,谷歌表示 Gemini 是一個多模態(tài)大模型體系,它在圖像、音頻、視頻和文本理解方面表現出卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三個版本,適用于從復雜推理任務到移動設備的各種應用。
通過在大量基準的跑分表明,功能最強大的 Gemini Ultra 在 32 個基準中的 30 個中刷新了 SOTA(業(yè)內最佳)水平。谷歌特別指出,Gemini 是第一個在經過充分研究的考試基準 MMLU 上實現人類專家表現的模型。谷歌相信,Gemini 在跨模態(tài)推理和語言理解方面的突出能力將支持各種用例。
以下圖所示的教育環(huán)境為例,老師畫了一個滑雪者從斜坡上滑下的物理問題,學生試圖進行解答。利用 Gemini 的多模態(tài)推理能力,該模型能夠理解凌亂的筆跡,正確理解問題的表述,將問題和解決方案都轉換為數學排版,識別學生在解決問題時出錯的具體推理步驟,然后給出問題的正確解法。
圖 1,筆記識別,解答物理問題
Gemini 的推理能力展示了構建能解決更復雜多步驟問題的通用智能體的前景,比如谷歌基于 Gemini 提出了 AlphaCode 2。在移動設備上,Gemini Nano 在摘要、閱讀理解、文本填充任務等任務中表現出色,也體現了推理、STEM、編碼、多模態(tài)和多語言任務的能力。
在文章的技術解釋部分中,谷歌概述了 Gemini 的模型架構、訓練基礎設施和訓練數據集,對 Gemini 模型系列進行了詳細評估,涵蓋文本、代碼、圖像、音頻和視頻方面。谷歌討論了模型審核與部署方法,最后也討論了 Gemini 的更廣泛影響、局限性及其潛在應用。
模型架構
Gemini 1.0 有三種尺寸 Ultra 、 Pro 以及 Nano ,如下所示:
- Ultra:可以在各種高度復雜的任務中提供SOTA性能,包括推理和多模態(tài)任務。它還可以在TPU加速器上有效地進行大規(guī)模服務;
- Pro:是谷歌在成本和延遲方面進行性能優(yōu)化的模型,可在各種任務中提供良好的性能,并表現出強大的推理性能和廣泛的多模態(tài)能力;
- Nano:谷歌最高效的模型,專為在設備上運行而設計。谷歌訓練了兩個版本的 Nano,參數分別為 1.8B (Nano-1) 和 3.25B (Nano-2),分別針對低內存和高內存設備,采用 4 位量化進行部署,并提供一流的性能。
Gemini 的輸入有多種形式,如文本、音頻、圖片、視頻等,如下圖2所示。值得一提的是,Gemini是原生多模態(tài)的。
Gemini 的視頻理解能力是通過將視頻編碼為大上下文窗口中的幀序列來完成的。視頻幀或圖像可以自然地與文本或音頻交織,作為模型輸入的一部分。Gemini 模型可以處理可變的輸入分辨率,以便將更多的計算花費在需要細粒度理解的任務上。
此外,Gemini 可以直接從通用語音模型 (USM) 功能中攝取 16kHz 的音頻信號。這使得模型能夠捕獲當音頻被簡單地映射到文本輸入時通常會丟失的細微差別。
訓練基礎設施
谷歌使用 TPUv5e 和 TPUv4 訓練 Gemini 模型,具體取決于模型的大小和配置。其中,訓練 Gemini Ultra 使用跨多個數據中心的大量 TPUv4 加速器,相比于 PaLM-2,規(guī)模顯著增加,帶來了新的基礎設施挑戰(zhàn)。
增加加速器的數量會導致整個系統(tǒng)中硬件的平均故障間隔時間成比例地減少。因此,谷歌最大限度地減少了計劃重新規(guī)劃和搶占的比率,但實際上機器故障在如此大規(guī)模的硬件加速器中很常見。
TPUv4 加速器部署在 4096 個芯片的「SuperPod」中,每個芯片連接到一個專用光開關,可以在大約 10 秒內將 4x4x4 芯片cube動態(tài)重新配置為任意 3D 環(huán)面拓撲。對于 Gemini Ultra,谷歌為每個超級容器保留少量cube,以實現熱備用和滾動維護。
TPU 加速器主要通過高速芯片間互連進行通信,但對于 Gemini Ultra,谷歌使用其集群內和集群間網絡在多個數據中心中組合 SuperPod。
使用定期檢查持久集群存儲權重的傳統(tǒng)方法,在這種規(guī)模下維持高吞吐量是不可能的。因此谷歌為 Gemini 使用了模型狀態(tài)的冗余內存副本,并且在任何計劃外的硬件故障中,Gemini 可以直接從完整的模型副本中快速恢復。與 PaLM 和 PaLM-2 相比,盡管使用的訓練資源要大得多,但恢復速度顯著加快。
最終,最大規(guī)模訓練 job 的整體吞吐量從 85% 增加到 97%。
Gemini 模型是在多模態(tài)和多語言數據集上進行訓練的,預訓練數據集使用來自網絡文檔、書籍和代碼的數據,包括圖像、音頻和視頻數據。谷歌使用了 SentencePiece tokenizer,并發(fā)現在整個訓練語料庫的大樣本上訓練 tokenizer 可以提高推斷詞匯量,從而提高模型性能。
此外,谷歌還使用啟發(fā)式規(guī)則和基于模型的 tokenizer 對所有數據集應用質量過濾器,并執(zhí)行安全過濾以刪除有害內容。
評估
Gemini 模型本質上是多模態(tài)模型,跨文本、圖像、音頻和視頻數據聯合訓練。一個懸而未決的問題是,這種聯合訓練是否能夠產生一種在每個領域都具有強大能力的模型 —— 即使與針對單個領域進行定制的模型相比也是如此。谷歌進行了一系列的評估實驗證明:Gemini 在廣泛的文本、圖像、音頻和視頻基準上實現了新的 SOTA 水平。
1.文本
谷歌將 Gemini Pro 和 Gemini Ultra 與多個外部 LLM 以及谷歌之前的最佳模型 PaLM 2 進行了一系列基于文本的學術基準比較,涵蓋推理、閱讀理解、STEM 和編碼。實驗結果如下表 2 所示:
谷歌還通過在六種不同能力的 50 多個基準上進行評估,檢查了 Gemini 模型的能力趨勢,涵蓋:
- 開卷 / 閉卷檢索和問答任務,要求「事實性」;
- 長上下文摘要、檢索和問答任務;
- 數學 / 科學問題解決、定理證明和考試;
- 需要算術、科學和常識的「推理」任務;
- 用多種語言進行翻譯、摘要和推理的「多語言」任務。
評估結果如下圖表所示:
下表 3 更深入地探討了 Gemini 在特定的事實、編碼、數學 / 科學和推理任務上的性能。其中,Gemini Nano-1 和 Gemini Nano-2 的模型大小分別為 1.8B 和 3.25B。
值得一提的是,經過指令調整的 Gemini Pro 模型在一系列功能上表現出巨大的改進:
2.多模態(tài)
Gemini 模型是從頭開始以多模態(tài)為目標構建的。它表現出了獨特的能力,可以將跨模態(tài)的功能(例如,從表格、圖表或圖形中提取信息和空間布局)與語言模型的強大推理能力(如先進的推理能力)無縫地結合起來。
如圖 5 和圖 12 中的示例所示,這些模型在識別輸入內容中的細粒度細節(jié)、跨空間和時間聚合上下文,以及將這些功能應用于時間相關的視頻序列方面也表現出強大的能力。
圖 5、Gemini 的多模態(tài)推理功能可生成用于重新排列子圖的 matplotlib 代碼。
表 7、Gemini Ultra 在圖像理解基準上的能力
谷歌發(fā)現,Gemini Ultra 在各種圖像理解基準測試中都是最先進的。
Gemini 模型還能夠同時跨模態(tài)和理解多種語言。
表 9、多語言圖像理解
Gemini Ultra 在各種 few-shot 視頻字幕任務以及 zero-shot 視頻問答任務上取得了最先進的結果。
表 10、在選定的學術基準上跨任務和語言的 few-shot 視頻理解
圖 6 顯示了 one-shot 情況下的圖像生成示例。
圖 6、圖像生成。在給出由圖像和文本組成的提示的情況下,Gemini 可以輸出與文本交錯的多個圖像。
有關語音理解能力,表 11 表明,無論是在英語還是多語言測試集上,Gemini Pro 模型在所有 ASR(語音識別)和 AST(自動語音翻譯)任務中顯著優(yōu)于 USM 和 Whisper 模型。
表 11、ASR 和 AST 選定基準的語音評估結果。
安全性
谷歌表示,在 Gemini 模型的開發(fā)過程中遵循了結構化方法進行負責任的部署,以便識別、衡量和管理大模型的可預見社會影響,這與 Google 人工智能技術的先前版本一致。
結語
谷歌在技術報告中表示,目前有關 Gemini 大模型的各種測試和用例,可能只涉及了其潛力的很小一部分。谷歌期待更多公司在更多場景上使用新的模型。
Gemini 為谷歌開發(fā)一個大規(guī)模、模塊化的系統(tǒng),實現最大泛化能力的目標提供了堅實基礎。