AI將玩轉(zhuǎn)3A大作,OpenAI將被調(diào)查?2023 AI全景報告給出十大預(yù)測
State of Report 至今已是第六個年頭,成為了人工智能領(lǐng)域的風向標,它由業(yè)界和研究領(lǐng)域的領(lǐng)先人工智能從業(yè)者撰寫,除了總結(jié)過去,也會對未來發(fā)展進行很多預(yù)測。
今年的報告匯總和聚焦了過去一年里 AI 行業(yè)中炙手可熱的事件,援引數(shù)據(jù)來自知名科技公司和研究小組,由投資人 Nathan Benaich、Alex Chalmers、Othmane Sebbouh 和 Corina Gurau 編寫。報告從研究進展、行業(yè)局勢、現(xiàn)有政策、安全問題、未來預(yù)測五個維度出發(fā),對最新的 AI 發(fā)展現(xiàn)狀和未來預(yù)期進行了深度分析。
完整報告下載地址:https://docs.google.com/presentation/d/156WpBF_rGvf4Ecg19oM1fyR51g4FAmHV3Zs0WLukrLQ/edit?usp=sharing
報告稱,OpenAI 的 GPT-4 在發(fā)布八個月后仍然是最強的大語言模型(LLM),「在經(jīng)典基準測試和旨在評估人類的考試上都擊敗了所有其他大模型?!谷欢鴪蟾嬷赋?,隨著尖端人工智能系統(tǒng)變得更加強大和靈活,比較它們會變得越來越困難。
與此同時,報告認為到 2023 年,人工智能公司公開分享其最先進研究的文化將結(jié)束。報告稱,OpenAI 拒絕分享有關(guān) GPT-4 系統(tǒng)架構(gòu)的「任何有用信息」,谷歌和 Anthropic 對他們的模型也做出了類似的決定,「隨著成本升高和對安全擔憂的加劇,傳統(tǒng)上開放的科技公司已經(jīng)接受了對其最前沿研究不透明的文化?!?/span>
報告得出的主要結(jié)論如下:
1、研究進展
- GPT-4 登場,展示了專有技術(shù)與次優(yōu)開源替代方案之間的能力鴻溝,同時也驗證了通過人類反饋進行強化學習的威力;
- 在 LLaMa-1/2 的支持下,越來越多的人試圖用更小的模型、更好的數(shù)據(jù)集、更長的上下文來克隆或擊敗專有模型;
- 目前還不清楚人類生成的數(shù)據(jù)能維持人工智能擴展趨勢多久(有人估計,到 2025 年,數(shù)據(jù)將被 LLM 耗盡),也不清楚添加合成數(shù)據(jù)會產(chǎn)生什么影響。企業(yè)中的視頻和數(shù)據(jù)可能是下一個目標;
- LLM 和擴散模型通過為分子生物學和藥物發(fā)現(xiàn)帶來新的突破,繼續(xù)為生命科學界提供助力;
- 多模態(tài)成為新的前沿,各種智能體熱度大大增加。
2、行業(yè)局勢
- 英偉達憑借各國、初創(chuàng)公司、大型科技公司和研究人員對其 GPU 的巨大需求,躋身市值萬億美元俱樂部;
- 主要芯片供應(yīng)商開發(fā)了不受出口管制影響的替代產(chǎn)品;
- 在 ChatGPT 的帶領(lǐng)下,GenAI 的應(yīng)用程序在圖像、視頻、編碼、語音或 CoPilots 等領(lǐng)域取得了突破性的進展,帶動了 180 億美元的風險投資和企業(yè)投資。
3、現(xiàn)有政策
- 世界已劃分出明確的監(jiān)管陣營,但全球治理的進展仍較為緩慢,最大的人工智能實驗室正在填補這一空白;
- 據(jù)預(yù)測,人工智能將影響一系列敏感領(lǐng)域,包括選舉和就業(yè),但我們還沒有看到顯著的影響。
4、安全問題
- 關(guān)于生存風險的討論首次進入主流,并明顯加劇;
- 許多高性能的模型很容易「越獄」,為了解決 RLHF 的挑戰(zhàn),研究人員正在探索替代方案,例如自對齊(self-alignment)和帶有人類偏好的預(yù)訓練;
- 隨著模型性能的提升,一致地評估 SOTA 模型變得越來越困難。
以下是報告的具體內(nèi)容。
研究進展
報告第一部分總結(jié)了 2023 年以來的人工智能技術(shù)突破及它們的能力。
OpenAI 推出 GPT-4,展示了專有和次優(yōu)開源模型之間的能力差距,并在經(jīng)典 AI 基準測試和為人類設(shè)計的考試中擊敗了所有其他的大型語言模型。
ChatGPT 等大模型的成功驗證了基于人類反饋的強化學習(RLHF)的力量。業(yè)界也在積極尋找 RLHF 的可擴展替代解決方案,比如 Anthropic 提出了基于 AI 反饋的強化學習。
不過大模型廠商越來越趨于技術(shù)封閉。OpenAI 雖然發(fā)布了 GPT-4 的技術(shù)報告,但沒有透露任何對 AI 研究人員有用的信息,這標志這 AI 研究的產(chǎn)業(yè)化。谷歌 PaLM-2 技術(shù)報告同樣如此,Anthropic 更是選擇不發(fā)布 Claude 技術(shù)報告。
直到 Meta 先后發(fā)布開源大模型 Llama、Llama2,選擇向公眾開放模型權(quán)重等技術(shù)細節(jié),掀起了一場開放競爭的大語言模型競賽,并形成了開源與專有大模型之間的抗衡。尤其是 Llama2 可以直接商用,2023 年 9 月,下載量達到了 3200 萬。
就流行度而言,ChatGPT 在 X(原推特)上被提及的次數(shù)最多,為 5430 次。其次是 GPT-4 和 LLaMA。雖然專有閉源模型最受關(guān)注,但人們對開源且允許商業(yè)用途的 LLM 的興趣在增加。
基于 Llama 和 Llama2,業(yè)界不斷努力通過開發(fā)更小的模型、更好的數(shù)據(jù)集和更長的上下文來實現(xiàn)媲美或超越專有模型的性能。
當使用非常專業(yè)和精心制作的數(shù)據(jù)集來訓練小型語言模型時,性能可與大 50 倍的模型相當。上下文長度成為新的參數(shù)度量以及 AI 社區(qū)日益重視的研究主題。
隨著大語言模型的訓練參數(shù)量和數(shù)據(jù)量不斷增加,人們開始考慮人類產(chǎn)生的數(shù)據(jù)會有用完的一天嗎?目前還不清楚這些數(shù)據(jù)能夠維持 AI 擴展多久。
研究機構(gòu) Epoch AI 預(yù)測稱,假設(shè)當前的數(shù)據(jù)消耗和生產(chǎn)率不變,到 2030 至 2050 年將耗盡低質(zhì)量語言數(shù)據(jù)庫存、2026 年前將耗盡高質(zhì)量語言數(shù)據(jù)庫存、到 2030 至 2060 年將耗盡視覺數(shù)據(jù)庫存。
在這種情況下,AI 生成的內(nèi)容可以用來擴大可用訓練數(shù)據(jù)池。不過也有一些尚未明確的觀點:合成數(shù)據(jù)雖然變得越來越有用,但有證據(jù)表明,在某些情況下,生成數(shù)據(jù)導(dǎo)致模型遺忘。
隨著文本和圖像生成模型變得越來越強大,識別 AI 生成的內(nèi)容以及受版權(quán)保護來源的內(nèi)容,這些問題將長期存在,并變得越來越難以解決。
LLM 和擴散模型為分子生物學和藥物發(fā)現(xiàn)帶來新突破。比如受到圖像和語言生成模型成功的啟發(fā),擴散模型可以從頭開始設(shè)計多種功能蛋白,為生命科學帶來了更多可能。
此外還能做到:使用語言模型學習進化的蛋白質(zhì)結(jié)構(gòu)規(guī)則,無需基于細胞的實驗可以預(yù)測擾動多個基因的結(jié)果、預(yù)測所有單一氨基酸變化結(jié)果等。
谷歌的 Med-PaLM 2 成為首個在 MedQA 測試集中達到專家水平的大模型,下一步將走向多模態(tài)。
AI for Science 逐漸興起,其中,醫(yī)藥發(fā)展最快,但數(shù)學關(guān)注度最高。
行業(yè)局勢
報告第二部分總結(jié)了 AI 相關(guān)的行業(yè)發(fā)展趨勢。
AI 尤其是大模型的發(fā)展意味著現(xiàn)在是進入硬件行業(yè)的好時機,GPU 巨大需求見證了英偉達盈利井噴,使之進入了 1T(萬億)市值俱樂部。
英偉達 A100、H100 GPU 集群的數(shù)量不斷增加,其芯片使用量是 AI 研究論文中所有其他同類芯片總和的 19 倍。
英偉達在持續(xù)推出新芯片的同時,舊 GPU 也表現(xiàn)出了非凡的生命周期。2017 年發(fā)布的 V100 是 2022 年 AI 研究論文中最受歡迎的 GPU。
英偉達雖在 GPU 市場稱王,但也迎來了很多挑戰(zhàn)者,比如 Cerebras。
生成式 AI 迅速崛起,OpenAI 的 ChatGPT 成為增速最快的互聯(lián)網(wǎng)產(chǎn)品之一。
但是,與 YouTube、Instagram、TikTok 或 WhatsApp 等目前最受歡迎的應(yīng)用程序相比,ChatGPT、Runway 或 Character.ai 等 GenAI 應(yīng)用程序的中值留存率和每日活躍用戶數(shù)較低。
在消費軟件領(lǐng)域之外,有跡象表明 GenAI 可以加速實體 AI 領(lǐng)域的進步。比如自動駕駛領(lǐng)域,Wayve 推出了用于生成逼真駕駛場景的 AI 大模型 GAIA-1。
此外,谷歌和 DeepMind 合并為谷歌 DeepMind,谷歌《Attention is all you need》論文作者全部離職創(chuàng)業(yè)。
OpenAI、Anthropic 等 AI 企業(yè)正在成為大模型這波技術(shù)浪潮的中堅力量。GenAI 企業(yè)籌集的種子資金比所有初創(chuàng)企業(yè)多 33%,融資金額比所有初創(chuàng)企業(yè)多 130%。
現(xiàn)有政策
報告第三部分介紹了人工智能領(lǐng)域的政策制定情況。
不出所料,數(shù)十億美元的投資和能力上的巨大飛躍已將人工智能置于政策制定者議程的首要位置。全球正圍繞著少數(shù)幾種監(jiān)管方法展開 —— 從輕微監(jiān)管到高度限制性的都有。
關(guān)于全球治理的潛在建議已經(jīng)浮出水面。英國人工智能安全峰會可能會有助于開始將這種想法具體化。
安全問題
報告第四部分總結(jié)了 AI 領(lǐng)域討論最多的安全問題。
之前的 State of AI 報告曾警告稱,大型實驗室忽視了安全問題。2023 年,關(guān)于 AI 風險的辯論集中爆發(fā),尤其是「滅絕風險」或災(zāi)難性風險,關(guān)于這些話題的討論經(jīng)常占據(jù)頭條。
當然,并不是每個人都如此悲觀,比如 Keras 作者、谷歌 AI 研究員 Fran?ois Chollet 和圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun。Chollet 表示,「不存在任何可以帶來人類滅絕風險的人工智能模型或技術(shù)…… 即使你根據(jù) scaling law 將模型能力外推到未來也不會?!沟L險投資家 Marc Andreessen 問道,「可測試的假設(shè)是什么?誰會證偽這個假設(shè)呢?」
不難看出,政策制定者對此感到震驚,并一直在努力積累關(guān)于潛在風險的知識。英國首先采取行動,成立了專門的前沿人工智能工作組,美國則啟動了國會調(diào)查。
在此環(huán)境下,大型實驗室也在積極采取措施,比如 DeepMind 和 Anthropic 都公布了相應(yīng)的安全工具,以評估模型的安全風險。與此同時,存在更大濫用風險的開源模型也備受關(guān)注,因此 Meta 等發(fā)布開源大模型的公司也在積極采取措施。
十大預(yù)測
在報告的最后一部分,作者給出了他們對于未來一年 AI 發(fā)展趨勢的一些預(yù)測:
- 一部好萊塢級別的電影將使用生成式人工智能制作視覺效果;
- 一家生成式人工智能媒體公司因在 2024 年美國大選中濫用人工智能而受到調(diào)查;
- 可以自我改進的 AI 智能體在復(fù)雜環(huán)境(如 AAA 游戲、工具使用、科學)中擊敗 SOTA;
- 科技 IPO 市場解凍,至少有一家專注于人工智能的公司上市(如 Databricks);
- 在 GenAI 擴展熱潮中,一個集團花費超過 10 億美元來訓練一個大型模型;
- 美國聯(lián)邦貿(mào)易委員會(FTC)或英國競爭和市場管理局(CMA)以競爭為由調(diào)查微軟與 OpenAI 的交易;
- 除了高級別自愿承諾之外,作者認為全球人工智能治理將進展有限;
- 金融機構(gòu)推出 GPU 債務(wù)基金,以取代用于計算融資的風險投資股權(quán)資金;
- 人工智能生成的歌曲進入 Billboard Hot 100 前 10 名或 Spotify Top Hits 2024;
- 隨著推理工作量和成本的大幅增長,一家大型人工智能公司(如 OpenAI)將收購一家專注于推理的人工智能芯片公司。
當然,這些預(yù)測并不一定完全正確。去年,他們也給出了一些預(yù)測(9 個),并在今年的報告中公布了針對這些預(yù)測的評估:其中 5 個被證明是準確的。
那么,今年有幾個預(yù)測能應(yīng)驗讓我們拭目以待。