2024 AI行業(yè)革新大事記
智能體崛起
人工智能界為能夠自主行動(dòng)的系統(tǒng)奠定了基礎(chǔ),通過(guò)迭代提示大型語(yǔ)言模型,在各種應(yīng)用中實(shí)現(xiàn)了性能的大幅提升。
發(fā)生了什么
“智能體” 成為了人工智能領(lǐng)域的新熱詞。研究人員、工具供應(yīng)商和模型開(kāi)發(fā)者紛紛為大型語(yǔ)言模型 (LLM) 賦予了決策和行動(dòng)能力,以實(shí)現(xiàn)特定目標(biāo)。這些進(jìn)展預(yù)示著來(lái)年及未來(lái)智能體應(yīng)用將迎來(lái)爆發(fā)式增長(zhǎng)。
幕后推手
多種工具的出現(xiàn),助力開(kāi)發(fā)者構(gòu)建智能體工作流程。
2023 年 10 月
├── CrewAI 發(fā)布了開(kāi)源 Python 框架,用于構(gòu)建和管理多智能體系統(tǒng)
2023 年末
├── 微軟推出了智能體開(kāi)發(fā)工具 Autogen,這是一個(gè)開(kāi)源的對(duì)話框架,用于協(xié)調(diào)多個(gè)智能體之間的協(xié)作
2024 年 1 月
├── LangChain 推出了 LangGraph,利用循環(huán)圖協(xié)調(diào)智能體行為
2024 年 9 月
├── Meta 推出了 Llama Stack,用于構(gòu)建基于 Llama 模型的智能體應(yīng)用程序
2024 年末
├── Autogen 團(tuán)隊(duì)成員基于原代碼庫(kù)構(gòu)建了 AG2
├── OpenAI 發(fā)布了 o1 模型和計(jì)算密集型的 o1 pro 模式,采用智能體循環(huán)逐步處理用戶指令
├── DeepSeek-R1 和 Google Gemini 2.0 Flash 的思考模式也采用了類似的智能體推理方式
├── OpenAI 宣布發(fā)布 o3 和 o3-preview,拓展了 o1 的智能體推理能力
2024 貫穿全年
├── 集成開(kāi)發(fā)環(huán)境應(yīng)用了智能體工作流程來(lái)生成代碼(如 Devin、OpenHands、Replit Agent、Vercel V0、Bolt)
├── LLM 廠商實(shí)現(xiàn)工具調(diào)用和函數(shù)調(diào)用,為智能體工作流程提供支持(如 Anthropic 的 Claude 3.5 Sonnet)
技術(shù)解析
更加精細(xì)地提示 LLM 的技術(shù)在 2022 年開(kāi)始嶄露頭角,并在今年年初匯聚成智能體人工智能的發(fā)展趨勢(shì)。這項(xiàng)工作的基本范例包括:
- 思維鏈 提示:引導(dǎo) LLM 逐步思考。
- 自我一致性:提示模型生成多個(gè)響應(yīng),并選擇與其它響應(yīng)最一致的那個(gè)。
- ReAct:交錯(cuò)推理和行動(dòng)步驟以達(dá)成目標(biāo)。
- 自我優(yōu)化:使智能體能夠反思自身的輸出。
- 反思:使模型能夠行動(dòng)、評(píng)估、反思并重復(fù)。
- 測(cè)試時(shí)計(jì)算:增加分配給推理的計(jì)算能力。
當(dāng)前形勢(shì)
智能體時(shí)代已經(jīng)到來(lái)!無(wú)論 規(guī)模定律 如何繼續(xù)推動(dòng)基礎(chǔ)模型性能的提升,智能體工作流程都正在使人工智能系統(tǒng)變得更加實(shí)用、高效和個(gè)性化。
價(jià)格大幅下降
模型制造商和云服務(wù)提供商之間的激烈競(jìng)爭(zhēng)導(dǎo)致了最先進(jìn)模型的使用價(jià)格大幅下降。
發(fā)生了什么
人工智能服務(wù)提供商之間掀起了一場(chǎng) 價(jià)格戰(zhàn),以吸引付費(fèi)客戶。一個(gè)重要的風(fēng)向標(biāo)是:從 2023 年 3 月到 2024 年 11 月,即使性能有所提升、輸入上下文窗口擴(kuò)大、模型也能夠處理圖像和文本,OpenAI 仍將其模型云訪問(wèn)的每 token 價(jià)格降低了近 90%。
幕后推手
導(dǎo)致價(jià)格下降的因素包括開(kāi)源、計(jì)算效率更高的模型,以及對(duì)在推理過(guò)程中消耗更多 token 的智能體工作流程的追捧。OpenAI 的 GPT-4 Turbo 于 2023 年底首次亮相,設(shè)定了每百萬(wàn) token 輸入/輸出 10.00 美元/30.00 美元的基準(zhǔn)價(jià)格。之后,頂級(jí)的模型制造商紛紛大幅降價(jià):谷歌和 OpenAI 在高端市場(chǎng)競(jìng)爭(zhēng),中國(guó)公司則專注于低端市場(chǎng),而亞馬遜則在兩個(gè)市場(chǎng)都有布局。與此同時(shí),一些擁有專用硬件的初創(chuàng)公司以遠(yuǎn)低于行業(yè)巨頭的價(jià)格提供了開(kāi)源模型。
2024 年 4 月
├── Meta 發(fā)布了 Llama 3 70B,定價(jià)為每百萬(wàn) token 輸入/輸出 0.78 美元/0.95 美元
2024 年 5 月
├── DeepSeek 發(fā)布了 DeepSeek V2,定價(jià)為每百萬(wàn) token 輸入/輸出 0.14 美元/0.28 美元
├── OpenAI 推出了 GPT-4o,定價(jià)為每百萬(wàn) token 輸入/輸出 5.00 美元/15.00 美元
2024 年 7 月
├── Meta 發(fā)布了 Llama 3.1 405B,微軟 Azure 定價(jià)幾乎是 GPT-4 Turbo 的一半(5.33 美元/16.00 美元)
2024 年 8 月
├── OpenAI 將 GPT-4o 的價(jià)格降至 2.50 美元/10.00 美元
├── GPT-4o mini 發(fā)布,定價(jià)為每百萬(wàn) token 輸入/輸出 0.15 美元/0.60 美元
2024 年 12 月
├── 亞馬遜發(fā)布了 Nova 系列 LLM,Nova Pro 定價(jià)為每百萬(wàn) token 輸入/輸出 0.80 美元/3.20 美元
├── Nova Lite(0.06 美元/0.24 美元)和 Nova Micro(0.035 美元/0.14 美元)發(fā)布
├── 谷歌將 Gemini 1.5 Pro 定價(jià)降至每百萬(wàn) token 輸入/輸出 1.25 美元/5.00 美元
├── Gemini 1.5 Flash 定價(jià)降至每百萬(wàn) token 輸入/輸出 0.075 美元/0.30 美元
├── Gemini 2.0 Flash 可免費(fèi)試用,API 價(jià)格尚未公布
├── 初創(chuàng)公司設(shè)計(jì)專用芯片提升性能并降低開(kāi)源模型服務(wù)的成本(如 SambaNova、DeepInfra 等)
事實(shí)是
對(duì)計(jì)算密集型模型的追求仍在繼續(xù),只是面臨著新的挑戰(zhàn)。9 月,OpenAI 推出 了 token 消耗量較高、價(jià)格也相對(duì)較高的模型:o1-preview (每百萬(wàn) token 輸入/輸出 15.00 美元/60.00 美元) 和 o1-mini (3.00 美元/12.00 美元)。12 月,o1 發(fā)布了一個(gè)更精確的專業(yè)模式,但僅限于每月支付 200 美元的訂閱用戶。
新聞背后
人工智能界的知名人士紛紛反對(duì)那些可能限制開(kāi)源模型的法規(guī),因?yàn)殚_(kāi)源模型在降低價(jià)格方面起到了重要作用。開(kāi)發(fā)人員的反對(duì)意見(jiàn)幫助阻止了加州 SB 1047 法案的通過(guò),該法案要求規(guī)模超過(guò)一定限制的模型開(kāi)發(fā)者對(duì)其模型造成的意外損害承擔(dān)責(zé)任,并要求設(shè)置一個(gè)“關(guān)閉開(kāi)關(guān)”,使開(kāi)發(fā)者能夠禁用這些模型。對(duì)于任何人都可能修改和部署的開(kāi)源模型而言,這是一個(gè)難以實(shí)現(xiàn)的要求。加州州長(zhǎng)加文·紐瑟姆于 10 月份否決了該法案。
當(dāng)前形勢(shì)
價(jià)格下降是健康技術(shù)生態(tài)系統(tǒng)的體現(xiàn)。需求量大的模型很可能始終保持相對(duì)較高的價(jià)格,但市場(chǎng)上的定價(jià)正逐漸趨向以美分而非美元為單位,每百萬(wàn) token。
生成式視頻爆發(fā)
強(qiáng)大的視頻生成模型大量涌現(xiàn),標(biāo)志著視頻生成技術(shù)取得了重大突破。
發(fā)生了什么
各大公司紛紛推出新的或更新的文本到視頻生成器。一些模型還增加了圖像到視頻和/或視頻到視頻的功能。雖然大多數(shù)模型專注于生成電影片段,但也有一些模型專門(mén)用于社交媒體視頻。
幕后推手
盡管人工智能領(lǐng)域最近發(fā)展迅猛,但在過(guò)去一年里,視頻生成器還是以驚人的速度走向成熟。幾乎所有主要模型都能生成令人信服、高度精細(xì)的場(chǎng)景,無(wú)論是逼真還是虛幻的,同時(shí)還在不斷提高圖像分辨率、速度、輸出長(zhǎng)度以及用戶控制輸出的能力。
2024 年 2 月
├── OpenAI Sora 發(fā)布,并私下展示給好萊塢的創(chuàng)作者
2024 年 5 月
├── Runway Gen 3 Alpha 和 Gen 3 Alpha Turbo 發(fā)布,生成更高分辨率的視頻,并引入 API
2024 年 10 月
├── 字節(jié)跳動(dòng)發(fā)布 PixelDance 和 Seaweed,分別生成 10 秒和 30 秒的視頻片段
2024 年 11 月
├── 未經(jīng)授權(quán)的用戶獲得了 OpenAI Sora 訪問(wèn)權(quán)限
2024 年 12 月
├── OpenAI 正式發(fā)布 Sora 模型,廣泛開(kāi)放給用戶
2025 年
├── Meta 推出 Movie Gen,包含四個(gè)系統(tǒng),特別擅長(zhǎng)生成配樂(lè),將于 2025 年在 Instagram 上推出
2024 貫穿全年
├── Adobe 將 Firefly Video 模型集成到 Premiere Pro 中,供視頻藝術(shù)家生成片段、特效等
├── 中國(guó)模型開(kāi)發(fā)商調(diào)整模型以適應(yīng)社交媒體需求(如 Kling AI、PixVerse、Jimeng AI)
新聞背后
視頻生成技術(shù)正在重塑電影產(chǎn)業(yè)。2 月,在觀看 Sora 的預(yù)覽后,美國(guó)電影制作人泰勒·佩里 暫停 了他計(jì)劃的制片廠擴(kuò)建,他認(rèn)為不出幾年,AI 視頻可能會(huì)使傳統(tǒng)制片廠倒閉?!端沟俜摇た茽柌赝黹g秀》的視頻圖形團(tuán)隊(duì)成員 使用 Runway 的技術(shù),為傳統(tǒng)的數(shù)字視頻添加特效,將編輯時(shí)間從數(shù)小時(shí)縮短到數(shù)分鐘。
當(dāng)前形勢(shì)
視頻生成技術(shù)在 2024 年取得了顯著進(jìn)步,但仍有很大的改進(jìn)空間。由于大多數(shù)模型一次只能生成少量幀,因此難以跟蹤物理和幾何關(guān)系,也難以在一段時(shí)間內(nèi)生成一致的角色和場(chǎng)景。保持幀之間一致性的計(jì)算需求意味著生成的片段都很短。即使是短片段也需要大量的時(shí)間和資源才能生成:Sora 可能需要 10 到 20 分鐘才能 渲染 短至 3 秒的片段。OpenAI 和 Runway 發(fā)布了更快的版本 Sora Turbo 和 Gen-3 Alpha Turbo,以應(yīng)對(duì)這一挑戰(zhàn)。
小型化趨勢(shì)
多年來(lái),最好的人工智能模型變得越來(lái)越大。但在 2024 年,一些流行的大型語(yǔ)言模型已經(jīng)足夠小,可以在智能手機(jī)上運(yùn)行。
發(fā)生了什么
頂級(jí)人工智能公司不再將所有資源投入到構(gòu)建大型模型上,而是推廣了一系列包含小型、中型和大型模型的大型語(yǔ)言模型。諸如微軟 Phi-3 (包含約 38 億、70 億和 140 億參數(shù)的版本)、谷歌 Gemma 2 (20 億、90 億和 270 億參數(shù)) 以及 Hugging Face SmolLM (1.35 億、3.6 億和 17 億參數(shù)) 等模型系列都專注于小型化。
幕后推手
小型模型之所以變得更加強(qiáng)大,得益于知識(shí)蒸餾 (使用大型教師模型訓(xùn)練較小的學(xué)生模型以匹配其輸出)、參數(shù)修剪 (刪除影響較小的參數(shù))、量化 (通過(guò)使用更少的位表示每個(gè)參數(shù)來(lái)減小神經(jīng)網(wǎng)絡(luò)的大小) 等技術(shù),以及對(duì)高質(zhì)量訓(xùn)練數(shù)據(jù)集的日益重視。除了性能、速度和價(jià)格外,在相對(duì)低功耗的硬件上運(yùn)行的能力也是一個(gè)重要的競(jìng)爭(zhēng)優(yōu)勢(shì)。
2019 年
├── 谷歌推出 T5 系列(包含 5 個(gè)模型,參數(shù)量從大約 7700 萬(wàn)到 110 億不等)
├── OpenAI 發(fā)布 GPT 系列,成功驗(yàn)證了規(guī)模定律,模型參數(shù)量從 1.17 億增長(zhǎng)到推測(cè)的 1.76 萬(wàn)億
2023 年初
├── Meta 發(fā)布 Llama 2,推出 70 億、130 億和 700 億三種參數(shù)規(guī)模的模型,并開(kāi)源了權(quán)重
2023 年 12 月
├── 谷歌推出 Gemini 系列,其中包括 Gemini Nano(18 億參數(shù))
├── 微軟推出 Phi-2(27 億參數(shù))
2024 年 2 月
├── 谷歌發(fā)布小型開(kāi)源模型 Gemma 1(20 億和 70 億參數(shù))
2024 年 4 月
├── 微軟推出 Phi-3(38 億、70 億和 140 億參數(shù))
2024 年 8 月
├── Nvidia 發(fā)布 Minitron 模型,采用蒸餾和修剪技術(shù),減少了 Llama 3.1 和 Mistral NeMo 的參數(shù)量并提高了效率
新聞背后
蒸餾、修剪、量化和數(shù)據(jù)收集都是長(zhǎng)期存在的技術(shù)。但這些技術(shù)以前從未實(shí)現(xiàn)如此高的小型化和能力比率,這可能歸因于被蒸餾、修剪或量化的更大模型的能力空前強(qiáng)大。
- 1989 年,Yann LeCun 和貝爾實(shí)驗(yàn)室的同事發(fā)表了“最優(yōu)大腦損傷”,該文章表明,選擇性地刪除權(quán)重可以減小模型的大小,并在某些情況下提高其泛化能力。
- 量化技術(shù)可以追溯到 1990 年,當(dāng)時(shí)阿拉巴馬大學(xué)的 E. Fiesler 及其同事在“光學(xué)神經(jīng)網(wǎng)絡(luò)的權(quán)重離散化范式”中展示了表示神經(jīng)網(wǎng)絡(luò)參數(shù)的各種方法。隨著神經(jīng)網(wǎng)絡(luò)的普及和規(guī)模的擴(kuò)大,該技術(shù)在 2010 年代再次興起,并推動(dòng)了 量化感知訓(xùn)練 和 訓(xùn)練后量化 技術(shù)的完善。
- 2006 年,Rich Caruana 和康奈爾大學(xué)的同事發(fā)表了“模型壓縮”,展示了如何訓(xùn)練單個(gè)模型來(lái)模擬多個(gè)模型的性能。Geoffrey Hinton 和谷歌大腦的同事在 2015 年發(fā)表了“提煉神經(jīng)網(wǎng)絡(luò)中的知識(shí)”,改進(jìn)了 Caruana 等人的研究,并引入了蒸餾一詞來(lái)描述一種更通用的模型壓縮方法。
- 目前大多數(shù)小型模型都是在經(jīng)過(guò)精心策劃和清洗的數(shù)據(jù)集上訓(xùn)練的。更高質(zhì)量的數(shù)據(jù)使以更少的參數(shù)獲得更高的性能成為可能。這是 以數(shù)據(jù)為中心的人工智能 的一個(gè)例子,即通過(guò)提高訓(xùn)練數(shù)據(jù)的質(zhì)量來(lái)提高模型性能。
當(dāng)前形勢(shì)
小型模型極大地?cái)U(kuò)展了成本、速度和部署方面的選擇。隨著研究人員不斷找到在不犧牲性能的前提下縮小模型的方法,開(kāi)發(fā)者將獲得更多構(gòu)建盈利應(yīng)用程序、提供及時(shí)服務(wù)并將計(jì)算能力分布到互聯(lián)網(wǎng)邊緣的新途徑。
收購(gòu)新思路
大型人工智能公司找到了在不收購(gòu)初創(chuàng)公司的情況下獲取尖端技術(shù)和人才的創(chuàng)新方法。
發(fā)生了什么
在 2024 年,一些科技巨頭與人工智能初創(chuàng)公司達(dá)成了新的合作協(xié)議,聘請(qǐng)了高管并獲得了技術(shù)訪問(wèn)權(quán)限,而沒(méi)有直接收購(gòu)這些公司。這些協(xié)議使巨頭能夠快速獲得頂尖人才和成熟技術(shù),并降低了監(jiān)管機(jī)構(gòu)可能會(huì)阻礙此類行動(dòng)的風(fēng)險(xiǎn)。而初創(chuàng)公司則失去了領(lǐng)導(dǎo)團(tuán)隊(duì)以及對(duì)關(guān)鍵技術(shù)發(fā)展的控制權(quán)。作為回報(bào),他們獲得了資金(至少在某些情況下是如此),回報(bào)了投資者,并得以從構(gòu)建尖端模型的開(kāi)支中抽身。
幕后推手
微軟、亞馬遜和谷歌分別利用其雄厚的財(cái)力和云基礎(chǔ)設(shè)施,與 Inflection AI、Adept AI 和 Covariant 以及 Character.ai 達(dá)成了合作協(xié)議。(聲明:吳恩達(dá)是亞馬遜董事會(huì)成員。)
2024 年 3 月
├── 微軟向 Inflection AI 投資 6.5 億美元,獲得其對(duì)話式人工智能技術(shù)的授權(quán)
├── 微軟聘請(qǐng) Inflection AI 聯(lián)合創(chuàng)始人 Mustafa Suleyman 和 Karén Simonyan,任命 Suleyman 為新人工智能部門(mén)首席執(zhí)行官
2024 年 7 月
├── 亞馬遜與 Adept 達(dá)成協(xié)議,獲得其智能體技術(shù)授權(quán)并聘請(qǐng) Adept AI 的大部分員工(包括 CEO David Luan)
2024 年 8 月
├── 谷歌與 Character.ai 達(dá)成協(xié)議,聘請(qǐng)聯(lián)合創(chuàng)始人 Noam Shazeer 和 Daniel De Freitas 及團(tuán)隊(duì)成員
├── 谷歌向 Character.ai 提供未公開(kāi)資金,用于收購(gòu)其投資者并繼續(xù)開(kāi)發(fā)個(gè)性化人工智能產(chǎn)品
2024 年 10 月
├── 亞馬遜與倉(cāng)庫(kù)機(jī)器人制造商 Covariant 達(dá)成協(xié)議,獲得其機(jī)器人模型授權(quán)并聘請(qǐng)大部分員工(包括 CEO Peter Chen 和首席科學(xué)家 Pieter Abbeel)
2024 年 12 月
├── 亞馬遜將 Abbeel 和前 Adept CEO Luan 安排在一起,負(fù)責(zé)開(kāi)發(fā)新智能體和通用人工智能的實(shí)驗(yàn)室
新聞背后
科技巨頭長(zhǎng)期以來(lái)一直依賴傳統(tǒng)的收購(gòu)方式來(lái)獲取新的人才和能力,通常收購(gòu)初創(chuàng)公司是為了其技術(shù)團(tuán)隊(duì)(即人才收購(gòu))和/或其產(chǎn)品或基礎(chǔ)技術(shù),而這些產(chǎn)品或技術(shù)都需要耗費(fèi)大量資金和時(shí)間進(jìn)行開(kāi)發(fā)和市場(chǎng)測(cè)試。但傳統(tǒng)的收購(gòu)方式正面臨著反壟斷監(jiān)管機(jī)構(gòu)日益嚴(yán)格的審查,他們擔(dān)心大公司通過(guò)收購(gòu)小公司來(lái)減少市場(chǎng)競(jìng)爭(zhēng)。例如,美國(guó)聯(lián)邦貿(mào)易委員會(huì)曾試圖阻止亞馬遜收購(gòu) iRobot,最終導(dǎo)致兩家公司在 2024 年 1 月 放棄 了這項(xiàng)交易。
當(dāng)前形勢(shì)
對(duì)于那些面臨著在快速發(fā)展研究和市場(chǎng)中保持競(jìng)爭(zhēng)力的科技巨頭來(lái)說(shuō),向初創(chuàng)公司支付一筆總付金額和/或許可費(fèi)以換取頂尖人才和技術(shù)似乎已經(jīng)成為新的常態(tài)。但即使是這種有一定距離的合作安排,也無(wú)法讓科技巨頭和初創(chuàng)公司免受監(jiān)管機(jī)構(gòu)的調(diào)查。微軟對(duì) Inflection AI 的投資曾在歐洲受到 短暫審查,目前仍在接受美國(guó)監(jiān)管機(jī)構(gòu)的 評(píng)估。即使是微軟對(duì) OpenAI 的更傳統(tǒng)的 投資,以及亞馬遜和谷歌在 Anthropic 中的利益也面臨著監(jiān)管障礙。然而,到目前為止,監(jiān)管機(jī)構(gòu)尚未得出任何這些協(xié)議違反反壟斷法的結(jié)論。
本文轉(zhuǎn)載自 ??AI小智??,作者: AI小智
