自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤

人工智能 新聞
對(duì)于身在 AI 領(lǐng)域的工程師和學(xué)者們來說,他們看待這一年的觀點(diǎn)會(huì)有不同嗎?

剛剛過去的 2024 年是生成式 AI 大發(fā)展的一年,我們見證了 OpenAI Sora 的崛起,大模型服務(wù)價(jià)格的飛速下降,以及國內(nèi)開源大模型的奮起直追。這全方位的快速發(fā)展讓我們對(duì)下一波 AI 的新技術(shù)大規(guī)模應(yīng)用充滿了信心。

對(duì)于身在 AI 領(lǐng)域的工程師和學(xué)者們來說,他們看待這一年的觀點(diǎn)會(huì)有不同嗎?

新年伊始,就有人對(duì)過去一年里大模型技術(shù)的發(fā)展進(jìn)行了詳盡的總結(jié)。本文的作者 Simon Willison 是英國知名獨(dú)立研究員和開放源代碼創(chuàng)建者。

圖片

讓我們看看他是怎么說的。

2024 年,大型語言模型領(lǐng)域發(fā)生了很多事情。以下是過去 12 個(gè)月我們對(duì)該領(lǐng)域的研究成果的回顧,以及我嘗試確定的關(guān)鍵主題和關(guān)鍵時(shí)刻。

2023 年的總結(jié)在這里:https://simonwillison.net/2023/Dec/31/ai-in-2023/

在 2024 年,我們可以看到:

  • GPT-4 壟斷被全面打破
  • 一些 GPT-4 級(jí)模型可以在筆記本電腦上運(yùn)行
  • 由于競(jìng)爭(zhēng)和優(yōu)化,大模型服務(wù)的價(jià)格崩盤
  • 多模態(tài)視覺已經(jīng)變得常見,音頻和視頻模型開始出現(xiàn)
  • 語音和實(shí)時(shí)攝像頭模式正從科幻小說變成現(xiàn)實(shí)
  • 一個(gè)提示詞做出一個(gè) APP,已經(jīng)很普遍了
  • 對(duì)最佳模型的普遍訪問僅持續(xù)了短短幾個(gè)月
  • AI 「智能體」可能還有點(diǎn)遠(yuǎn)
  • 評(píng)估真的很重要
  • Apple Intelligence 很糟糕,但 MLX 庫很出色
  • 正在崛起的「推理」模型
  • 目前最好的 LLM 來自中國,訓(xùn)練成本不到 600 萬美元?
  • 環(huán)境影響變好了,但也在變得越來越嚴(yán)重
  • 合成訓(xùn)練數(shù)據(jù)效果很好
  • LLM 不知何故變得更難用了
  • 知識(shí)分布不均勻
  • LLM 需要更好的批評(píng)

GPT-4 壟斷被全面打破

在 2023 年 12 月的評(píng)論中,我寫了關(guān)于我們還不知道如何構(gòu)建 GPT-4——OpenAI 提出的領(lǐng)先大模型當(dāng)時(shí)已經(jīng)有近一年的歷史了,但沒有其他人工智能實(shí)驗(yàn)室能做出更好的模型。OpenAI 的做法里面有什么過人之處嗎?

令人欣慰的是,這種情況在過去十二個(gè)月里完全改變了。現(xiàn)在有 18 個(gè)公司、機(jī)構(gòu)在 Chatbot Arena 排行榜上的模型排名高于 2023 年 3 月的原始 GPT-4(排行榜上的 GPT-4-0314)—— 總共有 70 個(gè)模型。

圖片

其中最早的是谷歌于 2 月發(fā)布的 Gemini 1.5 Pro。除了產(chǎn)生 GPT-4 級(jí)別的輸出外,它還為該領(lǐng)域引入了幾項(xiàng)全新的功能 —— 最值得注意的是其 100 萬(后來是 200 萬)個(gè) token 輸入上下文長(zhǎng)度,以及接收視頻的能力。

我當(dāng)時(shí)在《The killer app of Gemini Pro 1.5 is video》中寫到了這一點(diǎn),這讓我在 5 月的谷歌 I/O 開幕主題演講中作為主持人短暫露面。

Gemini 1.5 Pro 還展示了 2024 年的一個(gè)關(guān)鍵主題:增加上下文長(zhǎng)度。去年,大多數(shù)模型接收 4096 或 8192 個(gè) token,但 Claude 2.1 是個(gè)值得注意的例外,它能接收 20 萬個(gè) token。如今,每個(gè)嚴(yán)肅的提供商都有一個(gè) 10 萬以上的 token 模型,而谷歌的 Gemini 系列最多可以接受 200 萬個(gè) token。

更長(zhǎng)的輸入極大地增加了使用 LLM 可以解決的問題范圍:你現(xiàn)在可以投入一整本書并詢問有關(guān)其內(nèi)容的問題。但更重要的是,你可以輸入大量示例代碼來幫助模型正確解決編碼問題。涉及長(zhǎng)輸入的 LLM 用例對(duì)我來說比純粹依賴模型權(quán)重中已經(jīng)嵌入的信息的短提示更有趣。我的許多工具都是使用這種模式構(gòu)建的。

回到擊敗 GPT-4 的模型:Anthropic 的 Claude 3 系列于 3 月推出,Claude 3 Opus 很快成為我最喜歡的日常大模型。他們?cè)?6 月進(jìn)一步提高了賭注,推出了 Claude 3.5 Sonnet—— 六個(gè)月后,這個(gè)模型仍然是我的最愛(盡管它在 10 月 22 日進(jìn)行了重大升級(jí),令人困惑的是保留了相同的 3.5 版本號(hào)。Anthropic 粉絲從那時(shí)起就喜歡稱它為 Claude 3.6)。

然后是其余的大模型。如果你今天瀏覽 Chatbot Arena 排行榜(仍然是獲得基于情緒的模型評(píng)估的最有用的地方),你會(huì)發(fā)現(xiàn) GPT-4-0314 已經(jīng)跌至第 70 位左右。擁有得分較高的模型的 18 家組織分別是 Google、OpenAI、阿里、Anthropic、Meta、Reka AI、01 AI、亞馬遜、Cohere、DeepSeek、英偉達(dá)、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、普林斯頓和騰訊。

一些 GPT-4 級(jí)模型可以在筆記本電腦上運(yùn)行

我的個(gè)人筆記本電腦是 2023 年的 64GB M2 MacBook Pro。這是一臺(tái)功能強(qiáng)大的機(jī)器,但它也已經(jīng)有近兩年的歷史了 —— 而且至關(guān)重要的是,我自 2023 年 3 月第一次在電腦本地上運(yùn)行 LLM 以來,一直在使用的是同一臺(tái)筆記本電腦。

去年 3 月,同一臺(tái)筆記本電腦幾乎可以運(yùn)行 GPT-3 類模型,現(xiàn)在已經(jīng)運(yùn)行了多個(gè) GPT-4 類模型!我對(duì)此的一些注釋:

Qwen2.5-Coder-32B 是一款可以很好地編碼的 LLM,可在我的 Mac 上運(yùn)行,11 月份,我談到了 Qwen2.5-Coder-32B——Apache 2.0 許可模型。

我現(xiàn)在可以在我的筆記本電腦上運(yùn)行 GPT-4 類模型,運(yùn)行 Meta 的 Llama 3.3 70B(12 月發(fā)布)。

這對(duì)我來說仍然很令人驚訝。我們?cè)緯?huì)想當(dāng)然地認(rèn)為具有 GPT-4 功能和輸出質(zhì)量的模型需要一臺(tái)數(shù)據(jù)中心級(jí)服務(wù)器,該服務(wù)器具有一個(gè)或多個(gè)價(jià)值 4 萬美元以上的 GPU。

事實(shí)上,這些模型占用了我 64GB 的內(nèi)存空間,所以我不經(jīng)常運(yùn)行它們 —— 運(yùn)行的時(shí)候就不能干其他的事了。

它們能夠運(yùn)行的事實(shí)證明了 AI 領(lǐng)域在過去一年中取得了令人難以置信的訓(xùn)練和推理性能提升。事實(shí)證明,在模型效率方面,還有很多唾手可得的成果。我預(yù)計(jì)未來還會(huì)有更多。

Meta 的 Llama 3.2 模型值得特別提及。它們可能不是 GPT-4 級(jí)別,但在 1B 和 3B 大小下,它們的性能遠(yuǎn)遠(yuǎn)超出了參數(shù)量的水平。我使用免費(fèi)的 MLC Chat iOS 應(yīng)用程序在 iPhone 上運(yùn)行 Llama 3.2 3B,對(duì)于其微?。?lt;2GB)的參數(shù)量來說,這是一個(gè)功能驚人的模型。嘗試啟動(dòng)它并要求它提供「Netflix 圣誕電影的情節(jié)大綱,其中一位數(shù)據(jù)記者愛上了一位當(dāng)?shù)氐奶沾蓭煛?。這是我得到的結(jié)果,每秒 20 個(gè) token 的速度相當(dāng)可觀:

圖片

它平淡而普通,但我的手機(jī)現(xiàn)在可以向 Netflix 推薦平淡而普通的圣誕電影了!

由于競(jìng)爭(zhēng)和優(yōu)化

大模型服務(wù)的價(jià)格崩盤

在過去的 12 個(gè)月中,通過頂級(jí)托管服務(wù)的 LLM 運(yùn)行 token 的成本急劇下降。

2023 年 12 月(這是 OpenAI 定價(jià)頁面的互聯(lián)網(wǎng)快照),OpenAI 對(duì) GPT-4 收取 30 美元 / 百萬輸入 token,對(duì)當(dāng)時(shí)新推出的 GPT-4 Turbo 收取 10 美元 /mTok,對(duì) GPT-3.5 Turbo 收取 1 美元 /mTok。

今天 30 美元 /mTok 可以讓你獲得 OpenAI 最昂貴的模型 o1。GPT-4o 售價(jià) 2.50 美元(比 GPT-4 便宜 12 倍),GPT-4o mini 售價(jià) 0.15 美元 /mTok—— 比 GPT-3.5 便宜近 7 倍,功能強(qiáng)大得多。

其他模型提供商的收費(fèi)甚至更低。Anthropic 的 Claude 3 Haiku(從 3 月開始,但仍然是他們最便宜的型號(hào))為 0.25 美元 /mTok。Google 的 Gemini 1.5 Flash 為 0.075 美元 /mTok,而他們的 Gemini 1.5 Flash 8B 為 0.0375 美元 /mTok—— 比去年的 GPT-3.5 Turbo 便宜 27 倍。

我一直在我的 llm 定價(jià)標(biāo)簽下跟蹤這些價(jià)格變化。

這些價(jià)格下降是由兩個(gè)因素驅(qū)動(dòng)的:競(jìng)爭(zhēng)加劇和效率提高。對(duì)于每個(gè)關(guān)心 LLM 對(duì)環(huán)境影響的人來說,效率真的很重要。這些價(jià)格下降與運(yùn)行提示所消耗的能源量直接相關(guān)。

關(guān)于大型 AI 數(shù)據(jù)中心建設(shè)對(duì)環(huán)境的影響,仍然有很多值得擔(dān)心的地方,但許多對(duì)單個(gè)提示的能源成本的擔(dān)憂已不再可信。

這里有一個(gè)有趣的簡(jiǎn)單計(jì)算:使用 Google 最便宜的型號(hào) Gemini 1.5 Flash 8B(10 月發(fā)布)為我個(gè)人照片庫中的每 6.8 萬張照片生成簡(jiǎn)短描述需要花費(fèi)多少錢?

每張照片需要 260 個(gè)輸入 token 和大約 100 個(gè)輸出 token。

  • 260×68,000 = 17,680,000 個(gè)輸入 token
  • 17,680,000×0.0375 美元 / 百萬 = 0.66 美元
  • 100×68,000 = 6,800,000 個(gè)輸出 token
  • 6,800,000×0.15 美元 / 百萬 = 1.02 美元

處理 68,000 張圖片的總成本為 1.68 美元。這太便宜了,我不得不計(jì)算了三次才能確認(rèn)我做對(duì)了。

這些描述有多美好?這是我從一行命令中得到的結(jié)果:

llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg

處理在加州科學(xué)院照的這張蝴蝶照片:

圖片

輸出內(nèi)容:


一個(gè)淺盤,可能是蜂鳥或蝴蝶喂食器,是紅色的。盤內(nèi)可見橙色水果片。喂食器中有兩只蝴蝶,一只深棕色/黑色蝴蝶,帶有白色/奶油色斑紋。另一只大號(hào)棕色蝴蝶,帶有淺棕色、米色和黑色斑紋,包括明顯的眼斑。較大的棕色蝴蝶似乎正在吃水果。


260 個(gè)輸入 token,92 個(gè)輸出 token。成本約為 0.0024 美分(不到 400 分之一美分)。效率的提高和價(jià)格的降低是我最喜歡的 2024 年趨勢(shì)。我希望以極低的能源成本獲得 LLM 的效用,看起來這就是我們得到的。

多模態(tài)視覺已經(jīng)變得常見

音頻和視頻模型開始出現(xiàn)

上面的蝴蝶示例說明了 2024 年的另一個(gè)關(guān)鍵趨勢(shì):多模態(tài) LLM 正在興起。

一年前,其中最引人注目的例子是 GPT-4 Vision,于 2023 年 11 月在 OpenAI 的 DevDay 上發(fā)布。谷歌的多模態(tài) Gemini 1.0 于 2023 年 12 月 7 日發(fā)布,因此它也(剛好)進(jìn)入了 2023 年的窗口。

2024 年,幾乎每個(gè)重要的模型供應(yīng)商都發(fā)布了多模態(tài)模型。我們?cè)?3 月看到了 Anthropic 的 Claude 3 系列,4 月看到了 Gemini 1.5 Pro(圖像、音頻和視頻),然后 9 月各家?guī)砹?Qwen2-VL 和 Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 視覺模型。

10 月份,我們從 OpenAI 獲得了音頻輸入和輸出,11 月份,我們從 Hugging Face 獲得了 SmolVLM,12 月份,我們從 Amazon Nova 獲得了圖像和視頻模型。

10 月份,我也升級(jí)了我的 LLM CLI 工具,以通過附件支持多模態(tài)模型。它現(xiàn)在擁有一系列不同視覺模型的插件。

我認(rèn)為,抱怨 LLM 改進(jìn)速度放緩的人往往忽略了這些多模態(tài)模型的巨大進(jìn)步。能夠針對(duì)圖像(以及音頻和視頻)運(yùn)行提示是一種應(yīng)用這些模型的迷人新方法。

語音和實(shí)時(shí)攝像頭模式

正從科幻小說變成現(xiàn)實(shí)

新興的音頻和實(shí)時(shí)視頻模式值得特別關(guān)注。

與 ChatGPT 對(duì)話的功能首次出現(xiàn)在 2023 年 9 月,但當(dāng)時(shí)還沒真正實(shí)現(xiàn):OpenAI 要用旗下的 Whisper 語音轉(zhuǎn)文本模型和一個(gè)新的文本轉(zhuǎn)語音模型(名為:tts-1)來實(shí)現(xiàn)與 ChatGPT 對(duì)話,但實(shí)際的模型還只能看到文本。

5 月 13 日,OpenAI 春季發(fā)布會(huì)推出了 GPT-4o。多模態(tài)模型 GPT-4o(o 代表「omni」,是全能的意思)能直接「聽懂」你說的每一句話 —— 接受音頻輸入并輸出令人難以置信的逼真語音,也不再需要 TTS 或 STT 模型在其中轉(zhuǎn)化。

這個(gè)演示中的聲音與斯嘉麗?約翰遜驚人地相似...... 在斯嘉麗投訴之后,這個(gè)聲音 Skye 從未在任何正式產(chǎn)品中亮相。

不過,發(fā)布會(huì)上那個(gè)讓人眼前一亮的 GPT-4o 高級(jí)語音功能在產(chǎn)品端上線的計(jì)劃一再推遲,這引起了不少討論。

當(dāng) 2024 年 8 月至 9 月期間,ChatGPT 高級(jí)語音模式最終上線時(shí),效果真的驚艷到我了。

我經(jīng)常在遛狗時(shí)使用它,更擬人的語調(diào),讓 AI 生成的內(nèi)容聽起來更生動(dòng)。試驗(yàn) OpenAI 的音頻 API 也很有趣。

更有趣的是:高級(jí)語音模式可以模仿口音!比如,我讓它「假裝你是一只帶著濃重俄羅斯口音的加利福尼亞棕鵜鶘,但只用西班牙語和我交談」:

OpenAI 不是唯一一家在搞多模態(tài)音頻模型的公司,Google 的 Gemini 也能接收語音輸入,而且 Gemini 應(yīng)用現(xiàn)在也能像 ChatGPT 一樣說話了。亞馬遜也提前宣布了他們的 Amazon Nova 會(huì)有語音模式,不過得等到 2025 年第一季度才能用上。

Google 在 9 月份發(fā)布的 NotebookLM 把音頻輸出玩出了新花樣 —— 它能生成超級(jí)逼真的「播客主持人」對(duì)話,不管你給它什么內(nèi)容都行。后來他們還加入了自定義指令功能,我當(dāng)然二話不說就把主持人都變成了鵜鶘:

最新的轉(zhuǎn)折出現(xiàn)在 12 月(這個(gè)月可真是熱鬧),就是實(shí)時(shí)視頻功能。ChatGPT 的語音模式現(xiàn)在讓你可以直接和模型分享攝像頭畫面,實(shí)時(shí)聊聊你看到的東西。Google Gemini 也推出了類似的預(yù)覽功能,這次終于搶在 ChatGPT 前一天發(fā)布了。

這些功能才剛出來幾個(gè)星期,我覺得它們的影響力還沒完全顯現(xiàn)出來。如果你還沒試過,真的要體驗(yàn)一下!

Gemini 和 OpenAI 都提供這些功能的 API 接口。OpenAI 最開始用的是比較難搞的 WebSocket API,不過在 12 月他們推出了新的 WebRTC API,用起來簡(jiǎn)單多了?,F(xiàn)在,要開發(fā)一個(gè)能和用戶語音對(duì)話的網(wǎng)頁應(yīng)用已經(jīng)變得超級(jí)容易了。

一個(gè)提示詞做出一個(gè) APP

已經(jīng)很普遍了

這在 2023 年就可以通過 GPT-4 實(shí)現(xiàn)了,但直到 2024 年它的價(jià)值才真正凸顯。

我們?cè)缇椭来笳Z言模型在寫代碼方面有著驚人的能力。如果你給出恰當(dāng)?shù)奶崾驹~,它們能用 HTML、CSS 和 JavaScript(如果配置好相關(guān)環(huán)境,還能用上 React 這樣的工具)為你構(gòu)建一個(gè)完整的交互式應(yīng)用程序 —— 通常只需要一個(gè)提示詞就夠了。

Anthropic 在發(fā)布 Claude 3.5 Sonnet 的公告中,順帶介紹了一個(gè)突破性的新功能:Claude Artifacts。這個(gè)功能起初并沒有引起太大關(guān)注,因?yàn)樗皇窃诠嬷袑懥艘幌隆?/span>

有了 Artifacts,Claude 可以為你寫一個(gè)即時(shí)交互式應(yīng)用,然后讓你直接在 Claude 界面中使用它。

這就是我用 Claude 生成的一個(gè)提取網(wǎng)頁 URL 的應(yīng)用:

圖片

現(xiàn)在 Claude Artifacts 已經(jīng)成為了我的依靠。很多其他團(tuán)隊(duì)也開發(fā)了類似的系統(tǒng),例如,GitHub 在 10 月份推出了他們的版本:GitHub Spark。Mistral Chat 在 11 月份添加了一個(gè)叫 Canvas 的類似功能。

來自 Val Town 的 Steve Krause 基于 Cerebras 構(gòu)建了一個(gè)版本,展示了一個(gè)每秒處理 2000 個(gè) token 的大語言模型如何能在不到一秒的時(shí)間內(nèi)對(duì)應(yīng)用進(jìn)行迭代更新。

到了 12 月,Chatbot Arena 團(tuán)隊(duì)為此類功能推出了一個(gè)全新的排行榜,用戶可以用兩個(gè)不同的模型構(gòu)建相同的交互式應(yīng)用,然后對(duì)結(jié)果進(jìn)行投票。

圖片

排行榜前六位

很難找到比這更有說服力的證據(jù),這項(xiàng)功能現(xiàn)在已經(jīng)成為能在所有主流模型上有效實(shí)現(xiàn)的通用功能了。

我自己也在為 Datasette 項(xiàng)目開發(fā)類似的功能,目標(biāo)是讓用戶能夠通過提示來構(gòu)建和迭代針對(duì)自己數(shù)據(jù)的自定義小部件和數(shù)據(jù)可視化。我還通過 uv 找到了一種編寫一次性 Python 程序的類似模式。

這種提示驅(qū)動(dòng)的自定義界面功能非常強(qiáng)大,而且構(gòu)建起來也很容易(只要你搞定了瀏覽器沙箱的那些棘手細(xì)節(jié)),我預(yù)計(jì)在 2025 年會(huì)有一大波產(chǎn)品都會(huì)推出類似功能。

對(duì)最佳模型的普遍訪問僅持續(xù)了短短幾個(gè)月

今年有幾個(gè)月的時(shí)間,三個(gè)最好的可用模型:GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro,都可以被世界上大多數(shù)人免費(fèi)使用。

OpenAI 在 5 月份向所有用戶開放了 GPT-4o 的免費(fèi)使用權(quán)限,而 Claude 3.5 Sonnet 從 6 月份發(fā)布起就是免費(fèi)的。

這是一個(gè)重大的改變,因?yàn)樵谥暗囊荒昀?,免費(fèi)用戶主要只能使用 GPT-3.5 級(jí)別的模型,這導(dǎo)致新用戶對(duì)大語言模型的實(shí)際能力形成了很不準(zhǔn)確的認(rèn)識(shí)。

不過,這個(gè)時(shí)代似乎已經(jīng)結(jié)束了,而且很可能是永久性的,標(biāo)志是 OpenAI 推出了 ChatGPT Pro。這項(xiàng)每月 200 美元的訂閱服務(wù)是訪問他們最強(qiáng)大的新模型(o1 Pro)的唯一途徑。

由于 o1 系列(以及「o 系列」未來的模型)背后的訣竅是投入更多的計(jì)算時(shí)間來獲得更好的結(jié)果,我認(rèn)為那些能免費(fèi)就能訪問到最頂級(jí)的模型的日子,應(yīng)該不會(huì)再回來了。

AI 「智能體」可能還有點(diǎn)遠(yuǎn)

說實(shí)話,AI Agents 這個(gè)詞讓我很頭疼。它沒有一個(gè)統(tǒng)一、清晰且被廣泛認(rèn)可的定義。更糟的是,用這個(gè)詞的人似乎從來不承認(rèn)這一點(diǎn)。

如果你告訴我你在開發(fā) AI Agents,這基本上等于什么都沒說。除非我能讀心,否則我根本不知道,AI Agents 定義有幾十種,你到底在造哪一種?

我看到的 AI Agents 開發(fā)者主要有兩類:一類認(rèn)為 AI Agents 顯然就是替你做事的東西,就像旅行社那樣;另一類人則在想象為大語言模型配備各種工具,讓大模型能夠自主驅(qū)動(dòng),執(zhí)行任務(wù)。

人們還經(jīng)常提到「autonomy」這個(gè)詞,但同樣也沒說清楚是什么意思。

(幾個(gè)月前我在推特上收集了 211 個(gè)定義,我還讓 gemini-exp-1206 試著總結(jié)了一下這些定義。)

  • 文檔鏈接:https://lite.datasette.io/?jsnotallow=https://gist.github.com/simonw/bdc7b894eedcfd54f0a2422ea8feaa80#/data/raw

不管這個(gè)詞到底是什么意思,AI Agents 總會(huì)給人一種「即將成真」的感覺。

撇開術(shù)語不談,我對(duì)它們的實(shí)用性持懷疑態(tài)度,原因還是一個(gè)老問題:大語言模型很容易「輕信」,它會(huì)照單全收你告訴它的一切。

這就暴露出一個(gè)關(guān)鍵問題:如果一個(gè)決策輔助系統(tǒng)連真假都分不清,它還能發(fā)揮多大作用?無論是旅行顧問、生活助手,還是研究工具,都會(huì)因?yàn)檫@個(gè)缺陷而大打折扣。

最近就有一個(gè)現(xiàn)成的例子:就在前幾天,谷歌搜索鬧了個(gè)大烏龍。它把粉絲創(chuàng)作網(wǎng)站上一個(gè)虛構(gòu)的《魔法滿屋 2》劇情,當(dāng)成了真實(shí)電影來介紹。

提示注入就是這種「輕信」的必然結(jié)果。自 2022 年 9 月以來我們一直在討論這個(gè)問題,但 2024 年在解決這個(gè)問題上,幾乎沒有什么進(jìn)展。

我開始覺得,最流行的 AI Agents 概念其實(shí)依賴于通用人工智能的實(shí)現(xiàn)。要讓一個(gè)模型能夠抵抗「輕信」,這真是個(gè)艱巨的任務(wù)。

評(píng)估真的很重要

Anthropic 的 Amanda Askell(負(fù)責(zé) Claude 性格塑造的主要工作者)說:


系統(tǒng)提示背后那個(gè)無聊但至關(guān)重要的秘密就是用測(cè)試驅(qū)動(dòng)開發(fā)。你不是先寫一個(gè)系統(tǒng)提示,然后再想辦法測(cè)試它,而是先寫好測(cè)試,然后找到一個(gè)能通過這些測(cè)試的系統(tǒng)提示。


2024 年的經(jīng)驗(yàn)告訴我們:在大語言模型應(yīng)用領(lǐng)域,最重要的核心競(jìng)爭(zhēng)力是什么?是一套完善的自動(dòng)化評(píng)估系統(tǒng)。

為什么這么說?因?yàn)橛辛怂?,你就能:搶占先機(jī),快人一步采用新模型,加速迭代,不斷優(yōu)化產(chǎn)品,確保功能既可靠又實(shí)用。

Vercel 的 Malte Ubl 說:


當(dāng) @v0 剛推出時(shí),我們非常擔(dān)心要用各種預(yù)處理和后處理的復(fù)雜操作來保護(hù)提示。


于是我們徹底轉(zhuǎn)變思路,給了它充分的發(fā)揮空間。但很快就發(fā)現(xiàn):沒有評(píng)估標(biāo)準(zhǔn)、沒有模型指導(dǎo)、更沒有用戶體驗(yàn)的提示,就像拿到一臺(tái)沒說明書的 ASML 機(jī)器 —— 就算再先進(jìn),也無從下手。


我還在探索最適合自己的工作模式。評(píng)估的重要性已是共識(shí),但「如何做好評(píng)估」這個(gè)問題卻仍然缺乏系統(tǒng)性的指導(dǎo)。我一直在通過評(píng)估標(biāo)簽追蹤這方面的進(jìn)展。我現(xiàn)在用的「鵜鶘騎自行車」SVG 基準(zhǔn)測(cè)試,與那些成熟的評(píng)估套件相比,還有很長(zhǎng)的路要走。

Apple Intelligence 很糟糕

但 MLX 庫很出色

去年,因?yàn)闆]有配備 NVIDIA GPU 的 Linux/Windows 機(jī)器,我在嘗試新模型的時(shí)候遇到了不少阻礙。

從配置上看,64GB 的 Mac 本應(yīng)該是運(yùn)行 AI 模型的理想之選 —— CPU 和 GPU 共享內(nèi)存的設(shè)計(jì)堪稱完美。

但現(xiàn)實(shí)很殘酷:當(dāng)下的 AI 模型在發(fā)布時(shí),基本都是以模型權(quán)重和開發(fā)庫的形式推出,而這些幾乎只適配 NVIDIA 的 CUDA 平臺(tái)。

llama.cpp 生態(tài)系統(tǒng)在這方面幫了大忙,但真正的突破是蘋果的 MLX 庫,這是一個(gè)「專為 Apple Silicon 設(shè)計(jì)的數(shù)組框架」。它真的很棒。

蘋果的 mlx-lm Python 支持在我的 Mac 上運(yùn)行各種 MLX 兼容的模型,性能非常出色。Hugging Face 上的 mlx-community 提供了超過 1000 個(gè)已轉(zhuǎn)換為必要格式的模型。

Prince Canuma 開發(fā)的優(yōu)秀且發(fā)展迅速的 mlx-vlm 項(xiàng)目也把視覺大語言模型帶到了 Apple Silicon 上。我最近用它運(yùn)行了 Qwen 的 QvQ。

雖然 MLX 是個(gè)改變游戲規(guī)則的東西,但蘋果自己的 Apple Intelligence 功能大多令人失望。我本來非常期待 Apple Intelligence,在我的預(yù)測(cè)中,我認(rèn)為蘋果繪專注于做能保護(hù)用戶隱私,打造讓用戶清晰明了、不會(huì)誤解的大語言模型應(yīng)用。

現(xiàn)在這些功能已經(jīng)推出,效果相當(dāng)差。作為一個(gè)大語言模型的重度用戶,我知道這些模型能做什么,而蘋果的大語言模型功能只是提供了一個(gè)蒼白的模仿。我們得到的是曲解新聞標(biāo)題的通知摘要,以及完全沒用的寫作助手工具,不過 emoji 生成器還是挺有意思的。

正在崛起的「推理」模型

2024 年最后一個(gè)季度最有趣的進(jìn)展是一種新型 LLM 的出現(xiàn),以 OpenAI 的 o1 模型為代表。

要理解這些模型,可以把它們看作是「思維鏈提示」技巧的延伸。這個(gè)技巧最早出現(xiàn)在 2022 年 5 月的論文《Large Language Models are Zero-Shot Reasoners》中。

這個(gè)技巧主要在說,如果你讓模型在解決問題時(shí)「大聲思考」,它往往能得到一些原本想不到的結(jié)果。

o1 把這個(gè)過程進(jìn)一步融入到了模型本身。具體細(xì)節(jié)有點(diǎn)模糊:o1 模型會(huì)花費(fèi)一些「推理 token」來思考問題(用戶看不到這個(gè)過程,不過 ChatGPT 界面會(huì)顯示一個(gè)總結(jié)),然后給出最終答案。

這里最大的創(chuàng)新在于,它開創(chuàng)了一種新的擴(kuò)展模型的方式:不單純地通過增加訓(xùn)練時(shí)的計(jì)算量來提升模型性能,而是讓模型在推理時(shí)投入更多計(jì)算資源來解決更難的問題。

o1 的續(xù)作 o3 在 12 月 20 日發(fā)布,o3 在 ARC-AGI 基準(zhǔn)測(cè)試上取得了驚人成績(jī)。不過,從 o3 的巨額推理成本來看,它可能花掉了超過 100 萬美元的計(jì)算成本!

o3 預(yù)計(jì)將在 1 月份推出。但我覺得很少有人的實(shí)際問題需要這么大的計(jì)算開銷,o3 也標(biāo)志著 LLM 架構(gòu)在處理復(fù)雜問題時(shí)邁出了實(shí)質(zhì)性的一步。

OpenAI 并不是這個(gè)領(lǐng)域的「獨(dú)角戲」。谷歌在 12 月 19 日也推出了他們的第一個(gè)類似產(chǎn)品:gemini-2.0-flash-thinking-exp。

阿里巴巴的 Qwen 團(tuán)隊(duì)在 11 月 28 日發(fā)布了他們的 QwQ 模型,我在自己電腦上就能跑。他們?cè)?12 月 24 日又推出了一個(gè)叫 QvQ 的視覺推理模型,我也在本地運(yùn)行過。

DeepSeek 在 11 月 20 日通過他們的聊天界面提供了 DeepSeek-R1-Lite-Preview 模型試用。

要深入了解推理擴(kuò)展,我推薦看看 Arvind Narayanan 和 Sayash Kapoor 寫的《Is AI progress slowing down?》這篇文章。

Anthropic 和 Meta 還沒什么動(dòng)靜,不過我賭他們肯定也在開發(fā)自己的推理擴(kuò)展模型。Meta 在 12 月發(fā)表了一篇相關(guān)論文《Training Large Language Models to Reason in a Continuous Latent Space》。

目前最好的 LLM 來自中國

訓(xùn)練成本不到 600 萬美元?

不完全是,但差不多是。這的確是個(gè)吸引眼球的好標(biāo)題。

今年年底的大新聞是 DeepSeek v3 的發(fā)布,它在圣誕節(jié)當(dāng)天連 README 文件都沒有就被放到了 Hugging Face 上,第二天就發(fā)布了文檔和論文。

DeepSeek v3 是一個(gè)龐大的 685B 參數(shù)模型,是目前最大的公開授權(quán)模型之一,比 Meta 公司最大的 Llama 系列模型 Llama 3.1 405B 還要大得多。

基準(zhǔn)測(cè)試結(jié)果表明,它與 Claude 3.5 Sonnet 不相上下。Vibe 基準(zhǔn)測(cè)試(又稱聊天機(jī)器人競(jìng)技場(chǎng))目前將其排在第 7 位,僅次于 Gemini 2.0 和 OpenAI 4o/o1 型號(hào)。這是迄今為止排名最高的公開授權(quán)模型。

DeepSeek v3 真正令人印象深刻的是其訓(xùn)練成本。該模型在 2,788,000 個(gè) H800 GPU 時(shí)內(nèi)完成了訓(xùn)練,估計(jì)成本為 5,576,000 美元。Llama 3.1 405B 訓(xùn)練了 30,840,000 個(gè) GPU 小時(shí),是 DeepSeek v3 的 11 倍,但模型的基準(zhǔn)性能卻略遜一籌。

美國對(duì)中國出口 GPU 的規(guī)定似乎激發(fā)了一些非常有效的訓(xùn)練優(yōu)化。

環(huán)境影響得到改善

模型(包括托管模型和我可以在本地運(yùn)行的模型)效率的提高帶來了一個(gè)可喜的結(jié)果,那就是在過去幾年中,運(yùn)行 Prompt 的能耗和對(duì)環(huán)境的影響大大降低了。

與 GPT-3 時(shí)代相比,OpenAI 自己的提示詞器收費(fèi)也降低了 100 倍。我有可靠消息稱,Google Gemini 和 Amazon Nova(兩家最便宜的模型提供商)都沒有虧本運(yùn)行提示詞器。

我認(rèn)為這意味著,作為個(gè)人用戶,我們完全不必為絕大多數(shù)提示詞消耗的能源感到內(nèi)疚。與在街上開車,甚至在 YouTube 上看視頻相比,其影響可能微乎其微。

同樣,訓(xùn)練也是如此。DeepSeek v3 的訓(xùn)練費(fèi)用不到 600 萬美元,這是一個(gè)非常好的跡象,表明訓(xùn)練成本可以而且應(yīng)該繼續(xù)下降。

對(duì)于效率較低的模型,我認(rèn)為將其能源使用量與商業(yè)航班進(jìn)行比較是非常有用的。最大的 Llama 3 模型的成本約等于從紐約到倫敦的一位數(shù)滿載乘客航班。這當(dāng)然不是一無是處,但一旦經(jīng)過訓(xùn)練,該模型就可以供數(shù)百萬人使用,而無需額外的訓(xùn)練成本。

環(huán)境影響也變得越來越嚴(yán)重

更大的問題在于,未來這些模式所需的基礎(chǔ)設(shè)施建設(shè)將面臨巨大的競(jìng)爭(zhēng)壓力。

谷歌、Meta、微軟和亞馬遜等公司都在斥資數(shù)十億美元建設(shè)新的數(shù)據(jù)中心,這對(duì)電網(wǎng)和環(huán)境造成了巨大影響。甚至還有人說要建立新的核電站,但這需要幾十年的時(shí)間。

這些基礎(chǔ)設(shè)施有必要嗎?DeepSeek v3 的 600 萬美元訓(xùn)練成本和 LLM 價(jià)格的持續(xù)暴跌可能暗示了這一點(diǎn)。但是,你是否希望自己成為一名大型科技公司的高管,在幾年后證明自己的觀點(diǎn)是錯(cuò)誤的情況下,仍然堅(jiān)持不建設(shè)這些基礎(chǔ)設(shè)施呢?

一個(gè)有趣的比較點(diǎn)是,19 世紀(jì)鐵路在世界各地的鋪設(shè)方式。修建這些鐵路需要巨額投資,并對(duì)環(huán)境造成巨大影響,而且修建的許多線路被證明是不必要的,有時(shí)不同公司的多條線路服務(wù)于完全相同的路線。

由此產(chǎn)生的泡沫導(dǎo)致了數(shù)次金融崩潰,參見維基百科中的 1873 年恐慌、1893 年恐慌、1901 年恐慌和英國的鐵路狂熱。它們給我們留下了大量有用的基礎(chǔ)設(shè)施,也造成了大量破產(chǎn)和環(huán)境破壞。

「泔水」之年

2024 年是「泔水」一詞成為藝術(shù)術(shù)語的一年。我在 5 月份寫過一篇文章,對(duì) @deepfates 的這條推文進(jìn)行了擴(kuò)展:


實(shí)時(shí)觀察「泔水」如何成為一個(gè)藝術(shù)術(shù)語。就像「垃圾郵件」成為不受歡迎電子郵件的專有名詞一樣,「泔水」也將作為人工智能生成的不受歡迎內(nèi)容的專有名詞被載入字典。

我把這個(gè)定義稍微擴(kuò)展了一下:


「泔水」指的是人工智能生成的未經(jīng)請(qǐng)求和審查的內(nèi)容。

最后,《衛(wèi)報(bào)》和《紐約時(shí)報(bào)》都引用了我關(guān)于泔水的論述。

以下是我在《紐約時(shí)報(bào)》上說的話:


社會(huì)需要簡(jiǎn)明扼要的方式來談?wù)摤F(xiàn)代人工智能,無論是正面的還是負(fù)面的。「忽略那封郵件,它是垃圾郵件 」和「忽略那篇文章,它是泔水」都是有用的教訓(xùn)。

我喜歡「泔水」這個(gè)詞,因?yàn)樗?jiǎn)明扼要地概括了我們不應(yīng)該使用生成式 AI 的一種方式。

「泔水」甚至還入選了 2024 年牛津年度詞匯,但最終輸給了「腦腐」。

合成訓(xùn)練數(shù)據(jù)很有效

「模型崩潰」的概念,似乎出人意料地在公眾意識(shí)中根深蒂固。2023 年 5 月,《The Curse of Recursion: Training on Generated Data Makes Models Forget》一文首次描述了這一現(xiàn)象。2024 年 7 月,《自然》雜志以更醒目的標(biāo)題重復(fù)了這一現(xiàn)象:在遞歸生成的數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),人工智能模型會(huì)崩潰。

這個(gè)想法很有誘惑力:隨著人工智能生成的「泔水」充斥互聯(lián)網(wǎng),模型本身也會(huì)退化,將以一種導(dǎo)致其不可避免滅亡的方式吸收自己的輸出。

這顯然沒有發(fā)生。相反,我們看到人工智能實(shí)驗(yàn)室越來越多地在合成內(nèi)容上進(jìn)行訓(xùn)練 — 有意識(shí)地創(chuàng)建人工數(shù)據(jù),以幫助引導(dǎo)他們的模型走向正確的道路。

我所見過的對(duì)此最好的描述之一來自 Phi-4 技術(shù)報(bào)告,其中包括以下內(nèi)容:

合成數(shù)據(jù)作為預(yù)訓(xùn)練的重要組成部分正變得越來越普遍,Phi 系列模型也一直強(qiáng)調(diào)合成數(shù)據(jù)的重要性。與其說合成數(shù)據(jù)是有機(jī)數(shù)據(jù)的廉價(jià)替代品,不如說合成數(shù)據(jù)與有機(jī)數(shù)據(jù)相比有幾個(gè)直接優(yōu)勢(shì)。

結(jié)構(gòu)化學(xué)習(xí)和逐步學(xué)習(xí)。在有機(jī)數(shù)據(jù)集中,token 之間的關(guān)系往往復(fù)雜而間接??赡苄枰S多推理步驟才能將當(dāng)前標(biāo)記與下一個(gè) token 聯(lián)系起來,這使得模型很難有效地學(xué)習(xí)下一個(gè) token 的預(yù)測(cè)。相比之下,語言模型生成的每個(gè) token 顧名思義都是由前面的標(biāo)記預(yù)測(cè)的,這使得模型更容易遵循由此產(chǎn)生的推理模式。

另一種常見的技術(shù)是使用較大的模型為較小、較便宜的模型創(chuàng)建訓(xùn)練數(shù)據(jù),越來越多的實(shí)驗(yàn)室都在使用這種技巧。DeepSeek v3 使用了 DeepSeek-R1 創(chuàng)建的「推理」數(shù)據(jù)。Meta 的 Llama 3.3 70B 微調(diào)使用了超過 2500 萬個(gè)合成生成的示例。

精心設(shè)計(jì)進(jìn)入 LLM 的訓(xùn)練數(shù)據(jù)似乎是創(chuàng)建這些模型的關(guān)鍵所在。從網(wǎng)絡(luò)上抓取全部數(shù)據(jù)并不加區(qū)分地將其投入訓(xùn)練運(yùn)行的時(shí)代已經(jīng)一去不復(fù)返了。

LLM 不知何故變得更難用了

我一直在強(qiáng)調(diào),LLM 是強(qiáng)大的用戶工具,它們是偽裝成菜刀的電鋸。它們看起來簡(jiǎn)單易用,給聊天機(jī)器人輸入信息能有多難?但實(shí)際上,要充分利用它們并避免它們的許多陷阱,你需要有深厚的理解力和豐富的經(jīng)驗(yàn)。

如果說在 2024 年,這個(gè)問題變得更加嚴(yán)重的話,好消息是我們已經(jīng)建立了可以用人類語言與之對(duì)話的計(jì)算機(jī)系統(tǒng),它們會(huì)回答你的問題,而且通常都能答對(duì)。這取決于問題的內(nèi)容、提問的方式,以及問題是否準(zhǔn)確地反映在未記錄的秘密訓(xùn)練集中。

可用系統(tǒng)的數(shù)量激增。不同的系統(tǒng)有不同的工具,它們可以用來解決你的問題,比如 Python、JavaScript、網(wǎng)絡(luò)搜索、圖像生成,甚至數(shù)據(jù)庫查詢。所以你最好了解這些工具是什么,它們能做什么,以及如何判斷 LLM 是否使用了它們。

你知道 ChatGPT 現(xiàn)在有兩種完全不同的 Python 運(yùn)行方式嗎?

想要構(gòu)建一個(gè)與外部 API 對(duì)話的 Claude 工件?你最好先了解一下 CSP 和 CORS HTTP 標(biāo)頭。

模型可能變得更強(qiáng)大了,但大多數(shù)限制卻沒有改變。OpenAI 的 o1 也許終于能大部分計(jì)算「Strawberry」中的 R,但它的能力仍然受限于其作為 LLM 的性質(zhì),以及它所運(yùn)行的線束對(duì)它的限制。O1 不能進(jìn)行網(wǎng)絡(luò)搜索,也不能使用 Code Interpreter,但 GPT-4o 卻可以 —— 兩者都在同一個(gè) ChatGPT UI 中。(如果你要求,o1 會(huì)假裝做這些事,這是 2023 年初 URL 幻覺 bug 的回歸)。

我們對(duì)此有何對(duì)策?幾乎沒有。

大多數(shù)用戶都被扔進(jìn)了深水區(qū)。默認(rèn)的 LLM 聊天 UI 就像是把全新的電腦用戶扔進(jìn) Linux 終端,然后指望他們自己能搞定一切。

與此同時(shí),終端用戶對(duì)這些設(shè)備的工作原理和功能所形成的不準(zhǔn)確的心理模型也越來越常見。我見過很多這樣的例子:有人試圖用 ChatGPT 的截圖來贏得爭(zhēng)論 — 這本來就是一個(gè)可笑的命題,因?yàn)檫@些模型本來就不可靠,再加上只要你正確提示,就能讓它們說任何話。

這也有一個(gè)反面:很多見多識(shí)廣的人已經(jīng)完全放棄了 LLM,因?yàn)樗麄儾幻靼自趺磿?huì)有人能從一個(gè)有如此多缺陷的工具中獲益。要想最大限度地利用 LLM,關(guān)鍵在于學(xué)會(huì)如何使用這種既不可靠又強(qiáng)大無比的技術(shù)。這是一項(xiàng)絕對(duì)不顯而易見的技能!

在這里,有用的教育內(nèi)容大有可為,但我們需要做得更好,而不是將其全部外包給那些在推特上狂轟濫炸的人工智能騙子。

知識(shí)分布不均勻

現(xiàn)在,大多數(shù)人都聽說過 ChatGPT。有多少人聽說過 Claude?

積極關(guān)注這些內(nèi)容的人與 99% 不關(guān)注這些內(nèi)容的人之間存在著巨大的知識(shí)鴻溝。

變革的速度也無濟(jì)于事。就在上個(gè)月,我們看到實(shí)時(shí)界面的普及,你可以將手機(jī)攝像頭對(duì)準(zhǔn)某樣?xùn)|西,然后用聲音談?wù)撍?..... 還可以選擇讓它假裝成圣誕老人。大多數(shù)自我認(rèn)證的 nerd 甚至還沒試過這個(gè)。

鑒于這項(xiàng)技術(shù)對(duì)社會(huì)的持續(xù)及潛在影響,我不認(rèn)為這種差距的存在是健康的。我希望看到更多的努力來改善這種狀況。

LLM 需要更好的批評(píng)

很多人都非常討厭這種東西。在我混跡的一些地方(Mastodon、Bluesky、Lobste.rs,甚至偶爾在 Hacker News),即使提出「LLM 很有用」,也足以引發(fā)一場(chǎng)大戰(zhàn)。

我明白不喜歡這項(xiàng)技術(shù)的理由有很多:環(huán)境影響、訓(xùn)練數(shù)據(jù)(缺乏)道德、缺乏可靠性、負(fù)面應(yīng)用、對(duì)人們工作的潛在影響。

LLM 絕對(duì)值得批評(píng)。我們需要對(duì)這些問題進(jìn)行討論,找到緩解這些問題的方法,幫助人們學(xué)會(huì)如何負(fù)責(zé)任地使用這些工具,使其正面應(yīng)用大于負(fù)面影響。

我喜歡對(duì)這些東西持懷疑態(tài)度的人。兩年多來,炒作的聲音震耳欲聾,大量的「假冒偽劣商品」和錯(cuò)誤信息充斥其中。很多錯(cuò)誤的決定都是在這種炒作的基礎(chǔ)上做出的。敢于批評(píng)是一種美德。

如果我們想讓有決策權(quán)的人在如何應(yīng)用這些工具方面做出正確的決定,我們首先需要承認(rèn)確實(shí)有好的應(yīng)用,然后幫助解釋如何將這些應(yīng)用付諸實(shí)踐,同時(shí)避免許多非實(shí)用性的陷阱。

(如果你仍然認(rèn)為根本沒有什么好的應(yīng)用,那我就不知道你為什么能讀完這篇文章了?。?。

我認(rèn)為,告訴人們整個(gè)領(lǐng)域都是環(huán)境災(zāi)難性的剽竊機(jī)器,不斷地胡編亂造,無論這代表了多少真理,都是對(duì)這些人的傷害。這里有真正的價(jià)值,但實(shí)現(xiàn)這種價(jià)值并不直觀,需要指導(dǎo)。我們這些了解這些東西的人有責(zé)任幫助其他人弄明白。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-07-11 15:30:08

GPT-4架構(gòu)

2024-04-16 12:15:42

AI模型

2023-05-19 13:01:10

ChatGPT模型

2024-07-08 13:11:40

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-09-03 12:56:43

2024-12-27 10:27:58

2024-12-30 15:15:07

2024-09-26 00:11:01

2023-11-13 07:56:16

AI模型

2023-02-20 13:50:39

AI 領(lǐng)域建模大數(shù)據(jù)

2024-07-22 09:01:20

2023-05-08 12:47:48

IBM模型

2023-09-02 11:24:02

模型研究

2023-03-30 11:08:49

AI模型訓(xùn)練

2025-02-05 14:26:37

2024-05-20 08:20:00

OpenAI模型

2024-03-08 12:53:42

AI數(shù)據(jù)

2024-03-08 13:18:44

模型訓(xùn)練

2023-06-19 08:19:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)