看看 AI 大牛日常如何使用大模型
1、目錄
- LLMs 的演變格局
- 超越文本:擁抱多模態(tài)
- 思考模型:何時讓人工智能“思考”
- 工具使用:互聯(lián)網(wǎng)搜索和深度研究
- 深度研究:通過集成搜索和推理生成全面報告
- 文件上傳用于文檔和多媒體
- Python 解釋器:動態(tài)代碼執(zhí)行和數(shù)據(jù)分析
- 自定義視覺和代碼工具:Claude 工件和光標(biāo)作曲器
- 音頻交互和 NotebookLM 播客生成
- 視覺模態(tài):圖像輸入/OCR、圖像輸出和視頻處理
- 個性化:記憶、自定義指令和自定義 GPTs
- 初學(xué)者的經(jīng)驗教訓(xùn):最大化你的 LLM 體驗
- 結(jié)束語
2、LLMs 的演變格局
Karpathy 首先描繪了不斷擴展的 LLMs 生態(tài)系統(tǒng)。雖然 ChatGPT 仍然是推動力量,但他還強調(diào)了 Gemini、Copilot、Claude、Grok 等新興競爭對手,以及 DeepSeek 和 LeChat 等國際參與者。每個模型都提供獨特的功能、定價層次和體驗。
“ChatGPT 是對話式人工智能的原始黑幫,但生態(tài)系統(tǒng)已經(jīng)發(fā)展成為一個多樣化的實驗和專業(yè)化的游樂場,”他解釋道。
LLMs 的演變格局
在播客的過程中,Karpathy 還提供了一些鏈接,你可以在其中比較和分析這些模型的性能:
使用這 2 個鏈接,我們可以跟蹤當(dāng)前可公開利用的幾種模型。
3、超越文本:擁抱多模態(tài)
讓我們在下面詳細探討多模態(tài)。
?文本生成
在生成文本方面,ChatGPT 等模型在創(chuàng)造性任務(wù)中表現(xiàn)出色,例如寫詩歌、求職信、簡歷甚至電子郵件回復(fù)。正如 Karpathy 所說,我們與這些模型的互動以“聊天氣泡”的形式出現(xiàn),這些氣泡包含了你與人工智能之間的動態(tài)對話。
文本生成
解密魔法:token 和上下文
每次你輸入查詢時,模型都會將你的文本分解為更小的單元塊,稱為 token。你可以使用 OpenAI 的 Tokenizer 或 Tiktokenizer 等工具探索此過程。這些 token 形成一個序列,通常稱為 token 序列或上下文窗口,它充當(dāng)人工智能的工作內(nèi)存。
iktokenizer
chatgpt model
在幕后,輸入和輸出序列中還添加了額外的標(biāo)記。這些技術(shù)包括詞性標(biāo)注和命名實體識別,類似于你在 Penn Treebank 中找到的內(nèi)容。這些標(biāo)簽有助于模型更好地理解每個詞的角色和身份。
token 化算法和特殊 token
現(xiàn)代語言模型通常使用字節(jié)對編碼將單詞拆分為子詞。例如,單詞 “university” 可能被分解為 “uni”、“vers” 和 “ity”。此過程確保即使是罕見或復(fù)雜的單詞也能以模型可處理的方式表示。
token 化算法和特殊 token
一些重要的特殊 token 包括:
- <|endoftext|>:token 序列的結(jié)束。
- <|user|> 和 <|assistant|>:區(qū)分用戶輸入和人工智能的輸出。
Karpathy 用一個圖表生動地說明了這一點,顯示了一個新的聊天如何從一個空的 token 流開始。一旦你輸入查詢,模型就會接管,附加自己的 token 流。這個連續(xù)的流,稱為上下文窗口,代表了指導(dǎo)人工智能響應(yīng)的工作內(nèi)存。
人工智能訓(xùn)練的兩大支柱:預(yù)訓(xùn)練和后訓(xùn)練
╱╲人工智能訓(xùn)練的兩大支柱
“我喜歡把模型想象成一個 1 TB 的 zip 文件,它充滿了來自互聯(lián)網(wǎng)的壓縮知識,但是人類在后訓(xùn)練中的觸碰賦予了它靈魂,”他解釋道。
Transformer 架構(gòu)
LLMs 的核心是 Transformer 架構(gòu)。關(guān)鍵元素包括:
- 自注意力機制:此機制允許模型衡量序列中不同 token 的重要性。它計算注意力得分,以便模型在生成響應(yīng)時可以專注于輸入的相關(guān)部分。
- 位置編碼:由于 Transformer 缺乏固有的順序信息,因此會向 token 添加位置編碼以保留單詞的順序。
- 前饋網(wǎng)絡(luò)和層歸一化:這些組件幫助處理注意力輸出并穩(wěn)定訓(xùn)練。
要真正理解這些模型如何生成文本,了解其訓(xùn)練的如下兩個主要階段至關(guān)重要。
預(yù)訓(xùn)練:將互聯(lián)網(wǎng)壓縮成參數(shù)
在這個階段,模型處理來自書籍、網(wǎng)站、代碼存儲庫和學(xué)術(shù)論文的大量數(shù)據(jù)。把它看作將世界知識壓縮到參數(shù) “zip 文件” 中:
- 數(shù)據(jù)規(guī)模和來源:GPT-4 等模型處理的 token 數(shù)量相當(dāng)于數(shù)百萬本書或數(shù)十億個網(wǎng)頁。
- Transformer 架構(gòu):這些網(wǎng)絡(luò)通過順序處理 token 來學(xué)習(xí)單詞之間的關(guān)系。
- 參數(shù)壓縮:知識存儲在神經(jīng)網(wǎng)絡(luò)參數(shù)中,充當(dāng)“有損 zip 文件”。這意味著雖然模型保留了一般知識,但一些細枝末節(jié)可能會被省略。
- 概率性質(zhì):由于模型根據(jù)可能性預(yù)測下一個 token ,因此有時會生成不完全準(zhǔn)確的輸出,通常稱為幻覺。
- 成本和局限性:預(yù)訓(xùn)練非常昂貴,需要幾個月的計算時間,成本高達數(shù)千萬美元。此過程還導(dǎo)致知識截止,這意味著模型的信息僅限于其最后一次訓(xùn)練更新。
后訓(xùn)練:專門用于人類互動
預(yù)訓(xùn)練之后,模型經(jīng)過后訓(xùn)練(或監(jiān)督微調(diào)),學(xué)習(xí)與人類互動:
- 人類標(biāo)記數(shù)據(jù):對話通過精選示例進行微調(diào),其中提示與理想響應(yīng)配對。
- 角色扮演:模型學(xué)會扮演特定角色,無論是老師、助手還是客戶支持代理,使其互動更加自然。除了記憶,用戶還可以設(shè)置自定義指令來調(diào)整人工智能的語氣、風(fēng)格和正式程度。此功能在需要語言學(xué)習(xí)或內(nèi)容創(chuàng)建的任務(wù)中特別有用,因為聲音的一致性至關(guān)重要。
- 任務(wù)專業(yè)化:通過針對性訓(xùn)練,在問答、代碼生成和創(chuàng)意寫作等領(lǐng)域提高了性能。
- 減少幻覺:雖然不能完全消除,但后訓(xùn)練有助于加強事實準(zhǔn)確性。
Karpathy 還指出,隨著我們與這些模型的對話變得越來越長,重新開始新的聊天以切換主題通常是有益的。這將重置上下文窗口,確保模型的響應(yīng)保持準(zhǔn)確和高效。
模型選擇:找到平衡點
選擇模型時,必須在成本和性能之間進行權(quán)衡:
- 免費層:提供適合簡單任務(wù)(如草擬電子郵件或創(chuàng)意寫作)的基本功能。
- 付費層:提供高級功能,包括更廣泛的知識、更快的推理和對互聯(lián)網(wǎng)搜索和代碼執(zhí)行等工具的訪問。例如,調(diào)試復(fù)雜代碼的開發(fā)人員可能會選擇 GPT-4,盡管成本較高,而總結(jié)教科書章節(jié)的學(xué)生可能會發(fā)現(xiàn)免費模型已經(jīng)足夠好用。
模型選擇
一個有趣的個人技巧來自于實驗多個模型。例如,當(dāng)我問 Gemini 推薦一個酷城市時,我得到了 Zermatt 的答案,這是一個我覺得很有吸引力的建議。Gemini 的界面左上角有一個模型選擇器,你可以通過它升級到更高級的層次以提高性能。Grok 也是如此:我更喜歡使用 Grok 3,因為它是最先進的版本。實際上,我經(jīng)常為多個模型付費,并向它們詢問同一個問題,將它們視為我的個人 “LLM 委員會”。這樣,我可以比較響應(yīng)并決定哪個模型最適合我的需求,無論我是在計劃度假還是解決技術(shù)問題。
關(guān)鍵要點是,為你正在處理的特定挑戰(zhàn)嘗試不同的提供商和定價層次。通過這種方式,你可以找到最適合你工作流程的模型,甚至利用多個模型獲得全面的視角。
解碼和采樣技術(shù)
在生成文本時,模型并不是每次都簡單地選擇可能性最高的 token 。相反,它使用各種解碼策略:
- 核采樣(Top-p 采樣):模型從累積概率達到閾值的 token 子集中進行選擇。
- Top-k 采樣:將選擇限制為可能性最高的前 k 個 token 。
- 束搜索:并行探索多個可能的 token 序列,以找到最連貫的輸出。
通過外部工具增強功能
現(xiàn)代 LLMs 不僅僅是生成文本,它們還可以集成外部工具以提升其功能:
- 互聯(lián)網(wǎng)搜索:獲取最新信息以克服知識截止。
“當(dāng)我閱讀《國富論》時,模型通過總結(jié)章節(jié)和回答我的澄清問題來幫助我理解其中的微妙之處。這就像有一個知識淵博的學(xué)習(xí)伙伴,”他說。
- Python 解釋器:執(zhí)行計算、數(shù)據(jù)分析和可視化。他展示了如何使用此功能繪制公司估值隨時間變化的趨勢,同時還提醒用戶驗證人工智能生成代碼中的任何假設(shè)。
“當(dāng)一個乘法問題變得太復(fù)雜而無法在腦海中解決時,模型只需編寫一個 Python 腳本并運行它。這就像有一個初級數(shù)據(jù)分析師在手邊,” Karpathy 解釋道。
- 文件上傳:允許處理 PDF 或電子表格等文檔,從而生成詳細的摘要和數(shù)據(jù)提取。
?圖像生成和視頻集成
Karpathy 展示了 LLMs 正在超越文本。他展示了如何通過將字幕系統(tǒng)與專用圖像生成模型(例如 ideogram.ai)結(jié)合,按需生成視覺效果。他指出,這種技術(shù)“縫合”了兩個獨立的模型,以便用戶體驗保持無縫,即使底層過程是獨立的。
“圖像輸出并不是完全在模型中完成的。這是字幕和單獨的圖像生成器之間的一次美麗合作,”他說。
此外,Karpathy 還介紹了視頻功能,其中模型可以通過攝像頭“看到”。在一個演示中,他將攝像頭對準(zhǔn)日常物品:一本書的封面、一張詳細的地圖,模型正確識別并評論了每個物品。所有這些都將在后面詳細解釋。
?語音和音頻功能
語音交互是視頻的一個重要亮點。Karpathy 解釋說,在移動設(shè)備上,用戶可以通過說話而不是打字來提問。除了簡單的轉(zhuǎn)錄之外,高級模式還允許模型以各種“角色”生成音頻響應(yīng),從 Yoda 的智慧語調(diào)到粗魯?shù)暮1I口音。
“不要打字,用你的聲音。這樣很快,有時甚至更有趣,當(dāng)人工智能用有個性的語氣回答你時,” 他說。
他進一步區(qū)分了“假音頻”(將語音轉(zhuǎn)換為文本,然后再轉(zhuǎn)換回來)和“真音頻”,后者直接對音頻進行標(biāo)記。真音頻處理通過消除中間步驟,使互動更加流暢和自然,代表了一次飛躍。所有這些都將在后面詳細解釋。
?日?;雍蛯嶋H問題解決
Karpathy 分享了幾個實際示例,從計算飲料中的咖啡因含量到交互式代碼故障排除。這些日常用例展示了無縫集成的人工智能工具如何在日常生活中提高生產(chǎn)力和決策能力。
“我曾經(jīng)問過 ChatGPT 一杯美式咖啡中含有多少咖啡因。它迅速回憶起大約 63 毫克,這是一個簡單但強大的日常人工智能輔助示例,” 他解釋道。
?高級數(shù)據(jù)分析和可視化
除了日常任務(wù)之外,Python 解釋器的集成將人工智能變成了一名稱職的數(shù)據(jù)分析師。無論是從財務(wù)數(shù)據(jù)生成趨勢線,還是調(diào)試復(fù)雜代碼,這些功能為專業(yè)人士和愛好者提供了巨大的價值。
“想象一下,有一個初級數(shù)據(jù)分析師不僅為你編寫代碼,還實時可視化數(shù)據(jù)趨勢。這就是集成工具使用的力量,” Karpathy 斷言。
4、思考模型:何時讓人工智能“思考”
現(xiàn)代 LLMs 中最令人著迷的進步之一是“思考模型”的出現(xiàn)。這些模型旨在通過有效地“大聲思考”來解決復(fù)雜問題,就像人類在解決難題時一樣。
?訓(xùn)練之旅:從預(yù)訓(xùn)練到強化學(xué)習(xí)
Karpathy 解釋說,LLMs 的開發(fā)包括多個階段:
- 預(yù)訓(xùn)練:模型從互聯(lián)網(wǎng)上吸收大量數(shù)據(jù),學(xué)習(xí)預(yù)測序列中的下一個 token 。
- 監(jiān)督微調(diào):人類策劃的對話幫助塑造模型的響應(yīng),使其更具互動性和友好性。
- 強化學(xué)習(xí)(RL):這就是事情變得有迷的地方。模型在一大堆問題上進行練習(xí),這些問題從數(shù)學(xué)難題到編碼挑戰(zhàn),類似于教科書練習(xí)。通過這種練習(xí),它開始發(fā)現(xiàn)有效的“思考策略”。這些策略模仿內(nèi)心獨白,模型在其中探索不同的想法,回溯并重新審視其假設(shè),以得出解決方案。
?發(fā)現(xiàn)“思考”過程
強化學(xué)習(xí)階段相對較新,僅在過去幾年中出現(xiàn),被視為一次突破。這是模型學(xué)習(xí)在給出答案之前“思考”的階段。與其急于得出最終 token ,思考模型可能會生成一系列內(nèi)部推理步驟,指導(dǎo)其得出更準(zhǔn)確的解決方案。
DeepSeek 是第一個公開討論這一概念的公司,他們發(fā)表了一篇關(guān)于通過強化學(xué)習(xí)激勵 LLMs 推理能力的論文,我們在之前的視頻中探討過這篇論文。這一強化學(xué)習(xí)的突破使模型能夠優(yōu)化其內(nèi)部推理,這是人類標(biāo)注者以前難以通過硬編碼實現(xiàn)的過程。
具體示例
以下是我個人經(jīng)歷的一個具體示例:
他曾經(jīng)在優(yōu)化多層感知器的梯度檢查失敗的編碼問題上遇到困難。他復(fù)制并粘貼代碼,然后尋求建議。起初,GPT-4.0(OpenAI 的旗艦最強大的模型)在沒有思考的情況下做出了回應(yīng)。它列出了幾個潛在的問題和調(diào)試技巧,但沒有一個建議能夠準(zhǔn)確指出核心問題。模型只是提供了一般性建議,而不是解決問題。
然后,他切換到 OpenAI 的一個思考模型,該模型可以通過下拉菜單獲得,包括 O1、O3 Mini、O3 Mini High 和 O1 Pro(后者是高級訂閱用戶的最高級版本)。OpenAI 的思考模型通過強化學(xué)習(xí)進行了調(diào)整。當(dāng)他問同一個問題時,思考模型花了一些時間,發(fā)出了一系列詳細的內(nèi)部推理步驟(其“思考過程”的總結(jié))。大約一分鐘后,它確定問題是由于參數(shù)不匹配引起的。這種額外的思考使其能夠準(zhǔn)確解決問題。這個模型花了一分鐘生成了一個詳細的內(nèi)部思維鏈,最終確定我在打包和解包過程中參數(shù)不匹配。結(jié)果?在經(jīng)過一系列反思步驟之后,得出了一個正確的解決方案。
?LLM 委員會
他不依賴單一模型。他經(jīng)常向多個模型詢問同一個問題,將它們視為他的個人 “LLM 委員會”。例如,雖然一個模型可能會以標(biāo)準(zhǔn)響應(yīng)迅速解決問題,但另一個更高級的思考模型可能會花費幾分鐘,但會提供一個高度準(zhǔn)確且經(jīng)過深思熟慮的答案。這種方法在解決復(fù)雜的數(shù)學(xué)問題或復(fù)雜的代碼調(diào)試時特別有用。
我還嘗試了其他模型:
- Claude:當(dāng)我向 Claude 提供相同的提示時,它正確識別并解決了問題,盡管其方法與其他模型不同。
- Gemini:Gemini 也提供了正確的答案,有時甚至不需要任何額外的“思考”時間。
- Grok 3:Grok 3 在經(jīng)過一段時間的內(nèi)部“思考”之后,也提供了一個堅實的解決方案。
- Perplexity.ai (DeepSeek R1):該模型甚至?xí)@示其內(nèi)部推理的片段(原始思想),如果你展開它們,可以了解其解決問題的過程。
Perplexity 的思考過程
對于日常查詢(例如旅行建議),非思考模型可能因其速度而更受歡迎。然而,對于深入的技術(shù)或關(guān)鍵任務(wù),切換到思考模型可以顯著提高準(zhǔn)確性和性能。
?何時使用思考模型
思考模型在以下任務(wù)中最為有益:
- 復(fù)雜的數(shù)學(xué)問題:當(dāng)簡單的算術(shù)不夠用時。
- 復(fù)雜的代碼調(diào)試:對于可能隱藏在邏輯層中的微妙問題。
- 深度推理任務(wù):需要一系列思考過程才能得出正確答案的問題。
對于日常查詢,例如旅行建議或快速事實核查,標(biāo)準(zhǔn)的非思考模型可能因其更快的響應(yīng)時間而更受歡迎。然而,如果準(zhǔn)確性至關(guān)重要且問題本質(zhì)上復(fù)雜,切換到思考模型是值得的。
5、工具使用:互聯(lián)網(wǎng)搜索和深度研究
現(xiàn)代 LLMs 通過與外部工具集成,克服了靜態(tài)知識的局限性:
?互聯(lián)網(wǎng)搜索:訪問實時信息
到目前為止,我們與 LLMs 的互動僅限于文本,即預(yù)訓(xùn)練數(shù)據(jù)的 “zip 文件”,它提供了 token 。然而,現(xiàn)實世界的應(yīng)用要求這些模型訪問新鮮、最新的信息。這就是互聯(lián)網(wǎng)搜索的用武之地。
雖然傳統(tǒng)的 LLM 互動僅依賴預(yù)訓(xùn)練知識,即靜態(tài)數(shù)據(jù)的 “zip 文件”,但互聯(lián)網(wǎng)搜索的集成將這些模型轉(zhuǎn)變?yōu)閯討B(tài)信息中心。模型不再需要手動篩選搜索結(jié)果并躲避分散注意力的廣告,而是可以主動檢索最新信息,將其集成到其工作內(nèi)存中,并準(zhǔn)確回答你的查詢。
?工作原理
- 觸發(fā)搜索:當(dāng)模型識別到你的查詢涉及最新或不斷發(fā)展的信息時,它會發(fā)出一個特殊的搜索 token 。這會指示應(yīng)用程序暫停常規(guī) token 生成并啟動網(wǎng)絡(luò)搜索。
- 執(zhí)行搜索:模型生成的查詢用于搜索互聯(lián)網(wǎng)。系統(tǒng)訪問多個網(wǎng)頁,提取相關(guān)文本,并編譯信息。
- 集成結(jié)果:檢索到的內(nèi)容隨后被注入到模型的上下文窗口和工作內(nèi)存中,以便人工智能可以提供一個豐富了最新數(shù)據(jù)和適當(dāng)引用的答案。
token
例如,如果你問“《白蓮花》第 3 季的新劇集什么時候播出?”模型會發(fā)現(xiàn)這些信息不在其預(yù)訓(xùn)練數(shù)據(jù)中。然后,它會搜索網(wǎng)絡(luò),將結(jié)果文章加載到上下文中,并為你提供最新的時間表以及驗證鏈接。
?特定于模型的行為
不同的模型具有不同程度的互聯(lián)網(wǎng)搜索集成:
- Claude:截至我最后一次更新(2024 年 4 月),Claude 不支持集成網(wǎng)絡(luò)搜索。它僅依賴其知識截止到那時,因此它會直接說不知道。
- Gemini:例如,Gemini 2.0 Pro Experimental 可能沒有完全訪問實時信息,而 Gemini 2.0 Flash 顯示的來源和相關(guān)內(nèi)容表明其具有內(nèi)置搜索工具。
- ChatGPT:在某些情況下,ChatGPT 會自動檢測到需要搜索;在其他情況下,你可能需要顯式選擇“搜索網(wǎng)絡(luò)”選項。
- Perplexity.ai:以其強大的搜索集成而聞名,Perplexity 通常會檢索并顯示實時數(shù)據(jù)以及引用,使其成為類似于 Google 搜索的查詢的熱門選擇。
?現(xiàn)實世界的用例
我經(jīng)常使用互聯(lián)網(wǎng)搜索工具進行各種查詢:
- 當(dāng)前事件和趨勢:例如,檢查總統(tǒng)日市場是否開放 Perplexity 迅速確認其已關(guān)閉。
- 小眾信息:例如,“《白蓮花》第 3 季在哪里拍攝?”或 “Vercel 是否提供 PostgreSQL?”這些問題可以從最新的在線數(shù)據(jù)中受益。
- 動態(tài)更新:關(guān)于蘋果發(fā)布、股票波動(例如,“為什么 Palantir 的股票在上漲?”)或甚至具體問題(例如,“Brian Johnson 使用哪種牙膏?”)的詢問都非常適合搜索工具,因為這些細節(jié)可能會隨著時間的推移而發(fā)生變化。
- 熱門話題:當(dāng)我在 Twitter 上看到關(guān)于 USAID 或最新旅行建議的嗡嗡聲時,快速搜索可以為我提供當(dāng)前上下文的摘要,而無需手動單擊多個鏈接。
?實用技巧
- 明確:有時,直接提示模型“搜索網(wǎng)絡(luò)……”以確保其檢索實時數(shù)據(jù)是有幫助的。
- 交叉驗證:始終檢查提供的引用以確認信息的準(zhǔn)確性。
- 模型選擇:并非每個模型都配備了互聯(lián)網(wǎng)搜索。根據(jù)你的需求,選擇支持實時數(shù)據(jù)的模型(例如,帶搜索選項的 ChatGPT 或 Perplexity.ai),或者準(zhǔn)備好在模型之間切換以獲得全面的答案。
6、深度研究:通過集成搜索和推理生成全面報告
深度研究使 LLMs 能夠超越表面答案,通過將廣泛的互聯(lián)網(wǎng)搜索與高級推理相結(jié)合,生成全面的報告。此過程允許模型從各種來源收集、處理和綜合信息,幾乎就像為任何主題生成自定義研究論文一樣。
?工作原理
當(dāng)你激活深度研究(通常是高級訂閱功能,例如每月 200 美元)時,模型會開始一個擴展的過程:
- 啟動:你提供一個詳細的提示。例如,考慮以下提示:“CAAKG 是 Brian Johnson 的長壽配方中每份 2.5 克的健康活性成分之一。你能研究一下 CAAKG 嗎?告訴我它為什么可能在長壽混合物中找到,其在人類或動物模型中的可能效力,其潛在的作用機制以及任何安全性或毒性問題?!?/li>
- 澄清問題:在深入研究之前,模型可能會詢問澄清問題,例如是否要專注于人類臨床研究、動物模型或兩者兼而有之,以細化其搜索策略。
- 多源查詢:然后,模型會發(fā)出多個互聯(lián)網(wǎng)搜索查詢。它掃描學(xué)術(shù)論文、臨床研究和可信網(wǎng)頁,積累來自多個來源的文本。這些文檔隨后被插入到其上下文窗口中,這是一個巨大的工作內(nèi)存,可以容納數(shù)千個 token 。
- 綜合:一旦研究階段完成(對于復(fù)雜查詢,可能需要約 10 分鐘),模型會將收集到的數(shù)據(jù)綜合成一個連貫的報告。它生成詳細的摘要,包括引用以供驗證,甚至突出顯示關(guān)鍵點,例如在各種模型(蠕蟲、果蠅、小鼠和正在進行的人類試驗)中提出的建議作用機制、效力研究以及潛在的安全問題。
llm token
?技術(shù)方面
- 迭代搜索:深度研究利用迭代互聯(lián)網(wǎng)搜索和內(nèi)部“思考”步驟。模型使用強化學(xué)習(xí)策略來決定哪些來源最相關(guān)以及如何將它們編織成一個結(jié)構(gòu)化的響應(yīng)。
- 上下文積累:隨著模型檢索信息,每個文檔的內(nèi)容都會添加到上下文窗口中。這個龐大的 token 存儲庫允許模型同時引用多個來源。
- 引用集成:最終報告附帶引用,使你可以驗證每個信息片段。這在模型的輸出是概率性的并且有時可能包含幻覺或不準(zhǔn)確之處時尤為重要。
- 鏈?zhǔn)剿伎继幚恚涸谡麄€過程中,模型可能會揭示其內(nèi)部推理的片段(如果你展開它們),說明它如何將不同的數(shù)據(jù)片段連接起來得出結(jié)論。
?實踐中的示例
- 補充研究:在上述關(guān)于 CAAKG 的提示示例中,模型處理了數(shù)十篇研究論文、臨床研究和綜述文章。然后,它生成了一份詳細報告,概述:
a.CAAKG 為什么可能包含在長壽混合物中。
b.其在人類和動物模型中的效力。
c.建議的作用機制。
d.任何潛在的安全性或毒性問題。
深度搜索
- 行業(yè)比較:他還使用深度研究來比較產(chǎn)品,例如研究小鼠的壽命延長。模型提供了一個廣泛的概述,討論了各種長壽實驗,同時編譯了來自多個來源的數(shù)據(jù)。
- LLM 實驗室分析:在另一個用例中,他要求一個表格,比較美國的 LLM 實驗室,包括資金水平和公司規(guī)模。雖然生成的表格有一些遺漏(例如 XAI)和意外的包含(例如 Hugging Face),但它仍然為進一步調(diào)查提供了一個有價值的起點。
?實用考慮
- 初稿,而非最終稿:始終將深度研究輸出視為初稿。使用提供的引用作為進一步閱讀和后續(xù)問題的指南。
- 不同的深度:不同平臺提供的深度研究深度不同。例如,我的經(jīng)驗表明,Chachapiti 的提供目前是最全面的,而 Perplexity.ai 和 Grok 提供的摘要較短。
- 延長的處理時間:準(zhǔn)備好長時間的處理時間(有時超過 10 分鐘),因為模型收集和綜合大量數(shù)據(jù)。
7、文件上傳用于文檔和多媒體
文件上傳使 LLMs 能夠通過將外部文檔和多媒體文件直接集成到其工作內(nèi)存中來擴展其上下文。例如,如果你對藝術(shù)學(xué)院最近發(fā)表的關(guān)于在 DNA 上訓(xùn)練的語言模型的論文感到好奇,你可以簡單地將 PDF(甚至大小為 30 MB 的 PDF)拖放到模型的界面中。通常,模型會將文檔轉(zhuǎn)換為文本 token ,通常會丟棄非文本元素(如圖像)。一旦在 token 窗口中,你可以請求摘要、提出詳細問題或深入探討文檔的特定部分。這使得你可以與人工智能一起“閱讀”論文,并以互動方式探索其內(nèi)容。
“上傳文檔就像將你的個人圖書館交給人工智能。然后,它可以篩選信息并幫助你理解所需的細節(jié),這正是你在處理復(fù)雜研究論文時所需要的,” Karpathy 在演講中說。
文件上傳用于文檔和多媒體
?現(xiàn)實世界的示例和用例
考慮一個場景,你正在審查基因組序列分析的突破性研究。通過直接將 PDF 上傳到系統(tǒng),你可以問模型“你能總結(jié)這項研究中使用的方法嗎?”模型會將論文轉(zhuǎn)換為 token ,處理關(guān)鍵部分,并為你提供一個連貫的摘要,附帶引用。這種方法不僅限于學(xué)術(shù)論文;它還適用于產(chǎn)品手冊、法律文件甚至長篇報告,例如血液測試結(jié)果。
例如,我最近上傳了我的 20 頁血液測試報告。模型轉(zhuǎn)錄了結(jié)果,使我能夠問“這些膽固醇水平對我的健康意味著什么?”這種兩步過程,首先驗證轉(zhuǎn)錄準(zhǔn)確性,然后提出詳細問題,確保了所獲得的見解盡可能可靠。
8、Python 解釋器:動態(tài)代碼執(zhí)行和數(shù)據(jù)分析
現(xiàn)代 LLMs 現(xiàn)在集成了 Python 解釋器,將它們轉(zhuǎn)變?yōu)閯討B(tài)、互動式編碼助手。此功能使模型能夠生成、執(zhí)行甚至調(diào)試 Python 代碼,實時進行,就在你的對話中。
“Python 解釋器集成是一個改變游戲規(guī)則的功能。你不再需要在聊天窗口和 IDE 之間切換,你可以在一個無縫體驗中獲得代碼、其輸出甚至是可視化圖表,” Karpathy 在演示中解釋道。
?實踐中的工作原理
當(dāng)你遇到復(fù)雜問題,例如調(diào)試多層感知器的梯度檢查失敗時,模型可以自動生成 Python 代碼來診斷問題。例如,你可能會問“你能幫我調(diào)試這個梯度檢查失敗嗎?”模型生成模擬錯誤場景的代碼,執(zhí)行它,然后在聊天中直接返回詳細輸出,例如錯誤消息和變量狀態(tài)。
在另一個案例中,我需要繪制 2023 年的銷售趨勢圖。我只需請求“生成 2023 年銷售數(shù)據(jù)的圖表,”模型編寫并執(zhí)行必要的 Python 腳本。生成的圖表隨即顯示,帶有注釋和趨勢,節(jié)省了我手動編碼的麻煩。
Python 解釋器
?擴展用例
- 數(shù)據(jù)可視化:除了基本圖表之外,解釋器還可以生成復(fù)雜的可視化效果,例如熱圖、散點圖或時間序列圖。這在快速數(shù)據(jù)分析中特別有用,而無需離開聊天界面。
- 算法測試:如果你正在嘗試機器學(xué)習(xí)模型,你可以讓解釋器運行模擬并甚至比較不同模型的性能。
- 調(diào)試輔助:在處理復(fù)雜代碼錯誤時,模型的逐步執(zhí)行有助于找出在大型代碼庫中可能難以發(fā)現(xiàn)的問題。
9、自定義視覺和代碼工具:Claude 工件和光標(biāo)作曲器
現(xiàn)代 LLMs 已經(jīng)不僅僅是文本生成器,它們還是創(chuàng)意工作室。使用 Claude 工件,你可以構(gòu)建自定義小應(yīng)用程序或生成交互式圖表。例如,想象一下,你需要一個項目的流程圖。通過幾個明確的提示,Claude 工件可以生成一個圖表,將你的想法以視覺方式組織起來。正如 Karpathy 所指出的那樣,“Claude 工件不僅僅提供純文本,它還提供交互式視覺效果,使你的概念栩栩如生。”
adam smith 閃卡
此外,Cursor: Composer 作為你的實時編碼助手。無論你是在編寫新代碼還是調(diào)試錯誤,Cursor: Composer 都可以生成、編輯甚至可視化代碼片段。例如,當(dāng)我在原型設(shè)計一個新的 Web 應(yīng)用程序時,我只需輸入“生成一個響應(yīng)式布局在 React,” 該工具不僅生成了代碼,還突出顯示了不同組件的交互方式。這種無縫集成加快了開發(fā)速度,同時幫助你逐步了解底層邏輯。
Cursor Composer
10、音頻交互和 NotebookLM 播客生成
現(xiàn)代 LLMs 中的音頻功能顯著增強了用戶互動。使用標(biāo)準(zhǔn)的 音頻輸入/輸出,你可以通過說話而不是打字來提問。例如,你可能會問“天為什么是藍色的?”并獲得文本和音頻響應(yīng)。Karpathy 指出,“語音輸入讓你感覺像是在與朋友交談,而模型則專心聽著?!?/p>
高級語音模式 更進一步,通過直接對音頻進行標(biāo)記來處理音頻。與其先將語音轉(zhuǎn)換為文本,再轉(zhuǎn)換回來,模型通過頻譜直接對音頻進行標(biāo)記。這意味著它可以捕捉語調(diào)和語氣中的微妙之處。想象一下,你問“用 Yoda 的聲音講個笑話,”然后聽到“智慧的見解我將分享,嗯嗯,有趣,它是?!?/p>
補充這些功能的是 NotebookLM,它通過上傳的文檔生成自定義播客。例如,上傳一篇關(guān)于基因組分析的 30 MB 研究論文后,你可能會問“你能生成一個總結(jié)這篇論文關(guān)鍵點的播客嗎?”幾分鐘內(nèi),NotebookLM 綜合內(nèi)容并生成一個 30 分鐘的音頻摘要,你可以在通勤時收聽。
音頻交互和 NotebookLM 播客生成
11、視覺模態(tài):圖像輸入/OCR、圖像輸出和視頻處理
圖像輸入與 OCR 允許你將照片和屏幕截圖轉(zhuǎn)換為可搜索的文本。例如,當(dāng)我上傳了一種健康補充劑的營養(yǎng)標(biāo)簽時,我問“關(guān)鍵成分是什么,為什么包含它們?”模型成功提取了文本,并解釋了每個組成部分,包括安全等級。
上下文窗口
圖像輸出
圖像輸出工具,例如 DALL-E 和 Ideogram,允許你生成自定義視覺效果。你可以提示模型,例如“生成一幅以賽博朋克風(fēng)格描繪今日頭條的藝術(shù)作品,”然后觀看人工智能創(chuàng)建一個圖像,以視覺方式概括新聞。Karpathy 指出,“看到今日頭條的標(biāo)題變成一幅令人驚嘆的藝術(shù)作品是多么有趣?!?/p>
視頻輸入 進一步推動了視覺處理。使用你的攝像頭,你可以進行指點交談。例如,如果你將手機對準(zhǔn)一本書的封面,你可能會問“這本書的標(biāo)題是什么?”模型會分析視覺快照并提供準(zhǔn)確答案。同時,視頻輸出 系統(tǒng),例如 Sora 或 Veo 2,可以將文本描述轉(zhuǎn)換為動態(tài)視頻剪輯,從而生成引人入勝的視頻摘要或教程。
12、個性化:記憶、自定義指令和自定義 GPTs
個性化是使與 LLMs 的互動真正屬于你的關(guān)鍵。這些功能確保人工智能不僅響應(yīng)你的查詢,還適應(yīng)你獨特的風(fēng)格和反復(fù)的需求。
?記憶:跨對話保留上下文
LLMs 可以在記憶庫中存儲來自過去互動的關(guān)鍵細節(jié),并將其附加到未來的上下文窗口中。這意味著隨著時間的推移,模型會了解你的偏好和習(xí)慣。例如,如果你提到你喜歡的電影類型或特定的研究興趣,未來的對話將自動反映這些知識。“這就像模型逐漸了解你,形成一個個性化的對話,隨著互動的增加而不斷發(fā)展,” Karpathy 觀察到。
?自定義指令:塑造人工智能行為
自定義指令允許你定義希望模型如何響應(yīng)的確切方式。你可以指定語氣、冗長度甚至特定任務(wù)的規(guī)則。無論你需要模型以簡單的術(shù)語解釋復(fù)雜主題,還是在翻譯中采用特定風(fēng)格,這些指令都會注入到每次對話中,確保一致性和個性化體驗。
自定義指令
?自定義 GPTs:構(gòu)建特定任務(wù)的模型
自定義 GPTs 允許你為重復(fù)任務(wù)創(chuàng)建專門版本的模型。想象一下,擁有一個專門的助手來學(xué)習(xí)語言,它可以提取詞匯并創(chuàng)建閃卡,或者一個編碼助手,它可以始終生成準(zhǔn)確的代碼片段。通過提供幾個示例,你可以通過少量提示構(gòu)建一個自定義模型,節(jié)省時間并提供更精確的結(jié)果?!白远x GPTs 就像擁有一個個性化的、特定任務(wù)的助手,它完全符合你的需求,” Karpathy 解釋道。
示例
ocr 結(jié)果
13、初學(xué)者的經(jīng)驗教訓(xùn):最大化你的 LLM 體驗
對于那些剛剛起步的人,Karpathy 的見解為充分發(fā)揮 LLMs 潛力提供了明確的路徑:
- 理解 token 化:了解你的輸入如何分解為 token ,因為這是模型處理的基本構(gòu)建塊。
- 保持簡潔:通過在切換主題時重新開始來管理你的上下文窗口;擁擠的上下文會削弱響應(yīng)的效果。
- 實驗不同的模型:使用免費層進行簡單任務(wù),并在需要更高準(zhǔn)確性或額外功能時考慮升級到高級模型。
- 利用外部工具:不要猶豫集成互聯(lián)網(wǎng)搜索、文件上傳甚至 Python 解釋器以擴展模型的功能。
- 保持更新:關(guān)注提供商更新,加入社區(qū)論壇,并嘗試測試版功能,以跟上不斷發(fā)展的生態(tài)系統(tǒng)。
14、結(jié)束語
Andrey Karpathy 的視頻帶我們深入了解了 LLMs 的內(nèi)部工作原理,從 token 化和基于 Transformer 的架構(gòu)的細微差別,到通過工具集成和多模態(tài)互動解鎖的廣泛功能。這些模型將大量知識壓縮到數(shù)十億甚至數(shù)萬億個參數(shù)中,使用復(fù)雜的訓(xùn)練技術(shù)來預(yù)測下一個 token 并生成類似人類的響應(yīng)。通過結(jié)合預(yù)訓(xùn)練與針對性的后訓(xùn)練,并集成外部工具(如互聯(lián)網(wǎng)搜索和 Python 解釋器),現(xiàn)代 LLMs 正在演變成多才多藝、智能的合作伙伴,能夠在日常生活中提供信息和靈感。
正如 Karpathy 簡明扼要地總結(jié)的那樣:
“從壓縮的 token 到交互式聊天氣泡,LLMs 的內(nèi)部工作原理是優(yōu)雅的數(shù)學(xué)原理和大規(guī)模數(shù)據(jù)壓縮的結(jié)合。每一次新進展都使我們更接近一個人工智能成為日常生活中不可或缺的一部分的未來?!?/p>
這個全面的生態(tài)系統(tǒng),從個性化功能到高級研究和多模態(tài)集成,為每個人提供了一個強大的平臺,無論是初學(xué)者還是專家。
llm token
? ?
