尤雨溪:讓 AI 更好的理解 Vue、Vite
尤雨溪今天宣布 Vue、Vite 和 Rolldown 項(xiàng)目都加上了 llms.txt 文件。這是為了讓大型語(yǔ)言模型 (LLM) 更方便地理解這些前端技術(shù)。那這個(gè) llms.txt 到底是什么?有什么用?我們來(lái)簡(jiǎn)單看看。
圖片
llms.txt 是什么?
llms.txt 是一個(gè)還在提議階段的網(wǎng)站標(biāo)準(zhǔn)。簡(jiǎn)單說(shuō),就是建議網(wǎng)站在根目錄下放一個(gè)叫 llms.txt 的 Markdown 文件。
這個(gè)文件的主要想法,是給 LLM 提供一個(gè)“濃縮版”的網(wǎng)站內(nèi)容介紹,幫助 AI 更快、更準(zhǔn)地理解網(wǎng)站信息。跟普通 HTML 頁(yè)面不一樣的是,llms.txt 會(huì)去掉導(dǎo)航菜單、廣告、復(fù)雜的腳本這些干擾項(xiàng),只留下最核心、簡(jiǎn)潔的內(nèi)容給 AI 看。
標(biāo)準(zhǔn)提案鏈接:https://llmstxt.org/
按照官方的說(shuō)法,llms.txt 主要想解決 LLM 看網(wǎng)站時(shí)的兩個(gè)麻煩:
- 上下文窗口不夠大:很多 LLM 一次能處理的信息量有限,塞不下一個(gè)完整的復(fù)雜網(wǎng)站。
- HTML 太難解析:把花里胡哨的 HTML 網(wǎng)頁(yè)轉(zhuǎn)成 AI 能懂的純文本,不僅麻煩還容易出錯(cuò)。
llms.txt 就好比給了 LLM 一張內(nèi)容“地圖”,讓它知道去哪里找需要的信息。具體來(lái)說(shuō),它的好處有:
- 讓 LLM 看得更明白:結(jié)構(gòu)化的概要能幫 AI 快速抓住網(wǎng)站重點(diǎn),不容易被頁(yè)面樣式帶偏。
- 找信息更高效:文件里直接給了關(guān)鍵內(nèi)容的 Markdown 鏈接,AI 可以直達(dá),不用自己吭哧吭哧爬整個(gè)站。
- 突破上下文限制:對(duì)大網(wǎng)站來(lái)說(shuō),這個(gè)精簡(jiǎn)的入口對(duì) LLM 有限的“內(nèi)存”更友好。
- 用在哪里?
開(kāi)發(fā)文檔:特別適合給編程文檔、API 參考用,AI 能更快地回答開(kāi)發(fā)者的問(wèn)題。
其他地方:像電商網(wǎng)站的產(chǎn)品介紹、在線課程的資料、個(gè)人博客等等,內(nèi)容更清晰總歸是好事。
跟 robots.txt 和 sitemap.xml 有啥不同?
- robots.txt:管爬蟲(chóng)能不能進(jìn)來(lái),但不管內(nèi)容是什么。
- sitemap.xml:告訴搜索引擎有哪些頁(yè)面可以收錄,但也不提供內(nèi)容概要。
- llms.txt:專(zhuān)門(mén)為 AI 設(shè)計(jì)的,提供優(yōu)化過(guò)的內(nèi)容結(jié)構(gòu),方便 AI 理解和處理。
llms.txt 長(zhǎng)什么樣?(規(guī)范)
這個(gè)規(guī)范定義了兩種文件:
- /llms.txt:核心文件,是個(gè)簡(jiǎn)化的導(dǎo)航,告訴 AI 網(wǎng)站大概有什么內(nèi)容,重點(diǎn)在哪里。
- /llms-full.txt (可選):如果 llms.txt 里放不下,可以把完整的網(wǎng)頁(yè)內(nèi)容(比如整個(gè)文檔頁(yè)、代碼例子)放這里,供 AI 需要深入了解時(shí)查閱。
文件的格式有講究,得按規(guī)矩來(lái),方便程序解析:
- # 項(xiàng)目名稱(chēng):只能有一個(gè) H1 標(biāo)題,寫(xiě)網(wǎng)站或項(xiàng)目的名字。
- > 項(xiàng)目簡(jiǎn)介:用 Markdown 的引用格式,簡(jiǎn)單介紹下這個(gè)網(wǎng)站是干嘛的。
- ## 核心文檔, ## API 參考 等:用 H2 標(biāo)題分類(lèi),下面用列表 - [鏈接文字](URL "鏈接文字"):簡(jiǎn)單說(shuō)明 的形式放重要資源的鏈接和簡(jiǎn)介。
- ## 其他資源 (可選):放些次要信息,比如社交賬號(hào)、聯(lián)系方式等。
# 示例項(xiàng)目
> 一個(gè)用來(lái)演示 llms.txt 功能的簡(jiǎn)單項(xiàng)目。
## 核心文檔
- [快速入門(mén)](https://example.com/quickstart "快速入門(mén)"):教你怎么快速用起來(lái)。
- [API 文檔](https://example.com/api "API 文檔"):所有 API 的詳細(xì)說(shuō)明。
## 示例代碼
- [GitHub 倉(cāng)庫(kù)](https://github.com/example/repo "GitHub 倉(cāng)庫(kù)"):完整的代碼都在這兒。
## 聯(lián)系方式
- https://example.com/contact
比如 Vite 的 llms.txt 就是這樣的:
圖片
怎么生成 llms.txt?
現(xiàn)在已經(jīng)有一些工具能幫你生成 llms.txt。大致流程都差不多:
爬你的網(wǎng)站(特別是文檔站)的核心頁(yè)面 -> 抓關(guān)鍵信息(標(biāo)題、簡(jiǎn)介、鏈接) -> 按格式生成 llms.txt(和可選的 llms-full.txt) -> 讓你下載或者直接放網(wǎng)站根目錄。
可以用下面這些工具試試:
- Firecrawl LLMs.txt Generator[1]:還在測(cè)試中,提供 API,給個(gè)網(wǎng)址就能拿到 llms.txt 和 llms-full.txt。
- SiteSpeakAI LLMs.txt Generator[2]:免費(fèi)在線工具,輸入域名,它幫你爬內(nèi)容、生成文件。
- apify/actor-llmstxt-generator[3]:一個(gè)開(kāi)源爬蟲(chóng)工具 (Apify Actor),能深度爬取網(wǎng)站生成 llms.txt。
- *WordLift AI-Powered SEO Generator[4]:這個(gè)工具更偏 SEO,企業(yè)版功能更強(qiáng),生成的 llms.txt 對(duì)搜索引擎和 AI 都友好。
- Mintlify[5]:如果你用 Mintlify 托管文檔,它會(huì)自動(dòng)幫你生成并部署好 /llms.txt。
哪里能看到哪些網(wǎng)站用了 llms.txt?
想看看哪些網(wǎng)站用了 llms.txt?下面這些地方可以找到一些例子:
- LLMs TXT Hub: https://llmstxthub.com/[6]
圖片
- LLMs TXT Cloud Directory: http://directory.llmstxt.cloud/[7]
圖片
- LLMs TXT Site: https://llmstxt.site/[8]
圖片
llms.txt 現(xiàn)在怎么樣了?未來(lái)呢?
llms.txt 是 Jeremy Howard 在 2024 年 9 月 3 號(hào)提出來(lái)的。雖然這個(gè)標(biāo)準(zhǔn)在 AI 和開(kāi)發(fā)者圈子里有不少討論,但像 OpenAI、Google 這些大廠還沒(méi)正式說(shuō)支持它。
不過(guò),已經(jīng)有不少平臺(tái)和工具開(kāi)始用起來(lái)了:
- 官方和社區(qū)工具:有官方的 Python/CLI 庫(kù) (llms_txt2ctx)、JS 示例代碼,可以直接讀取網(wǎng)站的 llms.txt 給 LLM 用 。
- IDE 和 AI 編程助手:通過(guò) MCPDoc 協(xié)議,一些編輯器和 AI 工具(比如 Cursor, Windsurf, Claude Desktop/Code)能讀到 llms.txt 里的文檔信息 。
- API 文檔平臺(tái):像 Apidog、APIfox 這些平臺(tái),生成的文檔網(wǎng)站會(huì)自動(dòng)帶上 llms.txt,方便它們內(nèi)置的 AI 助手理解 API。
- 基于 MCP 協(xié)議的工具:MCP 是個(gè)開(kāi)放協(xié)議,一些服務(wù)和 SDK (Java, TypeScript, Python 等) 用它來(lái)讀 llms.txt。Replit, Codeium, Sourcegraph 這些平臺(tái)都在用,方便 AI 應(yīng)用接入外部文檔。
小結(jié)
總的來(lái)說(shuō),llms.txt 還很新,但它提供了一個(gè)標(biāo)準(zhǔn)化的方法,讓 AI 能更好地和網(wǎng)站內(nèi)容互動(dòng),潛力不小。隨著 AI 在搜索、寫(xiě)代碼這些場(chǎng)景用得越來(lái)越多,這種專(zhuān)門(mén)為 AI 優(yōu)化內(nèi)容呈現(xiàn)方式,可能會(huì)成為一個(gè)趨勢(shì)。
當(dāng)然,它能不能流行起來(lái),還得看大模型廠商會(huì)不會(huì)跟進(jìn),以及開(kāi)發(fā)者們用不用?,F(xiàn)在主要用在技術(shù)文檔和 API 上,以后可能會(huì)用到更多地方。
相關(guān)鏈接
[1] Firecrawl LLMs.txt Generator: https://docs.firecrawl.dev/features/alpha/llmstxt
[2] SiteSpeakAI LLMs.txt Generator: https://sitespeak.ai/tools/llms-txt-generator
[3] apify/actor-llmstxt-generator: https://github.com/apify/actor-llmstxt-generator
[4] WordLift AI-Powered SEO Generator: https://wordlift.io/generate-llms-txt/
[5] Mintlify: https://mintlify.com/docs/settings/llms