LLMs.txt:讓大模型更懂你的 Web 文檔 原創(chuàng) 精華
編者按: 當你向 AI 助手詢問 API 細節(jié)時,它是否經(jīng)常被文檔中的導(dǎo)航欄、樣式表等無關(guān)內(nèi)容干擾,給出模棱兩可的答案?AI 助手已成為開發(fā)者不可或缺的得力助手。然而,它們在處理網(wǎng)站內(nèi)容時往往受限于有限的上下文窗口,加上 HTML 頁面中大量非核心內(nèi)容的干擾,導(dǎo)致理解效率低下。
本文深入剖析了新興的 LLMs.txt 標準如何巧妙解決這一問題。這個由 ??Answer.AI?? 聯(lián)合創(chuàng)始人 Jeremy Howard 提出的解決方案,通過提供優(yōu)化的 markdown 格式文檔,讓 AI 系統(tǒng)能夠更準確、高效地理解和處理網(wǎng)頁內(nèi)容。
作者 | Derick Ruiz
編譯 | 岳揚
您可能已經(jīng)留意到,近期不少開發(fā)工具都在其文檔中新增了對 LLMs.txt 的支持。這個擬議中的 Web 標準正快速獲得業(yè)界的認可,但它究竟是什么,又為何如此關(guān)鍵?
不同于專為搜索引擎設(shè)計的 robots.txt 和 sitemap.xml,LLMs.txt 專門針對 LLM 推理引擎進行了優(yōu)化。它以一種易于 LLM 推理引擎理解的方式,提供了網(wǎng)站的詳細信息。
那么,LLMs.txt 是如何在短時間內(nèi)從一項提案迅速演變?yōu)樾袠I(yè)趨勢的呢?
LLMs.txt Explained (Photo by J?rgen Larsen[1] on Unsplash[2])
01 Mintlify 是如何推動 LLMs.txt 普及的
11 月 14 日,Mintlify 在其文檔平臺增加了對 LLMs.txt 的支持。這一動作,使得平臺上數(shù)千個開發(fā)工具的文檔一夜之間對 LLMs 變得友好,包括 Anthropic 和 Cursor 等。
Anthropic 和其他工具很快就在 X 上宣布了他們對 LLMs.txt 的支持。隨后,越來越多的由 Mintlify 托管的文檔開始采用這一標準,為 LLMs.txt 的提議創(chuàng)造了一波知名度。
這種趨勢激發(fā)了社區(qū)網(wǎng)站和工具的涌現(xiàn)。@ifox 建立了 directory.llmstxt.cloud[3],用于索引對 LLMs 友好的技術(shù)文檔。@screenfluent 也很快跟進,推出了 llmstxt.directory[4]。
dotenvx 的開發(fā)者 Mot,為其文檔網(wǎng)站制作了一個開源生成工具[5],并將其分享出來。而 Firecrawl 的 Eric Ciarla 則開發(fā)了一個工具[6],能夠抓取網(wǎng)站內(nèi)容并自動生成 LLMs.txt 文件。
Anthropic 公司 Claude Relations 部門的負責(zé)人 Alex Albert,在 X 上宣布了對 LLMs.txt 的支持
02 LLMs.txt 由誰提出,其目的是什么?
??Answer.AI?? 的聯(lián)合創(chuàng)始人 Jeremy Howard 提出 LLMs.txt 是為了解決一個具體的技術(shù)難題。
人工智能系統(tǒng)在處理信息時,只能依靠有限的上下文窗口,這導(dǎo)致它們在理解龐大的文檔庫時會遇到困難。傳統(tǒng)的 SEO 優(yōu)化技術(shù)主要是針對搜索引擎的爬蟲設(shè)計的,而不是針對 LLM 推理引擎,因此它們無法解決這一限制。
當人工智能系統(tǒng)直接處理 HTML 頁面時,常常會被頁面中的導(dǎo)航欄、JavaScript 腳本、CSS 樣式表等非內(nèi)容性信息所干擾,這些元素占用了原本可以展示有用內(nèi)容的空間。
LLMs.txt 的出現(xiàn),恰好解決了這一問題,它以一種 AI 能夠輕松解讀的格式,提供了 AI 所需的準確信息。
Jeremy Howard 在 X 的個人資料,他是 LLMs.txt Web 標準提案的發(fā)起者
03 LLMs.txt文件到底是什么?
LLMs.txt 是一種格式嚴謹?shù)?markdown 文檔。其規(guī)范明確了兩種不同的文件類型:
- /llms.txt:這是一個簡化版的文檔導(dǎo)航視圖,旨在幫助 AI 系統(tǒng)迅速把握網(wǎng)站的框架結(jié)構(gòu)。
- /llms-full.txt:這是一個集成了所有文檔的完整文件,方便集中查閱。
3.1 /llms.txt
在這個文件中,開頭需使用 H1 格式標注項目名稱,并緊接著一個 blockquote 格式的摘要。文件的后續(xù)部分通過 H2 標題來整理文檔鏈接。還有一個“Optional”部分,專門用來標注那些相對不那么重要的資源。
有關(guān)的簡單示例,可以參考 ??llmtxt.org?? 自家的 LLM.txt 文件[7]。而如果想看一個詳細且包含多種語言的例子,可以查閱 Anthropic 提供的文件[8]。
3.2 /llms-full.txt
與 /llms.txt 僅提供導(dǎo)航視圖和文檔結(jié)構(gòu)不同,/llms-full.txt 包含了全部的文檔內(nèi)容,這些內(nèi)容都是用 markdown 編寫的。
上圖的內(nèi)容摘錄是來自于 Cursor 的 /llms-full.txt 文件。如需查看完整文件,請訪問 Cursor 的官方文檔頁面。
04 LLMs.txt vs sitemap.xml vs robots.txt
LLMs.txt 文件的功能與 sitemap.xml 和 robots.txt 等現(xiàn)行 Web 標準有著本質(zhì)的區(qū)別。
/sitemap.xml 雖然列出了所有可供索引的頁面,但對于內(nèi)容處理并無助益。AI 系統(tǒng)在處理時,仍需解析復(fù)雜的 HTML,并處理冗余信息,從而使上下文窗口變得雜亂無章。
/robots.txt 文件則用于指導(dǎo)搜索引擎爬蟲的訪問,但它同樣不提供內(nèi)容理解上的幫助。
而 /llms.txt 則專為解決 AI 系統(tǒng)面臨的挑戰(zhàn)而設(shè)計。它有助于克服上下文窗口的限制,刪除不必要的 tokens 和腳本,并以優(yōu)化后的結(jié)構(gòu)來展示內(nèi)容,便于人工智能處理。
05 如何將 LLMs.txt 應(yīng)用于AI系統(tǒng)
與那些主動在網(wǎng)絡(luò)中進行搜尋的搜索引擎不同,現(xiàn)有的 LLMs 并不會自動識別并收錄 LLMs.txt 文件。
您需要手動將文件內(nèi)容輸入到 AI 系統(tǒng)中。操作方法包括粘貼鏈接、直接將文件內(nèi)容貼入輸入框,或者利用 AI 工具的文件上傳功能。
5.1 ChatGPT
首先,您需要前往相關(guān)文檔或 /llms-full.txt 的網(wǎng)頁地址。接著,將內(nèi)容或網(wǎng)址復(fù)制到聊天界面,提出具體問題,說明你想完成什么。
在 ChatGPT 中使用 llms-full.txt 文件的截圖(圖片由作者提供)
5.2 Claude
Claude 目前還不能瀏覽網(wǎng)頁,所以請將文檔的 /llms-full.txt 文件內(nèi)容復(fù)制到剪貼板?;蛘撸部梢詫⑵浔4鏋?.txt 文件并上傳?,F(xiàn)在,你就可以自信地提出任何問題,確信 Claude 擁有完整且最新的上下文信息。
在 Claude 中使用 llms-full.txt 文件的截圖(圖片由作者提供)
5.3 Cursor
Cursor 可以讓我們添加并索引外部文檔,這樣就能在對話中引用這些內(nèi)容。操作方法很簡單,只需輸入 @Docs > Add new doc。隨后會出現(xiàn)一個彈窗,我們可以在那里粘貼 /llms-full.txt 文件的鏈接。之后,就能像使用其他文檔一樣,將其作為對話的上下文。
想深入了解這項功能,可以查閱 Cursor 的 @Docs 功能介紹[9]。
將 llms-full.txt 文件作為上下文導(dǎo)入 Cursor 的操作截圖(圖片由作者提供)
06 如何生成 LLMs.txt 文件
我們可以選用以下幾種工具來生成自己的 LLMs.txt 文件:
- Mintlify[10]:能夠自動為在線文檔生成 /llms.txt 和 /llms-full.txt。
- llmstxt by dotenv[5]:由 dotenvx 的開發(fā)者 Mot 提供的工具,它可以通過網(wǎng)站的 sitemap.xml 來生成 llms.txt。
- llmstxt by Firecrawl[6]:由 Firecrawl 的創(chuàng)始人 Eric Ciarla 開發(fā)的工具,它利用 Firecrawl 抓取網(wǎng)站信息來制作 llms.txt 文件。
07 LLMs.txt 的發(fā)展方向是什么?
LLMs.txt 標志著向以 AI 為先的文檔方向轉(zhuǎn)變。
正如 SEO 對于網(wǎng)站在搜索結(jié)果中的可見性至關(guān)重要一樣,擁有可供 AI 讀取的內(nèi)容對于開發(fā)工具和文檔來說也將變得不可或缺。
隨著越來越多的網(wǎng)站開始使用這個文件,我們可以預(yù)見將出現(xiàn)新的工具和最佳實踐,以實現(xiàn)人類和 AI 助手對網(wǎng)站內(nèi)容的共同可訪問性。
目前,LLMs.txt 提供了一個切實有效的解決方案,幫助 AI 系統(tǒng)更深入地理解和運用網(wǎng)絡(luò)資源,特別是在技術(shù)文檔和 API 領(lǐng)域。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the authors
Derick Ruiz
I help developer tool companies reach more devs with technical content at Abundant.dev
END
本期互動內(nèi)容 ??
? 已經(jīng)嘗試過 LLMs.txt 的同學(xué),能分享一下實施前后的效果對比嗎?
??文中鏈接??
[3]??https://directory.llmstxt.cloud/??
[4]??https://llmstxt.directory/??
[5]??https://github.com/dotenvx/llmstxt??
[6]??https://llmstxt.firecrawl.dev/??
[7]??https://llmstxt.org/llms.txt??
[8]??https://docs.anthropic.com/llms.txt??
[9]??https://docs.cursor.com/context/@-symbols/@-docs??
[10]??https://mintlify.com/??
原文鏈接:
