自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="t1bet"></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

NLP：生動(dòng)理解TF-IDF算法

發(fā)布于 2025-2-8 14:17

瀏覽

0收藏

什么是TF-IDF?

TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)，常用于挖掘文章中的關(guān)鍵詞，而且算法簡單高效，常被工業(yè)用于最開始的文本數(shù)據(jù)清洗。

TF-IDF有兩層意思，一層是"詞頻"（Term Frequency，縮寫為TF），另一層是"逆文檔頻率"（Inverse Document Frequency，縮寫為IDF）。

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

假設(shè)我們現(xiàn)在有一片長文叫做《量化系統(tǒng)架構(gòu)設(shè)計(jì)》詞頻高在文章中往往是停用詞，“的”，“是”，“了”等，這些在文檔中最常見但對(duì)結(jié)果毫無幫助、需要過濾掉的詞，用TF可以統(tǒng)計(jì)到這些停用詞并把它們過濾。當(dāng)高頻詞過濾后就只需考慮剩下的有實(shí)際意義的詞。

但這樣又會(huì)遇到了另一個(gè)問題，我們可能發(fā)現(xiàn)"量化"、"系統(tǒng)"、"架構(gòu)"這三個(gè)詞的出現(xiàn)次數(shù)一樣多。這是不是意味著，作為關(guān)鍵詞，它們的重要性是一樣的？事實(shí)上系統(tǒng)應(yīng)該在其他文章比較常見，所以在關(guān)鍵詞排序上，“量化”和“架構(gòu)”應(yīng)該排在“系統(tǒng)”前面，這個(gè)時(shí)候就需要IDF，IDF會(huì)給常見的詞較小的權(quán)重，它的大小與一個(gè)詞的常見程度成反比。

當(dāng)有TF(詞頻)和IDF(逆文檔頻率)后，將這兩個(gè)詞相乘，就能得到一個(gè)詞的TF-IDF的值。某個(gè)詞在文章中的TF-IDF越大，那么一般而言這個(gè)詞在這篇文章的重要性會(huì)越高，所以通過計(jì)算文章中各個(gè)詞的TF-IDF，由大到小排序，排在最前面的幾個(gè)詞，就是該文章的關(guān)鍵詞。

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

TF-IDF算法步驟

第一步，計(jì)算詞頻：

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

考慮到文章有長短之分，為了便于不同文章的比較，進(jìn)行"詞頻"標(biāo)準(zhǔn)化。

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

第二步，計(jì)算逆文檔頻率：

這時(shí)，需要一個(gè)語料庫（corpus），用來模擬語言的使用環(huán)境。

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

如果一個(gè)詞越常見，那么分母就越大，逆文檔頻率就越小越接近0。分母之所以要加1，是為了避免分母為0（即所有文檔都不包含該詞）。log表示對(duì)得到的值取對(duì)數(shù)。

第三步，計(jì)算TF-IDF：

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

可以看到，TF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比，與該詞在整個(gè)語言中的出現(xiàn)次數(shù)成反比。所以，自動(dòng)提取關(guān)鍵詞的算法就很清楚了，就是計(jì)算出文檔的每個(gè)詞的TF-IDF值，然后按降序排列，取排在最前面的幾個(gè)詞。

優(yōu)缺點(diǎn)

TF-IDF的優(yōu)點(diǎn)是簡單快速，而且容易理解。缺點(diǎn)是有時(shí)候用詞頻來衡量文章中的一個(gè)詞的重要性不夠全面，有時(shí)候重要的詞出現(xiàn)的可能不夠多，而且這種計(jì)算無法體現(xiàn)位置信息，無法體現(xiàn)詞在上下文的重要性。如果要體現(xiàn)詞的上下文結(jié)構(gòu)，那么你可能需要使用word2vec算法來支持。

示例代碼

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

本文轉(zhuǎn)載自沐白AI筆記，作者：沐白

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

探討 | 大模型在傳統(tǒng)NLP任務(wù)的使用姿勢(shì)

NLP工作站 ? 3340瀏覽 ? 0回復(fù)
ACL2024 | NLP-KG：一個(gè)比Google Scholar更強(qiáng)大的NLP文獻(xiàn)搜索工具

Tang_Lan ? 3226瀏覽 ? 0回復(fù)
DSARE：當(dāng)傳統(tǒng)NLP遇到LLM后的關(guān)系提取新思路

大語言模型論文跟蹤 ? 2853瀏覽 ? 0回復(fù)
BERT如何增強(qiáng)NLP的性能

51CTO內(nèi)容精選 ? 2114瀏覽 ? 0回復(fù)
大模型訓(xùn)練核心算法之——反向傳播算法

AI探索時(shí)代 ? 3162瀏覽 ? 0回復(fù)
一種將RAG、KG、VS、TF結(jié)合增強(qiáng)領(lǐng)域LLM性能的框架

PaperAgent ? 2688瀏覽 ? 0回復(fù)
探討 | 大模型在傳統(tǒng)NLP任務(wù)的使用姿勢(shì)

NLP工作站 ? 2837瀏覽 ? 0回復(fù)
騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主

恰似驚鴻 ? 1995瀏覽 ? 0回復(fù)
掌握BERT：自然語言處理（NLP）從初級(jí)到高級(jí)的綜合指南

石映飛云 ? 2235瀏覽 ? 0回復(fù)
輕量級(jí)級(jí)表格識(shí)別算法模型-SLANet

大模型自然語言處理 ? 2525瀏覽 ? 0回復(fù)
NLP范式總結(jié) | 擁抱新范式

zhcs333 ? 1821瀏覽 ? 0回復(fù)
故障診斷 | 信號(hào)降噪算法合集，你學(xué)會(huì)了嗎？

Tang_Lan ? 2360瀏覽 ? 0回復(fù)
Word2vec算法原理詳解

人工智能訓(xùn)練營 ? 1698瀏覽 ? 0回復(fù)
看了這么多文章，終于理解了 Scaling Law

芝士AI吃魚 ? 5100瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)技術(shù)棧介紹——PyTorch，Transformer，NLP，CV，Embedding

AI探索時(shí)代 ? 1652瀏覽 ? 0回復(fù)
白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法：原理、圖解、視頻

后向傳播 ? 2614瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)技術(shù)的核心之——反向傳播算法(BP算法)

AI探索時(shí)代 ? 1983瀏覽 ? 0回復(fù)
快速學(xué)會(huì)一個(gè)機(jī)器學(xué)習(xí)算法：t-SNE降維

寶寶數(shù)模AI ? 1454瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎(jiǎng)勵(lì)模型；將獎(jiǎng)勵(lì)模型多模態(tài)情緒識(shí)別上

AI研究前瞻 ? 1635瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！ 7天前發(fā)布
Deepseek新論文！如何讓AI自己學(xué)會(huì)更公平地打分？ 2025-04-11 00:26:06發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： DeepNetwork中一般Dropout原理

下一篇：如何確認(rèn)深度學(xué)習(xí)模型的loss已經(jīng)收斂好了？

社區(qū)精華內(nèi)容

目錄

<style id="pp43y"></style>

<sub id="pp43y"><p id="pp43y"></p></sub>