自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器學(xué)習(xí)應(yīng)用實(shí)例|如何識別標(biāo)題黨?

大數(shù)據(jù)
相信你也遇到過這樣的情況:懷著猶如探秘般萬分期待的心情,點(diǎn)開一篇文章,結(jié)果卻發(fā)現(xiàn)又一次中了“標(biāo)題黨”的誘餌,成功上鉤,下面就講講如何準(zhǔn)確的識別標(biāo)題誘餌。

 [[170788]]

相信你也遇到過這樣的情況:懷著猶如探秘般萬分期待的心情,點(diǎn)開一篇文章,結(jié)果卻發(fā)現(xiàn)又一次中了“標(biāo)題黨”的誘餌,成功上鉤。這種現(xiàn)象,在國際有一個(gè)形象的名字 “Clickbait”。

“Clickbait”則被定義為引誘人進(jìn)入某網(wǎng)站的標(biāo)題誘餌。Facebook、谷歌自2014年末就開始了對“標(biāo)題誘餌”的識別,并且在最近宣布減少該類新聞出現(xiàn)在新聞?wù)?。因此,?zhǔn)確的識別出作者所寫的文章是不是標(biāo)題誘餌就顯得尤為重要。

標(biāo)題誘餌一般有哪些特征

先讓我們來看看一些點(diǎn)擊量較高的、典型的標(biāo)題黨:

· 關(guān)于新iPhone,10件蘋果公司不會(huì)告訴你的的事

· 接下來發(fā)生的一切將會(huì)讓你大跌眼鏡

· 90年代的演員是什么樣子的

· 特朗普說了奧巴馬和克林頓什么

· 成為一個(gè)好的數(shù)據(jù)科學(xué)家必備的9個(gè)技能

· 擁有iphone如何提高你的性生活

從這些標(biāo)題中我們似乎可以尋找到某些模式。趣味性和模糊性是這些標(biāo)題的主要特點(diǎn),看到這些標(biāo)題,我們就不自覺的想點(diǎn)開看看這些文章到底要說什么。當(dāng)然,通常情況下,文章的內(nèi)容會(huì)讓你很失望。

一些小的網(wǎng)站依靠標(biāo)題陷阱獲得流量,就連一些較為受歡迎的新聞網(wǎng),如Buzzfeed也被冠以標(biāo)題陷阱集散地的稱號, 正如“今日頭條”在App store的遭遇一樣,隨著谷歌和Facebook對這類文章采取的一系列措施懲罰,這種現(xiàn)象還會(huì)持續(xù)多久?

識別標(biāo)題誘餌

不同于其他應(yīng)用機(jī)器學(xué)習(xí)的文章,這篇文章將不包括機(jī)器學(xué)習(xí)的基礎(chǔ),我們直接進(jìn)入主體的分析部分。

1 創(chuàng)建數(shù)據(jù)集

為了識別clickbaits,我們必須先從一些新聞網(wǎng)站抓取一些標(biāo)題,并創(chuàng)建兩個(gè)相對的數(shù)據(jù)集:一個(gè)為clickbait標(biāo)題數(shù)據(jù)集,包含十萬條數(shù)據(jù);另一個(gè)為non-clickbait標(biāo)題數(shù)據(jù)集,包含五千條數(shù)據(jù),以此形成一個(gè)監(jiān)督學(xué)習(xí)問題,即用non-clickbaits數(shù)據(jù)集對clickbaits進(jìn)行類別判斷。

2 數(shù)據(jù)集特征分析及模型訓(xùn)練

在創(chuàng)建好數(shù)據(jù)集之后,我們將對不同的數(shù)據(jù)集進(jìn)行特征分析,并用機(jī)器學(xué)習(xí)算法進(jìn)行識別模型的訓(xùn)練。

詞頻-逆向文本頻率(TF-IDF)

TF-IDF是一種用戶信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),用以評估一個(gè)字詞在一個(gè)文件集或一個(gè)語料庫中的重要程度。在這個(gè)方法中,我分別對字符和單詞進(jìn)行分析,并且運(yùn)用 n-gram模型的(1,1),(1,2),(1,3)。接著,我們用scikit-learn這一用于機(jī)器學(xué)習(xí)的python模塊來實(shí)現(xiàn)以上算法。

字符分析器如下:

 

 

詞語分析器如下:

 

 

TF-IDF向量分析器非常強(qiáng)大,能清楚的告訴我們哪些字符、單詞在clickbaits中的出現(xiàn)的頻率***,如下圖所示:

 

 

同樣,在non-clickbaits中出現(xiàn)頻率***的字符、單詞為:

 

 

接下來,我使用了兩種不同的機(jī)器學(xué)習(xí)算法, 邏輯回歸和梯度增加,并用以下指標(biāo)評估模型算法:

· ROC曲線下的面積

· 準(zhǔn)確度

· 召回率

· F1-分?jǐn)?shù)

為了避免過度擬合,我使用5折分層抽樣。下圖展示了如何實(shí)現(xiàn)隨機(jī)抽樣。在分層抽樣的情況下,預(yù)測集合訓(xùn)練集具有相同的正、負(fù)標(biāo)簽比例。

 

 

經(jīng)過一些簡單的模型參數(shù)調(diào)整,上述兩種機(jī)器學(xué)習(xí)模型的各指標(biāo)得分如下:

邏輯回歸

:ROC曲線下的面積= 0.987319021551

精確度= 0.950326797386

召回率= 0.939276485788F1

得分= 0.944769330734ROC曲線:

 

 

梯度增加:

ROC曲線下的面積= 0.969700677962

精確度= 0.95756718529

召回率= 0.874677002584F1

得分= 0.914247130317ROC

曲線:

 

 

Word2Vec

Word2Vec模型在自然語言處理中很受歡迎,總是為我們提供偉大的見解。Word2Vec從本質(zhì)上來說就是一個(gè)矩陣分解的模型,簡單地說,矩陣刻畫了每個(gè)詞和其上下文的詞的集合的相關(guān)情況。

在本文中,我們用Word2Vec來表示相似或意義非常接近的單詞,如下圖所示:

 

 

同樣,我們也可以使用word2vec代表句子:

 

 

我們將每個(gè)單詞(每個(gè)句子/標(biāo)題)作為一個(gè)200維的向量??梢暬痺ord2vec的***辦法是將這些向量運(yùn)用t-SNE方法分解在兩維的坐標(biāo)系中,如下圖:

 

 

從上圖我們看到,我們只用word2vec就明顯的區(qū)分出了clickbaits和non-clickbaits的特征,這意味著,在這一算法上使用一個(gè)機(jī)器學(xué)習(xí)模型將會(huì)極大的改善我們的分類。

我們使用與上文相同的兩個(gè)機(jī)器學(xué)習(xí)模型處理數(shù)據(jù)集,模型的各指標(biāo)得分如下:

邏輯回歸:

ROC曲線下的面積= 0.981149604411

精確度= 0.936280884265

召回率= 0.93023255814F1

得分= 0.933246921581ROC

曲線:

 

 

梯度增加:

ROC曲線下的面積= 0.981312768055

精確度= 0.939947780679

召回率= 0.93023255814F1

得分= 0.935064935065ROC

曲線:

 

 

我們可以看到在梯度增加模型中,各項(xiàng)指標(biāo)得分明顯提高。

為了進(jìn)一步提高評估,我們結(jié)合TF-IDF和Word2Vec兩種算法進(jìn)行特征識別,并根據(jù)這些特征進(jìn)行自動(dòng)識別clickbaits的機(jī)器模型訓(xùn)練,可以看到模型分?jǐn)?shù)顯著提高。

 

 

一個(gè)嚴(yán)肅的結(jié)論停止使用標(biāo)題陷阱。

對新聞工作者來說,這些標(biāo)題可能會(huì)給你帶來額外的閱讀量,但隨著幾大互聯(lián)網(wǎng)巨頭的聯(lián)合行動(dòng),這類現(xiàn)象不會(huì)持續(xù)很長時(shí)間。

文章來源36大數(shù)據(jù),www.36dsj.com ,微信號dashuju36 ,36大數(shù)據(jù)是一個(gè)專注大數(shù)據(jù)創(chuàng)業(yè)、大數(shù)據(jù)技術(shù)與分析、大數(shù)據(jù)商業(yè)與應(yīng)用的網(wǎng)站。分享大數(shù)據(jù)的干貨教程和大數(shù)據(jù)應(yīng)用案例,提供大數(shù)據(jù)分析工具和資料下載,解決大數(shù)據(jù)產(chǎn)業(yè)鏈上的創(chuàng)業(yè)、技術(shù)、分析、商業(yè)、應(yīng)用等問題,為大數(shù)據(jù)產(chǎn)業(yè)鏈上的公司和數(shù)據(jù)行業(yè)從業(yè)人員提供支持與服務(wù)。

責(zé)任編輯:趙寧寧 來源: 36大數(shù)據(jù)
相關(guān)推薦

2022-05-17 12:25:59

物聯(lián)網(wǎng)智能建筑樓宇自控

2022-09-30 09:24:27

開源模型

2021-01-21 22:18:59

機(jī)器學(xué)習(xí)加密貨幣數(shù)據(jù)

2014-03-17 10:28:52

PythonJulia

2023-06-16 14:46:46

機(jī)器學(xué)習(xí)人工智能

2024-03-25 13:59:20

機(jī)器學(xué)習(xí)工業(yè)應(yīng)用

2011-06-03 17:50:58

2017-09-15 18:13:57

機(jī)器學(xué)習(xí)深度學(xué)習(xí)語音識別

2017-05-05 09:56:08

神經(jīng)網(wǎng)絡(luò)模型繪畫

2023-12-21 17:05:46

機(jī)器學(xué)習(xí)MLOps人工智能

2023-09-27 07:56:25

2023-12-27 11:11:15

2020-12-17 09:40:33

人工智能

2020-08-12 11:35:04

物聯(lián)網(wǎng)安全機(jī)器學(xué)習(xí)物聯(lián)網(wǎng)應(yīng)用

2020-06-10 07:46:39

機(jī)器學(xué)習(xí)預(yù)測性維護(hù)工業(yè)物聯(lián)網(wǎng)

2018-04-17 08:41:47

Java機(jī)器學(xué)習(xí)應(yīng)用iOS

2020-05-17 14:37:37

機(jī)器學(xué)習(xí)技術(shù)架構(gòu)

2017-02-22 14:52:51

機(jī)器學(xué)習(xí)人工智能聲音

2018-02-07 16:18:01

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號