自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自媒體文章質(zhì)量如何AI知道,這是微信的自動(dòng)評估算法

新聞 人工智能 算法
在這篇文章中,騰訊微信數(shù)據(jù)質(zhì)量團(tuán)隊(duì)解讀了他們的自媒體在線文章質(zhì)量自動(dòng)評估算法,告訴你模型眼中的好文章都是什么樣的。

 自媒體時(shí)代,每個(gè)公眾號都在思考一個(gè)問題:如何讓我的文章被更多人看到?其實(shí),除了運(yùn)營之外,本章本身的質(zhì)量才是最根本的。在這篇文章中,騰訊微信數(shù)據(jù)質(zhì)量團(tuán)隊(duì)解讀了他們的自媒體在線文章質(zhì)量自動(dòng)評估算法,告訴你模型眼中的好文章都是什么樣的。

自媒體文章質(zhì)量如何AI知道,這是微信的自動(dòng)評估算法

移動(dòng)閱讀時(shí)代涌現(xiàn)了許多用戶生成內(nèi)容模式下的自媒體平臺,每個(gè)用戶都可以作為內(nèi)容生產(chǎn)者,這種開放性同時(shí)也導(dǎo)致了自媒體在線文章的質(zhì)量參差不齊。自動(dòng)評估自媒體在線文章質(zhì)量對在線推薦、搜索和廣告等應(yīng)用場景都具有重要意義,然而當(dāng)前幾乎沒有針對該任務(wù)的研究工作。

不同于格式良好的傳統(tǒng)文章(例如學(xué)術(shù)論文和 Wikipedia 文檔),自媒體在線文章主要由用戶創(chuàng)建,沒有統(tǒng)一的格式、布局和寫作規(guī)范,包含文本、圖像和視頻的多模態(tài)混合編輯,以及內(nèi)容豐富、風(fēng)格多樣、語義跨度大的潛在特征。同時(shí),評估過程需要充分考慮讀者的閱讀體驗(yàn)。此外,影響文章質(zhì)量的因素包括內(nèi)容,排版布局,寫作風(fēng)格等不同方面下的多種影響因素。這些都使得自媒體在線文章質(zhì)量的自動(dòng)評估變得更加復(fù)雜和具有挑戰(zhàn)性。

為了解決這些挑戰(zhàn),在 ACM MM2020 中,騰訊微信數(shù)據(jù)質(zhì)量團(tuán)隊(duì)建立了一個(gè)統(tǒng)一的框架來有效地學(xué)習(xí)和整合在線文章質(zhì)量評估的不同因素,結(jié)合排版布局、寫作風(fēng)格和深度語義建立了一個(gè)聯(lián)合模型 CoQAN ,設(shè)計(jì)了不同的表示學(xué)習(xí)子網(wǎng)絡(luò),特別是考慮了交互特征學(xué)習(xí)過程和移動(dòng)終端上的交互閱讀習(xí)慣,這與人類對文章質(zhì)量評價(jià)的認(rèn)知方式更為貼合。作者還構(gòu)建了一個(gè)大規(guī)模的真實(shí)世界評估數(shù)據(jù)集。充分的實(shí)驗(yàn)結(jié)果表明,所提出的方法有效地學(xué)習(xí)和整合了在線文章質(zhì)量評估的不同因素。

自媒體文章質(zhì)量如何AI知道,這是微信的自動(dòng)評估算法

論文鏈接:https://arxiv.org/pdf/2008.05658.pdf

考慮到自媒體平臺的性質(zhì),作者將自媒體在線文章質(zhì)量合理地定義為文章帶給用戶的閱讀體驗(yàn)水平,即文章的可讀性,反映在文章的信息內(nèi)容、寫作規(guī)范、用戶感知等方面。

高質(zhì)量文章需要滿足布局工整美觀,有清晰的版塊和段落劃分,圖片和文字排列整齊; 內(nèi)容具有連貫性和高聚合度,具有良好的寫作邏輯和豐富的信息。相反,低質(zhì)量的文章往往布局或?qū)懽鬟壿嬃钊死Щ?,?nèi)容不完整或無意義,甚至可能是一片擁擠的文本或混亂的純圖片或視頻。

圖 1 展示了兩篇報(bào)道同一新聞「綁架和謀殺中國學(xué)者張瑩穎事件」的微信公眾號文章,我們可以很容易地分辨出它們之間的區(qū)別:右側(cè)低質(zhì)量的文章包含不相關(guān)的廣告圖片,并且它在很少的文本行數(shù)中使用了多種文本格式,這給讀者的眼睛帶來了不必要的負(fù)擔(dān),而且在表達(dá)上使用了更多口語和情感詞。相反地,左側(cè)的高質(zhì)量文章具有更好的寫作邏輯和表達(dá)方式并傳達(dá)了更豐富的內(nèi)容。


圖 1:高質(zhì)文章(左)與低質(zhì)文章(右)示例

我們知道人類閱讀自媒體在線文章時(shí)的認(rèn)知過程是由淺入深的。

讀者點(diǎn)開文章時(shí),首先感受到的是排版外觀,即讀者的表層認(rèn)知。精美的視覺布局和豐富的呈現(xiàn)形式可以使讀者對文章產(chǎn)生興趣,并為讀者帶來更好的閱讀體驗(yàn)。

然后,讀者通過瀏覽詞匯、句法、文章組織和圖片來獲得內(nèi)容的主要印象,這是讀者的淺層認(rèn)知。

最后,讀者需要對文本語義和寫作邏輯有深度的理解,才能領(lǐng)略到文章的意義和價(jià)值,這是讀者的深層認(rèn)知。

受上述認(rèn)知過程的啟發(fā),本文建議結(jié)合布局組織、寫作特征和文本語義,交互地進(jìn)行特征表示學(xué)習(xí)并整合到統(tǒng)一框架中以評估自媒體在線文章的質(zhì)量。不同于傳統(tǒng)的文檔質(zhì)量評估大多只考慮文本要素,本文所提方法將圖片用作建模頁面布局的關(guān)鍵單元,并提取重要的圖片特征以反映視覺觀感水平和文章的可讀性。

該工作的主要貢獻(xiàn)包括:

據(jù)了解,這是解決自媒體在線文章質(zhì)量自動(dòng)評估的第一項(xiàng)研究工作。所提出的方法可以很好地模擬人類專家的評分要素和閱讀習(xí)慣。

作者提出了一個(gè)結(jié)合了不同特征空間子網(wǎng)絡(luò)的聯(lián)合認(rèn)知表示學(xué)習(xí)模型,并構(gòu)建了自媒體在線文章質(zhì)量評估的端到端框架。

作者構(gòu)造一個(gè)大規(guī)模的現(xiàn)實(shí)世界數(shù)據(jù)集。充分的實(shí)驗(yàn)結(jié)果表明,提出的模型明顯優(yōu)于以往的文檔質(zhì)量評估方法。

具體方法

本文將自媒體在線文章質(zhì)量評估視為一項(xiàng)分類任務(wù),即給定一篇文章,預(yù)測其為高質(zhì)量文章或是低質(zhì)量文章。

圖 2 展示了本文提出的自媒體在線文章質(zhì)量評估的 CoQAN 網(wǎng)絡(luò)架構(gòu),其中設(shè)計(jì)了三個(gè)子網(wǎng)絡(luò)來解耦布局組織、寫作特征和文本語義的建模。

對于布局建模,研究者考慮了人們在終端上閱讀自媒體文章時(shí)從上到下滑動(dòng)瀏覽的順序閱讀習(xí)慣,將文章劃分為內(nèi)容塊序列,顯式地學(xué)習(xí)文章圖文標(biāo)題等要素的排版布局,并同時(shí)捕捉整體的頁面布局和局部的排版模式。

寫作特征子網(wǎng)絡(luò)考慮到了多模態(tài)元素特征,并且能夠通過深層次的特征交互關(guān)系的學(xué)習(xí)進(jìn)行不同特征子空間的特征選擇和特征融合,實(shí)現(xiàn)高階非線性的特征融合。

文本語義子網(wǎng)絡(luò)從不同語義層次深入捕獲篇章級長文本內(nèi)容中的語義和內(nèi)聚關(guān)系,深入學(xué)習(xí)復(fù)雜的語義空間中詞間和句間的依賴以及文章整體的寫作邏輯。在融合層,每個(gè)子網(wǎng)絡(luò)都經(jīng)過一個(gè)全連接層以調(diào)整各神經(jīng)元在輸出向量中的權(quán)重,級聯(lián)后經(jīng)過輸出層預(yù)測得到質(zhì)量類別。

自媒體文章質(zhì)量如何AI知道,這是微信的自動(dòng)評估算法

圖 2:本文提出的自媒體在線文章質(zhì)量評估的 CoQAN 網(wǎng)絡(luò)架構(gòu)

布局組織子網(wǎng)絡(luò)

為了顯式學(xué)習(xí)外觀布局的組織排列,作者首先通過頁面解析將文章劃分為一序列的內(nèi)容塊,內(nèi)容塊可以是標(biāo)題、段落、圖片或視頻,如圖 3 所示。

之后,為每個(gè)內(nèi)容塊提取頁面布局相關(guān)特征,例如類型(文本 / 圖片 / 視頻)、在文章中的位置、內(nèi)容塊自身高度、距頁面頂部的距離等。將這些特征值進(jìn)行聚合構(gòu)成每個(gè)內(nèi)容塊的排版特征向量,其可以表達(dá)多個(gè)重要的布局特征。

自媒體文章質(zhì)量如何AI知道,這是微信的自動(dòng)評估算法

圖 3 :布局組織子網(wǎng)絡(luò)中內(nèi)容塊提取和輸入特征向量的構(gòu)建

在內(nèi)容塊排版特征向量序列上應(yīng)用 GRU 網(wǎng)絡(luò)來建模內(nèi)容塊之間的序列依賴并捕獲文章的全局排列模式。同時(shí),作者在輸入排版向量上應(yīng)用了一維卷積神經(jīng)網(wǎng)絡(luò)以學(xué)習(xí)關(guān)鍵的局部布局,設(shè)定多個(gè)尺寸的卷積核來捕獲不同比例的布局模式。 兩個(gè)網(wǎng)絡(luò)進(jìn)行級聯(lián)產(chǎn)生該子網(wǎng)絡(luò)的輸出向量。

寫作特征子網(wǎng)絡(luò)

寫作特征子網(wǎng)絡(luò)可以捕獲在線文章的編輯風(fēng)格。作者提取和計(jì)算了包括標(biāo)題、正文、圖片和視頻、篇章組織等方面的特征。例如,標(biāo)題特征包括標(biāo)題長度、關(guān)鍵字?jǐn)?shù)目等;正文特征包括文章類別、文本長度、n-gram、詞性標(biāo)簽、非重復(fù)字符和非重復(fù)單詞比例等;圖片和視頻特征包括圖片數(shù)目、動(dòng)圖數(shù)目、視頻數(shù)目、OCR 文字的最大數(shù)目等,篇章組織特征包括段落數(shù)目、作為版塊標(biāo)識的模板圖片數(shù)目、圖片數(shù)與段落數(shù)的比例等。

為了允許不同類別特征和數(shù)值特征之間的交互,寫作特征子網(wǎng)絡(luò)首先通過嵌入層將所有特征投影到相同的特征空間中,旨在在嵌入空間中對高階組合特征進(jìn)行建模。在本文中,作者通過應(yīng)用多頭自注意力層同時(shí)在多個(gè)特征子空間中學(xué)習(xí)不同特征之間的相互依賴關(guān)系,并進(jìn)行特征空間的融合。多頭使得一個(gè)特征域可以包含在不同組合特征中。

作者在網(wǎng)絡(luò)中添加了殘差連接以保留之前學(xué)習(xí)到的更低階的組合特征,包括原始的單特征。網(wǎng)絡(luò)堆疊多層多頭自注意力層,從而可以同時(shí)建模多階組合特征,實(shí)現(xiàn)不同空間的深度特征融合。

文本語義子網(wǎng)絡(luò)

作者改進(jìn) BERT,設(shè)計(jì) hi-Bert 作為文本語義子網(wǎng)絡(luò)。依靠強(qiáng)大的預(yù)訓(xùn)練技術(shù),BERT 具有很強(qiáng)的建模上下文關(guān)系的能力。由于 BERT 中的自注意力機(jī)制的時(shí)間復(fù)雜度為 O(n2),BERT 目前僅用于處理句子級文本,并不適合用于文檔級長文本輸入??紤]到文檔固有的層次結(jié)構(gòu),即單詞構(gòu)成句子、句子構(gòu)成文檔,作者將 BERT 改進(jìn)為層次結(jié)構(gòu)稱為 hi-BERT,其包含兩個(gè)層級的編碼器依次對文檔進(jìn)行編碼,分別應(yīng)用于句子級別和文檔級別。

由于標(biāo)題是對文章的高層概述,這里將標(biāo)題也作為輸入句子。在句子級別,網(wǎng)絡(luò)以遷移學(xué)習(xí)的方式使用預(yù)訓(xùn)練的 BERT。在文檔級別,作者采用了文檔級雙向 Transformer 層學(xué)習(xí)句子之間的深層依賴關(guān)系得到最終的文章語義向量。hi-BERT 可以深入學(xué)習(xí)單詞和句子之間的交互關(guān)系,并在面對不同的寫作風(fēng)格時(shí)可以學(xué)習(xí)到魯棒的文章語義表示。

實(shí)驗(yàn)結(jié)果

由于尚無公開數(shù)據(jù)集可用于自媒體在線文章質(zhì)量評估任務(wù),作者從微信公眾號平臺上收集處理在線文章數(shù)據(jù),構(gòu)建了一個(gè)自媒體在線文章質(zhì)量分類數(shù)據(jù)集。該數(shù)據(jù)集包含 38,248 篇在線文章,涵蓋了 44 種文章類別,涵蓋新聞,金融,技術(shù),民生等。實(shí)驗(yàn)在該數(shù)據(jù)集上進(jìn)行評估。

對比實(shí)驗(yàn)結(jié)果顯示,所提方法 CoQAN 在各項(xiàng)指標(biāo)上均顯著達(dá)到最佳。實(shí)驗(yàn)中,基線模型與本文所提模型使用相同的特征,因此模型的優(yōu)越性能受益于作者提出的聯(lián)合網(wǎng)絡(luò)表示學(xué)習(xí)架構(gòu),可以完備性地學(xué)習(xí)到更多有價(jià)值的信息。

自媒體文章質(zhì)量如何AI知道,這是微信的自動(dòng)評估算法

消融實(shí)驗(yàn)結(jié)果證明了每個(gè)子網(wǎng)絡(luò)的架構(gòu)以及聯(lián)合學(xué)習(xí)的有效性。去除文本語義子網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)性能下降最大,這說明建模好復(fù)雜的寫作知識是非常必要的。另外,文本語義子網(wǎng)絡(luò)的性能超過了僅對文本輸入建模的所有基線模型,并且寫作特征子網(wǎng)絡(luò)的性能超過了所有基于特征的基線模型,對文章布局的建??梢杂行嵘恼沦|(zhì)量評估的性能。從實(shí)驗(yàn)結(jié)果來看,任何兩個(gè)子網(wǎng)絡(luò)聯(lián)合后的性能都優(yōu)于單一子網(wǎng)絡(luò),并且聯(lián)合了三個(gè)子網(wǎng)絡(luò)的整體網(wǎng)絡(luò) CoQAN 是最優(yōu)的,這證明每個(gè)子網(wǎng)絡(luò)對于自媒體在線文章質(zhì)量評估都發(fā)揮了重要作用。

自媒體文章質(zhì)量如何AI知道,這是微信的自動(dòng)評估算法

作者設(shè)計(jì)了擾動(dòng)實(shí)驗(yàn),以驗(yàn)證模型是否可以學(xué)習(xí)到所關(guān)注的寫作邏輯和布局模式。實(shí)驗(yàn)中,隨機(jī)打亂所有被正確預(yù)測為正樣本的文章的句子或布局內(nèi)容塊的順序,并將打亂后的樣本視為負(fù)樣本,觀察成功擾動(dòng)的比例。擾動(dòng)率越高,說明模型對寫作邏輯和布局模式更為敏感,對文章質(zhì)量的評估能力越強(qiáng)。

從結(jié)果來看,本文提出的模型顯然比所有對比模型對句子打亂的干擾更為敏感,這表明 CoQAN 可以更輕松地捕獲句子之間的內(nèi)聚關(guān)系,并學(xué)習(xí)內(nèi)容和寫作邏輯的一致性。單文本語義子網(wǎng)絡(luò)(TS)的成功干擾率要高于整體聯(lián)合網(wǎng)絡(luò) CoQAN ,這是因?yàn)閿_動(dòng)實(shí)驗(yàn)是對正樣本進(jìn)行的,而正樣本具有良好的文本質(zhì)量和排版質(zhì)量。因此,當(dāng)僅打亂句子時(shí),良好的布局會在一定程度上阻止 CoQAN 將其判斷為負(fù)樣本。同時(shí)打亂布局順序和句子順序時(shí),成功干擾的比例遠(yuǎn)高于單一維度下的干擾。這些結(jié)果證明了本文提出的 CoQAN 成功地學(xué)習(xí)到了文本寫作和頁面布局的知識。

自媒體文章質(zhì)量如何AI知道,這是微信的自動(dòng)評估算法

另外,作者對特征的交互關(guān)系進(jìn)行了可視化分析,發(fā)現(xiàn)底部自注意力層可以區(qū)分主導(dǎo)特征,而頂層則學(xué)習(xí)更復(fù)雜的特征空間交互,獲得有意義的高階融合特征。圖中結(jié)果可見,占主導(dǎo)的特征有文本長度和圖片中的最大字符數(shù),高質(zhì)文章通常具有更豐富的內(nèi)容和更規(guī)則的圖片,而低質(zhì)文章通常具有不完整的內(nèi)容,并且經(jīng)常出現(xiàn)包含很多文本文字的廣告圖片。其他重要特征包括圖片中文本區(qū)域占比,非重復(fù)詞數(shù),標(biāo)題中的關(guān)鍵詞數(shù),圖片數(shù),段落數(shù)和詞性等,表明圖片、標(biāo)題、寫作和正文的組織對于自媒體在線文章質(zhì)量都非常重要。

自媒體文章質(zhì)量如何AI知道,這是微信的自動(dòng)評估算法

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2021-07-26 21:16:50

計(jì)算

2013-04-09 16:41:47

微信自媒體微信公眾平臺

2014-05-23 17:03:20

銳IT

2021-08-28 20:00:21

微信財(cái)經(jīng)移動(dòng)應(yīng)用

2017-12-12 11:18:03

微信語音聊天

2023-03-15 08:03:31

2013-09-13 14:40:59

微信自媒體

2023-03-31 23:37:37

AI自媒體視頻

2013-04-10 16:04:12

微信微信機(jī)器人技巧

2014-09-24 11:04:31

微信企業(yè)號開發(fā)

2023-11-25 19:58:38

2021-03-17 09:48:48

高質(zhì)量技術(shù)文章

2020-12-31 05:32:46

微信直播視頻號

2010-04-13 11:24:42

光纖端面檢測布線

2018-01-31 14:11:31

微信紅包隨機(jī)

2020-07-27 15:06:14

微信張小龍焦慮

2018-06-29 15:29:13

Tensorflow代碼谷歌

2019-12-13 16:19:15

戴爾

2020-03-10 10:06:08

小程序微信開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號