自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于深度學(xué)習(xí)的文本情感識(shí)別技術(shù)在5G不良消息安全管控平臺(tái)中的應(yīng)用

人工智能 深度學(xué)習(xí)
目前,深度學(xué)習(xí)應(yīng)用領(lǐng)域十分廣闊,依靠其重復(fù)訓(xùn)練、自我學(xué)習(xí)的方式,可以大大降低人工的工作量,提升效率及準(zhǔn)確度。不僅適用于上述不良信息攔截系統(tǒng),相信在不久的將來(lái),該技術(shù)在其他新興領(lǐng)域也會(huì)大放異彩。

作者 | 孫越,單位:中移(杭州)信息技術(shù)有限公司 | 中國(guó)移動(dòng)杭州研發(fā)中心

Labs 導(dǎo)讀

隨著5G網(wǎng)絡(luò)的不斷普及,大量用戶開始接觸并使用5G網(wǎng)絡(luò)。5G網(wǎng)絡(luò)不僅可以傳送傳統(tǒng)網(wǎng)絡(luò)的語(yǔ)音、視頻、文本等信息,還可以憑借更加低時(shí)延及高精準(zhǔn)的定位能力,被使用在更多具有實(shí)用價(jià)值的應(yīng)用場(chǎng)景中,如:戰(zhàn)地實(shí)況信息、衛(wèi)星定位導(dǎo)航等等。

網(wǎng)絡(luò)信息時(shí)常會(huì)夾雜不良信息,如涉政信息、涉黃信息、涉黑信息、涉詐信息、商業(yè)廣告消息等,且不良信息數(shù)量呈現(xiàn)逐年上升趨勢(shì),給用戶造成了巨大騷擾。為了凈化網(wǎng)絡(luò)環(huán)境,有效管控不良信息傳播,中國(guó)移動(dòng)5G不良消息安全管控平臺(tái)應(yīng)運(yùn)而生。

圖片

數(shù)據(jù)來(lái)源:中國(guó)移動(dòng)集團(tuán)信息安全中心

1、5G不良信息管控平臺(tái)的應(yīng)用場(chǎng)景

該平臺(tái)在面對(duì)繁雜的網(wǎng)絡(luò)信息環(huán)境時(shí),諸如文本消息、語(yǔ)音信息、視頻信息、富媒體信息等,將信息歸類為:涉政、涉黃、涉黑、涉詐、商業(yè)廣告消息、正常消息等等,再通過對(duì)應(yīng)策略進(jìn)行及時(shí)攔截,并根據(jù)不良消息的嚴(yán)重程度進(jìn)行后續(xù)懲處處理,從根源凈化網(wǎng)絡(luò)環(huán)境,營(yíng)造良好的網(wǎng)絡(luò)空間。

圖片

2、現(xiàn)有5G不良信息管控平臺(tái)的技術(shù)要點(diǎn)

該平臺(tái)主要通過以下幾種方法對(duì)不良信息進(jìn)行攔截:

①設(shè)定一級(jí)關(guān)鍵詞:一級(jí)關(guān)鍵詞通常設(shè)置為一些極度敏感詞匯,若用戶發(fā)送信息中包含一級(jí)關(guān)鍵詞內(nèi)容,即立即攔截該信息,信息內(nèi)容無(wú)法下發(fā),并對(duì)該用戶進(jìn)行標(biāo)記。

②設(shè)定普通關(guān)鍵詞: 普通關(guān)鍵詞設(shè)置為一些較為敏感詞匯,若用戶發(fā)送信息中包含普通關(guān)鍵詞內(nèi)容,且在一定時(shí)間內(nèi),用戶發(fā)送該敏感消息的次數(shù)超過系統(tǒng)預(yù)先設(shè)定的攔截閾值,則系統(tǒng)會(huì)將用戶拉入黑名單,在一定時(shí)間內(nèi),該用戶無(wú)法使用完整5G網(wǎng)絡(luò)服務(wù)。

③設(shè)定復(fù)雜文本信息監(jiān)控:如用戶發(fā)送PDF文件,其中該文件中包含文字和圖片,將文件中文字提取出來(lái),過濾一級(jí)關(guān)鍵詞和普通關(guān)鍵詞機(jī)制,圖片則進(jìn)行富媒體機(jī)制過濾,分別根據(jù)文本和圖片的過濾結(jié)果,采用從重處置的原則,作為該文件的處置結(jié)果。

3、現(xiàn)有5G不良管控平臺(tái)的技術(shù)弱點(diǎn)

現(xiàn)有5G不良消息安全管控平臺(tái)的過濾機(jī)制僅能過濾指定且有限的短語(yǔ)、短句,而隨著網(wǎng)絡(luò)普及,新鮮詞匯每天都會(huì)大量涌現(xiàn),僅靠人工手動(dòng)添加詞匯,已經(jīng)無(wú)法做到及時(shí)、快速的更新詞匯庫(kù)。而且當(dāng)今大量用戶在發(fā)送文本信息時(shí),雖然整個(gè)文本信息沒有違規(guī)詞匯,但表達(dá)的思想及情感卻可能帶有大量不良情感傾向,僅靠詞匯及短句無(wú)法成功攔截不良情感內(nèi)容。因此,利用文本情感分析,將富含不良情感傾向的句子進(jìn)行送審攔截,可以進(jìn)一步加強(qiáng)不良信息管控的效果,減少垃圾信息對(duì)用戶的侵蝕與毒害。

通過建立包含網(wǎng)絡(luò)流行短句及新聞消息的文本情感庫(kù),將文本中富含的情感分為三類:積極情感、中性情感、消極情感,并按照這三種分類對(duì)每一個(gè)文本加上相應(yīng)標(biāo)簽,利用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)情感庫(kù)中文本進(jìn)行訓(xùn)練,便可將訓(xùn)練好的模型用在5G不良消息管控平臺(tái)中對(duì)不良情感消息進(jìn)行攔截。

4、基于深度學(xué)習(xí)的5G不良管控系統(tǒng)技術(shù)實(shí)現(xiàn)細(xì)節(jié)

該技術(shù)中包含三大主體:jieba分詞系統(tǒng)、詞組向量化,文本情感識(shí)別算法,各個(gè)主體之間的交互如下圖:

圖片

各模塊交互流程圖

通過爬蟲技術(shù)爬取網(wǎng)絡(luò)詞語(yǔ)及新聞消息作為原始文本,并將原始文本按照8:2的比例分為訓(xùn)練集和測(cè)試集,對(duì)訓(xùn)練集中的文本信息進(jìn)行標(biāo)簽化,然后將測(cè)試集中文本信息通過jieba分詞工具進(jìn)行分詞處理,比如:他來(lái)到移動(dòng)杭研大廈。通過jieba分詞工具分詞后,結(jié)果為:他/來(lái)到/移動(dòng)/杭研/大廈,最后將分詞后數(shù)據(jù)組建成語(yǔ)料庫(kù)。由于訓(xùn)練集和測(cè)試集文本信息量很大(通常在百萬(wàn)級(jí)數(shù)據(jù)),所以會(huì)導(dǎo)致分詞后語(yǔ)料庫(kù)中的數(shù)據(jù)量也十分龐大(千萬(wàn)級(jí)數(shù)據(jù)量)。雖然可以將這些語(yǔ)料以編號(hào)的形式儲(chǔ)存在語(yǔ)料庫(kù)中,但由于數(shù)據(jù)量龐大,極易出現(xiàn)維度災(zāi)難。因此,針對(duì)文本信息中出現(xiàn)的語(yǔ)氣助詞,比如:“了”、“的”、“嗎”等等,這些詞雖然出現(xiàn)十分頻繁,但對(duì)情感作用幾乎沒有貢獻(xiàn),我們會(huì)選擇在語(yǔ)料庫(kù)中剔除這些詞組,達(dá)到減少維度的目的。

我們將訓(xùn)練集中已經(jīng)向量化的詞組送入深度學(xué)習(xí)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)訓(xùn)練,獲取相應(yīng)模型,最后將測(cè)試集中的數(shù)據(jù)放入到模型中查看對(duì)應(yīng)的識(shí)別結(jié)果,當(dāng)該模型能夠獲得較好的正確率時(shí),該模型聯(lián)接到5G不良管控平臺(tái),用戶發(fā)送端到端的信息進(jìn)行過濾。在過濾過程中,若發(fā)現(xiàn)不良信息及時(shí)進(jìn)行攔截,使5G不良信息管控系統(tǒng)對(duì)于不良信息的攔截更加系統(tǒng)、全面。

圖片

具體步驟如下:

  1. 從網(wǎng)上爬取原始文本語(yǔ)料,并將原始文本進(jìn)行預(yù)處理,包括:去除語(yǔ)氣詞,刪除文本中出現(xiàn)的標(biāo)點(diǎn)符號(hào)、空白區(qū)域,刪除文本中出現(xiàn)的終止詞、稀疏詞和特定詞;使用jieba庫(kù)進(jìn)行分詞,將文本句子按照詞組精確地切開,分成一個(gè)一個(gè)單獨(dú)的詞組;
  2. 將爬取到的文本數(shù)據(jù)集按照一定比例劃分成訓(xùn)練集和測(cè)試集,對(duì)訓(xùn)練集中文本句子進(jìn)行人工標(biāo)注,分為:積極情感、消極情感、中性情感。并分別使用jieba庫(kù)對(duì)訓(xùn)練集和測(cè)試集內(nèi)文本句子進(jìn)行分詞,將分詞后的訓(xùn)練集構(gòu)建成語(yǔ)料庫(kù);
  3. 將步驟1中詞組進(jìn)行向量化,讓每一個(gè)分詞映射為一個(gè)多維的連續(xù)值向量,得到整個(gè)數(shù)據(jù)集的詞向量矩陣。
  4. 通過先抽取情感詞所在的子句,減少句子的復(fù)雜度,再在子句中根據(jù)各種特征預(yù)測(cè)情感對(duì)象的位置,然后再?gòu)南鄳?yīng)位置進(jìn)行情感抽取。情感抽取是為了獲取文本中有價(jià)值的情感信息,判斷一個(gè)單詞或詞組在情感表達(dá)中扮演的角色,包括情感表達(dá)者識(shí)別、評(píng)價(jià)對(duì)象識(shí)別、情感觀點(diǎn)詞識(shí)別等任務(wù)。
  5. 通過將上述操作獲得的情感向量送入到深度學(xué)習(xí)網(wǎng)絡(luò)獲得文本情感識(shí)別模型,再將測(cè)試集中情感向量送入該模型中,查看測(cè)試結(jié)果,并將檢測(cè)結(jié)果正常的數(shù)據(jù)繼續(xù)進(jìn)行常規(guī)策略過濾,如:文本匹配、富媒體識(shí)別等。  

5、融入深度學(xué)習(xí)的5G攔截系統(tǒng)的優(yōu)點(diǎn)

與現(xiàn)有5G攔截系統(tǒng)相比,融入深度學(xué)習(xí)的5G攔截系統(tǒng)具有以下優(yōu)點(diǎn):

  • 利用深度學(xué)習(xí)技術(shù)提供高可靠性、高真實(shí)性的有效鑒別;
  • 利用深度學(xué)習(xí)技術(shù)進(jìn)行情感識(shí)別,人工介入少,工作效率高;
  • 利用文本情感識(shí)別,可有效補(bǔ)充關(guān)鍵詞攔截的不足;
  • 利用文本情感識(shí)別,可將在策略中及時(shí)自動(dòng)更新補(bǔ)充新的詞條信息,提高效率。

寫在最后:

目前,深度學(xué)習(xí)應(yīng)用領(lǐng)域十分廣闊,依靠其重復(fù)訓(xùn)練、自我學(xué)習(xí)的方式,可以大大降低人工的工作量,提升效率及準(zhǔn)確度。不僅適用于上述不良信息攔截系統(tǒng),相信在不久的將來(lái),該技術(shù)在其他新興領(lǐng)域也會(huì)大放異彩。當(dāng)然,深度學(xué)習(xí)本身也不盡完美,并不能解決所有棘手問題。正因?yàn)槿绱?,我們?yīng)該繼續(xù)將深度學(xué)習(xí)技術(shù)投入到新場(chǎng)景、新領(lǐng)域以期獲得新突破,共創(chuàng)美好的未來(lái)智能生活。

責(zé)任編輯:未麗燕 來(lái)源: 移動(dòng)Labs
相關(guān)推薦

2020-06-29 08:36:50

5G網(wǎng)絡(luò)技術(shù)

2020-11-16 15:45:18

5G醫(yī)療技術(shù)

2021-08-06 09:55:33

5G智慧農(nóng)業(yè)物聯(lián)網(wǎng)

2020-11-13 17:35:48

5GWDM無(wú)源

2022-01-09 23:35:50

5G運(yùn)營(yíng)商金融

2022-02-23 11:19:36

5G人工智能技術(shù)

2023-01-13 12:39:27

5G技術(shù)安全

2020-03-19 17:36:41

5G智慧城市運(yùn)營(yíng)商

2019-08-09 08:26:34

5G物聯(lián)網(wǎng)應(yīng)用通信網(wǎng)絡(luò)

2019-10-24 10:19:42

5G網(wǎng)絡(luò)物聯(lián)網(wǎng)

2017-07-12 10:44:31

CNNLSTMNLP

2020-06-28 09:59:10

5G網(wǎng)絡(luò)安全網(wǎng)絡(luò)

2022-06-17 11:03:11

5G安全隱私

2021-11-09 05:34:55

5G應(yīng)用5G試商用

2019-07-09 10:33:14

網(wǎng)絡(luò)安全技術(shù)通信

2022-03-21 15:30:49

5G物聯(lián)網(wǎng)商業(yè)建筑

2014-05-09 15:43:39

移動(dòng)安全Android安全

2020-06-04 15:32:18

5G網(wǎng)絡(luò)技術(shù)蜂窩技術(shù)

2021-11-18 22:41:55

5G6G技術(shù)

2023-09-28 21:24:54

5G運(yùn)營(yíng)商通信
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)