自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何用R進(jìn)行文本內(nèi)容的情感分析

大數(shù)據(jù)
一篇文章反映了什么態(tài)度?褒義還是貶義?肯定還是否定?喜怒哀樂(lè)愁,反映的是哪種情緒特征?對(duì)這些內(nèi)容的分析就是情感分析,或者叫情感傾向分析。情感傾向 可認(rèn)為是主體對(duì)某一客體主觀存在的內(nèi)心喜惡,內(nèi)在評(píng)價(jià)的一種傾向。當(dāng)然,有正常閱讀能力的人,在看了一篇文章后能夠判斷文章的情感和極性,但這是主觀體 驗(yàn),不是量化數(shù)據(jù)。在對(duì)文章進(jìn)行分析的時(shí)候,通常需要進(jìn)行量化的分析,顯得更加直觀、客觀。

一、關(guān)于文本內(nèi)容的情感分析

一篇文章反映了什么態(tài)度?褒義還是貶義?肯定還是否定?喜怒哀樂(lè)愁,反映的是哪種情緒特征?對(duì)這些內(nèi)容的分析就是情感分析,或者叫情感傾向分析。情感傾向 可認(rèn)為是主體對(duì)某一客體主觀存在的內(nèi)心喜惡,內(nèi)在評(píng)價(jià)的一種傾向。當(dāng)然,有正常閱讀能力的人,在看了一篇文章后能夠判斷文章的情感和極性,但這是主觀體 驗(yàn),不是量化數(shù)據(jù)。在對(duì)文章進(jìn)行分析的時(shí)候,通常需要進(jìn)行量化的分析,顯得更加直觀、客觀。

情感分析基本上有兩種方法,一種是極性分析,一種是情感類別分析。前者分析文章的總體態(tài)度是肯定還是否定,后者分析文章反映了喜怒哀樂(lè)愁中的哪種情感。

仍然以政府工作報(bào)告為例,這次是新鮮出爐的2015年度政府工作報(bào)告。

下面是這份報(bào)告的情感極性分析結(jié)果:

下面是這份報(bào)告的情感類別分析結(jié)果:

可以看出,政府工作報(bào)告在情感極性上,以正面情感為主,其次是中立情感,在情感類別上,以好的情感為主,其次是樂(lè)的情感。不愧是政府工作報(bào)告。

二、如何進(jìn)行文本內(nèi)容的情感分析

1、情感分析的2種方法

情感分析的方法主要分為兩類:一種是基于情感詞典的方法;一種是基于機(jī)器學(xué)習(xí)的方法。

基于情感詞典的方法,需要用到標(biāo)注好的情感詞典。這類詞典,英文多,中文少。不過(guò)還好,中文的也能夠找到幾個(gè),包括①臺(tái)灣大學(xué)研發(fā)的中文情感極性詞典 NTUSD;②大連理工大學(xué)的情感本體詞匯;③知網(wǎng)發(fā)布”情感分析用詞語(yǔ)集(beta版)”;④哈工大信息檢索研究室開源的《同義詞詞林》可以用于情感詞典的擴(kuò)充。這幾個(gè)詞典各有特色,都是免費(fèi),這點(diǎn)贊一個(gè)。

基于機(jī)器學(xué)習(xí)的方法,需要的材料就比較麻煩些,需要的是大量的人工標(biāo)注的語(yǔ)料作為訓(xùn)練集,通過(guò)提取文本特征,構(gòu)建分類器來(lái)實(shí)現(xiàn)情感的分類。比如要進(jìn)行情感 極性的判斷,就需要幾百上千個(gè)反映正面情感的文章,和幾百上千個(gè)關(guān)于負(fù)面情感的文章;要進(jìn)行情感分類的判斷,那么每種情感都需要大量文章作為語(yǔ)料。實(shí)際上 非常難辦到。如果能獲得分級(jí)的語(yǔ)料,就比較好辦,比如像豆瓣網(wǎng)的電影評(píng)論,每個(gè)評(píng)論都有對(duì)應(yīng)的星級(jí),總共五個(gè)星級(jí),每個(gè)星級(jí)對(duì)應(yīng)的評(píng)論集合就構(gòu)成了這一等 級(jí)的語(yǔ)料。根據(jù)這些語(yǔ)料進(jìn)行機(jī)器學(xué)習(xí),就能對(duì)新的評(píng)論,自動(dòng)進(jìn)行分級(jí)。機(jī)器學(xué)習(xí)最簡(jiǎn)單的方式是用樸素貝葉斯分類器進(jìn)行分類。

2、情感分析的算法

由于情感詞典比語(yǔ)料更容易獲取,所以用情感詞典進(jìn)行情感分析。算法就是思路,用情感詞典進(jìn)行分析,主要采用以下步驟進(jìn)行(以情感極性分析為例):

  • ①讀取情感詞典。獲得褒義詞列表、貶義詞列表、中性詞列表;獲得情感分類詞列表及其情感強(qiáng)度。
  • ②處理要分析的文本。主要是讀取文本,按句子拆分,每個(gè)句子進(jìn)行分詞。
  • ③計(jì)算句子的情感得分。查找句子中每個(gè)詞語(yǔ)的情感分類,讀取其情感強(qiáng)度,用正面情感得分減去負(fù)面情感得分,得到句子的情感總分。同時(shí)分別計(jì)算正面情感的總 分和負(fù)面情感的總分,有中性情感的類似處理。需要注意的是,句子中有否定詞和程度副詞,會(huì)影響句子的情感走向和強(qiáng)度,比如”很不喜歡”,分解成”很 不 喜歡”,如果只計(jì)算喜歡就是錯(cuò)誤的,因?yàn)榍懊嬗?rdquo;不”,情感完全相反,還有個(gè)”很”說(shuō)明程度很強(qiáng)烈。因此還需要判斷是否有否定詞,如果有要反轉(zhuǎn)情感傾向, 要檢查是否有程度副詞,如果有要進(jìn)行加權(quán)處理。所以,這里還需要一個(gè)《否定詞庫(kù)》和《程度副詞庫(kù)》,這兩個(gè)詞庫(kù)哪里找呢?google吧。
  • ④計(jì)算文章的情感得分。所有句子的情感得分之和,就是整篇文章的情感得分。

三、R中如何進(jìn)行情感分析

①首先,需要加載以下的庫(kù):

  • library(stringr) #對(duì)字符進(jìn)行操作
  • library(rJava) #分詞需要調(diào)用java
  • library(Rwordseg) #用于分詞
  • library(ggplot2) #用于展示圖形結(jié)果

②其次,需要讀取詞庫(kù),讀取詞庫(kù)中的每一類情感詞表,用list的格式存儲(chǔ)。

③然后,讀取要分析的文本,按句子間隔,每句為一行,建立list。

③分詞。如何分詞在前面的文章中有介紹。

④匹配詞表,計(jì)算每句話的情感得分,再計(jì)算整篇文章的總分和各類情感的總分。

⑤根據(jù)結(jié)果繪圖。

以上談了思路,具體代碼略過(guò)。因?yàn)榇a還需要優(yōu)化,不太適合展示出來(lái)。

責(zé)任編輯:未麗燕 來(lái)源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2016-12-07 14:56:51

KNIME數(shù)據(jù)分析

2021-12-26 22:57:57

Java開發(fā)深度學(xué)習(xí)

2021-08-30 07:57:26

OpenAttack文本對(duì)抗攻擊

2017-04-07 11:45:25

CSSDIV前端

2016-12-07 14:45:25

KNIME情感分析數(shù)據(jù)分析

2017-05-15 14:00:28

大數(shù)據(jù)Python情感極性分析

2018-09-04 11:45:31

前端JavaScriptNodeJS

2019-01-15 14:21:13

Python數(shù)據(jù)分析數(shù)據(jù)

2020-12-31 05:37:05

HiveUDFSQL

2018-03-27 13:33:48

百度

2016-12-07 14:23:48

KNIME數(shù)據(jù)分析情感分析

2023-06-11 17:00:06

2021-03-31 12:41:24

C語(yǔ)言編程語(yǔ)言

2018-06-19 08:35:51

情感分析數(shù)據(jù)集代碼

2019-05-14 10:37:26

Python機(jī)器學(xué)習(xí)編程語(yǔ)言

2017-04-07 09:00:46

UbuntuVim文本選擇

2023-02-03 11:40:49

機(jī)器學(xué)習(xí)分析情感

2017-03-21 10:55:22

大數(shù)據(jù)

2023-11-13 18:37:44

2020-11-06 17:42:02

Python開發(fā)工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)