路透社文章的文本數(shù)據(jù)分析與可視化
當(dāng)我要求你解釋文本數(shù)據(jù)時(shí),你會(huì)怎幺做?你將采取什幺步驟來(lái)構(gòu)建文本可視化?
本文將幫助你獲得構(gòu)建可視化和解釋文本數(shù)據(jù)所需的信息。
從文本數(shù)據(jù)中獲得的見(jiàn)解將有助于我們發(fā)現(xiàn)文章之間的聯(lián)系。它將檢測(cè)趨勢(shì)和模式。對(duì)文本數(shù)據(jù)的分析將排除噪音,發(fā)現(xiàn)以前未知的信息。
這種分析過(guò)程也稱(chēng)為探索性文本分析(ETA)。運(yùn)用K-means、Tf-IDF、詞頻等方法對(duì)這些文本數(shù)據(jù)進(jìn)行分析。此外,ETA在數(shù)據(jù)清理過(guò)程中也很有用。
我們還使用Matplotlib、seaborn和Plotly庫(kù)將結(jié)果可視化到圖形、詞云和繪圖中。
在分析文本數(shù)據(jù)之前,請(qǐng)完成這些預(yù)處理任務(wù)。
從數(shù)據(jù)源檢索數(shù)據(jù)
有很多非結(jié)構(gòu)化文本數(shù)據(jù)可供分析。你可以從以下來(lái)源獲取數(shù)據(jù)。
- 來(lái)自Kaggle的Twitter文本數(shù)據(jù)集。
- Reddit和twitter數(shù)據(jù)集使用API。
- 使用Beautifulsoup從網(wǎng)站上獲取文章、。
我將使用路透社的SGML格式的文章。為了便于分析,我將使用beauthoulsoup庫(kù)從數(shù)據(jù)文件中獲取日期、標(biāo)題和文章正文。
使用下面的代碼從所有數(shù)據(jù)文件中獲取數(shù)據(jù),并將輸出存儲(chǔ)在單個(gè)CSV文件中。
- from bs4 import BeautifulSoup
- import pandas as pd
- import csv
- article_dict = {}
- i = 0
- list_of_data_num = []
- for j in range(0,22):
- if j < 10:
- list_of_data_num.append("00" + str(j))
- else:
- list_of_data_num.append("0" + str(j))
- # 循環(huán)所有文章以提取日期、標(biāo)題和文章主體
- for num in list_of_data_num:
- try:
- soup = BeautifulSoup(open("data/reut2-" + num + ".sgm"), features='lxml')
- except:
- continue
- print(num)
- data_reuters = soup.find_all('reuters')
- for data in data_reuters:
- article_dict[i] = {}
- for date in data.find_all('date'):
- try:
- article_dict[i]["date"] = str(date.contents[0]).strip()
- except:
- article_dict[i]["date"] = None
- # print(date.contents[0])
- for title in data.find_all('title'):
- article_dict[i]["title"] = str(title.contents[0]).strip()
- # print(title.contents)
- for text in data.find_all('text'):
- try:
- article_dict[i]["text"] = str(text.contents[4]).strip()
- except:
- article_dict[i]["text"] = None
- i += 1
- dataframe_article = pd.DataFrame(article_dict).T
- dataframe_article.to_csv('articles_data.csv', header=True, index=False, quoting=csv.QUOTE_ALL)
- print(dataframe_article)
還可以使用Regex和OS庫(kù)組合或循環(huán)所有數(shù)據(jù)文件。
每篇文章的正文以<Reuters>開(kāi)頭,因此使用find_all(‘reuters’)。
你也可以使用pickle模塊來(lái)保存數(shù)據(jù),而不是CSV。
清洗數(shù)據(jù)
在本節(jié)中,我們將從文本數(shù)據(jù)中移除諸如空值、標(biāo)點(diǎn)符號(hào)、數(shù)字等噪聲。首先,我們刪除文本列中包含空值的行。然后我們處理另一列的空值。
- import pandas as pd import re
- articles_data = pd.read_csv(‘articles_data.csv’) print(articles_data.apply(lambda x: sum(x.isnull()))) articles_nonNull = articles_data.dropna(subset=[‘text’]) articles_nonNull.reset_index(inplace=True)
- def clean_text(text):
- ‘’’Make text lowercase, remove text in square brackets,remove \n,remove punctuation and remove words containing numbers.’’’
- text = str(text).lower()
- text = re.sub(‘<.*?>+’, ‘’, text)
- text = re.sub(‘[%s]’ % re.escape(string.punctuation), ‘’, text)
- text = re.sub(‘\n’, ‘’, text)
- text = re.sub(‘\w*\d\w*’, ‘’, text)
- return text
- articles_nonNull[‘text_clean’]=articles_nonNull[‘text’]\
- .apply(lambda x:clean_text(x))
articles_data = pd.read_csv(‘articles_data.csv’) print(articles_data.apply(lambda x: sum(x.isnull()))) articles_nonNull = articles_data.dropna(subset=[‘text’]) articles_nonNull.reset_index(inplace=True)
def clean_text(text):
‘’’Make text lowercase, remove text in square brackets,remove \n,remove punctuation and remove words containing numbers.’’’
text = str(text).lower()
text = re.sub(‘<.*?>+’, ‘’, text)
text = re.sub(‘[%s]’ % re.escape(string.punctuation), ‘’, text)
text = re.sub(‘\n’, ‘’, text)
text = re.sub(‘\w*\d\w*’, ‘’, text)
return text
articles_nonNull[‘text_clean’]=articles_nonNull[‘text’]\
.apply(lambda x:clean_text(x))
當(dāng)我們刪除文本列中的空值時(shí),其他列中的空值也會(huì)消失。
我們使用re方法去除文本數(shù)據(jù)中的噪聲。
數(shù)據(jù)清理過(guò)程中采取的步驟可能會(huì)根據(jù)文本數(shù)據(jù)增加或減少。因此,請(qǐng)仔細(xì)研究你的文本數(shù)據(jù)并相應(yīng)地構(gòu)建clean_text()方法。
隨著預(yù)處理任務(wù)的完成,我們將繼續(xù)分析文本數(shù)據(jù)。
讓我們從分析開(kāi)始。
1.路透社文章篇幅
我們知道所有文章的篇幅不一樣。因此,我們將考慮長(zhǎng)度等于或超過(guò)一段的文章。根據(jù)研究,一個(gè)句子的平均長(zhǎng)度是15-20個(gè)單詞。一個(gè)段落應(yīng)該有四個(gè)句子。
- articles_nonNull[‘word_length’] = articles_nonNull[‘text’].apply(lambda x: len(str(x).split())) print(articles_nonNull.describe())
- articles_word_limit = articles_nonNull[articles_nonNull[‘word_length’] > 60]
- plt.figure(figsize=(12,6))
- p1=sns.kdeplot(articles_word_limit[‘word_length’], shade=True, color=”r”).set_title(‘Kernel Distribution of Number Of words’)
我刪除了那些篇幅不足60字的文章。
字長(zhǎng)分布是右偏的。
大多數(shù)文章有150字左右。
包含事實(shí)或股票信息的路透社文章用詞較少。
2.路透社文章中的常用詞
在這一部分中,我們統(tǒng)計(jì)了文章中出現(xiàn)的字?jǐn)?shù),并對(duì)結(jié)果進(jìn)行了分析。我們基于N-gram方法對(duì)詞數(shù)進(jìn)行了分析。N-gram是基于N值的單詞的出現(xiàn)。
我們將從文本數(shù)據(jù)中刪除停用詞。因?yàn)橥S迷~是噪音,在分析中沒(méi)有太大用處。
(1)最常見(jiàn)的單字單詞(N=1)
讓我們?cè)跅l形圖中繪制unigram單詞,并為unigram單詞繪制詞云。
- from gensim.parsing.preprocessing
- import remove_stopwords
- import genism
- from wordcloud import WordCloud
- import numpy as np
- import random
- # 從gensim方法導(dǎo)入stopwords到stop_list變量
- # 你也可以手動(dòng)添加stopwords
- gensim_stopwords = gensim.parsing.preprocessing.STOPWORDS
- stopwords_list = list(set(gensim_stopwords))
- stopwords_update = ["mln", "vs","cts","said","billion","pct","dlrs","dlr"]
- stopwords = stopwords_list + stopwords_update
- articles_word_limit['temp_list'] = articles_word_limit['text_clean'].apply(lambda x:str(x).split())
- # 從文章中刪除停用詞
- def remove_stopword(x):
- return [word for word in x if word not in stopwords]
- articles_word_limit['temp_list_stopw'] = articles_word_limit['temp_list'].apply(lambda x:remove_stopword(x))
- # 生成ngram的單詞
- def generate_ngrams(text, n_gram=1):
- ngrams = zip(*[text[i:] for i in range(n_gram)])
- return [' '.join(ngram) for ngram in ngrams]
- article_unigrams = defaultdict(int)
- for tweet in articles_word_limit['temp_list_stopw']:
- for word in generate_ngrams(tweet):
- article_unigrams[word] += 1
- article_unigrams_df = pd.DataFrame(sorted(article_unigrams.items(), key=lambda x: x[1])[::-1])
- N=50
- # 在路透社的文章中前50個(gè)常用的unigram
- fig, axes = plt.subplots(figsize=(18, 50))
- plt.tight_layout()
- sns.barplot(y=article_unigrams_df[0].values[:N], x=article_unigrams_df[1].values[:N], color='red')
- axes.spines['right'].set_visible(False)
- axes.set_xlabel('')
- axes.set_ylabel('')
- axes.tick_params(axis='x', labelsize=13)
- axes.tick_params(axis='y', labelsize=13)
- axes.set_title(f'Top {N} most common unigrams in Reuters Articles', fontsize=15)
- plt.show()
- # 畫(huà)出詞云
- def col_func(word, font_size, position, orientation, font_path, random_state):
- colors = ['#b58900', '#cb4b16', '#dc322f', '#d33682', '#6c71c4',
- '#268bd2', '#2aa198', '#859900']
- return random.choice(colors)
- fd = {
- 'fontsize': '32',
- 'fontweight' : 'normal',
- 'verticalalignment': 'baseline',
- 'horizontalalignment': 'center',
- }
- wc = WordCloud(width=2000, height=1000, collocations=False,
- background_color="white",
- color_func=col_func,
- max_words=200,
- random_state=np.random.randint(1, 8)) .generate_from_frequencies(article_unigrams)
- fig, ax = plt.subplots(figsize=(20,10))
- ax.imshow(wc, interpolation='bilinear')
- ax.axis("off")
- ax.set_title(‘Unigram Words of Reuters Articles’, pad=24, fontdict=fd)
- plt.show()
Share, trade, stock是一些最常見(jiàn)的詞匯,它們是基于股票市場(chǎng)和金融行業(yè)的文章。
因此,我們可以說(shuō),大多數(shù)路透社文章屬于金融和股票類(lèi)。
(2)最常見(jiàn)的Bigram詞(N=2)
讓我們?yōu)锽igram單詞繪制條形圖和詞云。
- article_bigrams = defaultdict(int)
- for tweet in articles_word_limit[‘temp_list_stopw’]:
- for word in generate_ngrams(tweet, n_gram=2):
- article_bigrams[word] += 1
- df_article_bigrams=pd.DataFrame(sorted(article_bigrams.items(),
- key=lambda x: x[1])[::-1])
- N=50
- # 前50個(gè)單詞的柱狀圖
- fig, axes = plt.subplots(figsize=(18, 50), dpi=100)
- plt.tight_layout()
- sns.barplot(y=df_article_bigrams[0].values[:N],
- x=df_article_bigrams[1].values[:N],
- color=’red’)
- axes.spines[‘right’].set_visible(False)
- axes.set_xlabel(‘’)
- axes.set_ylabel(‘’)
- axes.tick_params(axis=’x’, labelsize=13)
- axes.tick_params(axis=’y’, labelsize=13)
- axes.set_title(f’Top {N} most common Bigrams in Reuters Articles’,
- fontsize=15)
- plt.show()
- #詞云
- wc = WordCloud(width=2000, height=1000, collocations=False,
- background_color=”white”,
- color_func=col_func,
- max_words=200,
- random_state=np.random.randint(1,8))\
- .generate_from_frequencies(article_bigrams)
- fig, ax = plt.subplots(figsize=(20,10))
- ax.imshow(wc, interpolation=’bilinear’)
- ax.axis(“off”)
- ax.set_title(‘Trigram Words of Reuters Articles’, pad=24,
- fontdict=fd)
- plt.show()
- Bigram比unigram提供更多的文本信息和上下文。比如,share loss顯示:大多數(shù)人在股票上虧損。
- 3.最常用的Trigram詞
- 讓我們?yōu)閠rigma單詞繪制條形圖和詞云。
- article_trigrams = defaultdict(int)
- for tweet in articles_word_limit[‘temp_list_stopw’]:
- for word in generate_ngrams(tweet, n_gram=3):
- article_trigrams[word] += 1
- df_article_trigrams = pd.DataFrame(sorted(article_trigrams.items(),
- key=lambda x: x[1])[::-1])
- N=50
- # 柱狀圖的前50個(gè)trigram
- fig, axes = plt.subplots(figsize=(18, 50), dpi=100)
- plt.tight_layout()
- sns.barplot(y=df_article_trigrams[0].values[:N],
- x=df_article_trigrams[1].values[:N],
- color=’red’)
- axes.spines[‘right’].set_visible(False)
- axes.set_xlabel(‘’)
- axes.set_ylabel(‘’)
- axes.tick_params(axis=’x’, labelsize=13)
- axes.tick_params(axis=’y’, labelsize=13)
- axes.set_title(f’Top {N} most common Trigrams in Reuters articles’,
- fontsize=15)
- plt.show()
- # 詞云
- wc = WordCloud(width=2000, height=1000, collocations=False,
- background_color=”white”,
- color_func=col_func,
- max_words=200,
- random_state=np.random.randint(1,8)).generate_from_frequencies(article_trigrams)
- fig, ax = plt.subplots(figsize=(20,10))
- ax.imshow(wc, interpolation=’bilinear’)
- ax.axis(“off”)
- ax.set_title(‘Trigrams Words of Reuters Articles’, pad=24,
- fontdict=fd)
- plt.show()
大多數(shù)的三元組都與雙元組相似,但無(wú)法提供更多信息。所以我們?cè)谶@里結(jié)束這一部分。
(3)文本數(shù)據(jù)的命名實(shí)體識(shí)別(NER)標(biāo)記
NER是從文本數(shù)據(jù)中提取特定信息的過(guò)程。在NER的幫助下,我們從文本中提取位置、人名、日期、數(shù)量和組織實(shí)體。在這里了解NER的更多信息。我們使用Spacy python庫(kù)來(lái)完成這項(xiàng)工作。
- import spacy
- from matplotlib import cm
- from matplotlib.pyplot import plt
- nlp = spacy.load('en_core_web_sm')
- ner_collection = {"Location":[],"Person":[],"Date":[],"Quantity":[],"Organisation":[]}
- location = []
- person = []
- date = []
- quantity = []
- organisation = []
- def ner_text(text):
- doc = nlp(text)
- ner_collection = {"Location":[],"Person":[],"Date":[],"Quantity":[],"Organisation":[]}
- for ent in doc.ents:
- if str(ent.label_) == "GPE":
- ner_collection['Location'].append(ent.text)
- location.append(ent.text)
- elif str(ent.label_) == "DATE":
- ner_collection['Date'].append(ent.text)
- person.append(ent.text)
- elif str(ent.label_) == "PERSON":
- ner_collection['Person'].append(ent.text)
- date.append(ent.text)
- elif str(ent.label_) == "ORG":
- ner_collection['Organisation'].append(ent.text)
- quantity.append(ent.text)
- elif str(ent.label_) == "QUANTITY":
- ner_collection['Quantity'].append(ent.text)
- organisation.append(ent.text)
- else:
- continue
- return ner_collection
- articles_word_limit['ner_data'] = articles_word_limit['text'].map(lambda x: ner_text(x))
- location_name = []
- location_count = []
- for i in location_counts.most_common()[:10]:
- location_name.append(i[0].upper())
- location_count.append(i[1])
- fig, ax = plt.subplots(figsize=(15, 8), dpi=100)
- ax.barh(location_name, location_count, alpha=0.7,
- # width = 0.5,
- color=cm.Blues([i / 0.00525 for i in [ 0.00208, 0.00235, 0.00281, 0.00317, 0.00362,
- 0.00371, 0.00525, 0.00679, 0.00761, 0.00833]])
- )
- plt.rcParams.update({'font.size': 10})
- rects = ax.patches
- for i, label in enumerate(location_count):
- ax.text(label+100 , i, str(label), size=10, ha='center', va='center')
- ax.text(0, 1.02, 'Count of Location name Extracted from Reuters Articles',
- transform=ax.transAxes, size=12, weight=600, color='#777777')
- ax.xaxis.set_ticks_position('bottom')
- ax.tick_params(axis='y', colors='black', labelsize=12)
- ax.set_axisbelow(True)
- ax.text(0, 1.08, 'TOP 10 Location Mention in Reuters Articles',
- transform=ax.transAxes, size=22, weight=600, ha='left')
- ax.text(0, -0.1, 'Source: http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html',
- transform=ax.transAxes, size=12, weight=600, color='#777777')
- ax.spines['right'].set_visible(False)
- ax.spines['top'].set_visible(False)
- ax.spines['left'].set_visible(False)
- ax.spines['bottom'].set_visible(False)
- plt.tick_params(axis='y',which='both', left=False, top=False, labelbottom=False)
- ax.set_xticks([])
- plt.show()
從這個(gè)圖表中,你可以說(shuō)大多數(shù)文章都包含來(lái)自美國(guó)、日本、加拿大、倫敦和中國(guó)的新聞。
對(duì)美國(guó)的高度評(píng)價(jià)代表了路透在美業(yè)務(wù)的重點(diǎn)。
person變量表示1987年誰(shuí)是名人。這些信息有助于我們了解這些人。
organization變量包含世界上提到最多的組織。
(4)文本數(shù)據(jù)中的唯一詞
我們將在使用TF-IDF的文章中找到唯一的詞匯。詞頻(TF)是每篇文章的字?jǐn)?shù)。反向文檔頻率(IDF)同時(shí)考慮所有提到的文章并衡量詞的重要性,。
TF-IDF得分較高的詞在一篇文章中的數(shù)量較高,而在其他文章中很少出現(xiàn)或不存在。
讓我們計(jì)算TF-IDF分?jǐn)?shù)并找出唯一的單詞。
- from sklearn.feature_extraction.text import TfidfVectorizer
- tfidf_vectorizer = TfidfVectorizer(use_idf=True)
- tfidf_vectorizer_vectors=tfidf_vectorizer.fit_transform(articles_word_limit[‘text_clean’])
- tfidf = tfidf_vectorizer_vectors.todense()
- tfidf[tfidf == 0] = np.nan
- # 使用numpy的nanmean,在計(jì)算均值時(shí)忽略nan
- means = np.nanmean(tfidf, axis=0)
- # 將其轉(zhuǎn)換為一個(gè)字典,以便以后查找
- Means_words = dict(zip(tfidf_vectorizer.get_feature_names(),
- means.tolist()[0]))
- unique_words=sorted(means_words.items(),
- key=lambda x: x[1],
- reverse=True)
- print(unique_words)
(5)用K-均值聚類(lèi)文章
K-Means是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法。它有助于我們?cè)谝唤M中收集同一類(lèi)型的文章。我們可以通過(guò)初始化k值來(lái)確定組或簇的數(shù)目。了解更多關(guān)于K-Means以及如何在這里選擇K值。作為參考,我選擇k=4。
- from sklearn.feature_extraction.text import TfidfVectorizer
- from sklearn.cluster import KMeans
- from sklearn.metrics import adjusted_rand_score
- vectorizer = TfidfVectorizer(stop_words=’english’,use_idf=True)
- X = vectorizer.fit_transform(articles_word_limit[‘text_clean’])
- k = 4
- model = KMeans(n_clusters=k, init=’k-means++’,
- max_iter=100, n_init=1)
- model.fit(X)
- order_centroids = model.cluster_centers_.argsort()[:, ::-1]
- terms = vectorizer.get_feature_names()
- clusters = model.labels_.tolist()
- articles_word_limit.index = clusters
- for i in range(k):
- print(“Cluster %d words:” % i, end=’’)
- for title in articles_word_limit.ix[i
- [[‘text_clean’,’index’]].values.tolist():
- print(‘ %s,’ % title, end=’’)
它有助于我們將文章按不同的組進(jìn)行分類(lèi),如體育、貨幣、金融等。K-Means的準(zhǔn)確性普遍較低。
結(jié)論
NER和K-Means是我最喜歡的分析方法。其他人可能喜歡N-gram和Unique words方法。在本文中,我介紹了最著名和聞所未聞的文本可視化和分析方法。本文中的所有這些方法都是獨(dú)一無(wú)二的,可以幫助你進(jìn)行可視化和分析。
我希望這篇文章能幫助你發(fā)現(xiàn)文本數(shù)據(jù)中的未知數(shù)。