自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

基于微博數(shù)據(jù)用 Python 打造一顆“心”

作者：佚名 2017-02-23 10:50:32

大數(shù)據(jù)

requests 用于網(wǎng)絡(luò)請(qǐng)求爬取微博數(shù)據(jù)，結(jié)巴分詞進(jìn)行中文分詞處理，詞云處理庫(kù) wordcloud，圖片處理庫(kù) Pillow，科學(xué)計(jì)算工具 NumPy ，類似于 MATLAB 的 2D 繪圖庫(kù) Matplotlib。

一年一度的虐狗節(jié)終于過去了，朋友圈各種曬，曬自拍，曬娃，曬美食，秀恩愛的。程序員在曬什么，程序員在加班。但是禮物還是少不了的，送什么好?作為程序員，我準(zhǔn)備了一份特別的禮物，用以往發(fā)的微博數(shù)據(jù)打造一顆“愛心”，我想她一定會(huì)感動(dòng)得哭了吧。哈哈?。。?/p>

準(zhǔn)備工作

有了想法之后就開始行動(dòng)了，自然***想到的就是用 Python 了，大體思路就是把微博數(shù)據(jù)爬下來，數(shù)據(jù)經(jīng)過清洗加工后再進(jìn)行分詞處理，處理后的數(shù)據(jù)交給詞云工具，配合科學(xué)計(jì)算工具和繪圖工具制作成圖像出來，涉及到的工具包有：

requests 用于網(wǎng)絡(luò)請(qǐng)求爬取微博數(shù)據(jù)，結(jié)巴分詞進(jìn)行中文分詞處理，詞云處理庫(kù) wordcloud，圖片處理庫(kù) Pillow，科學(xué)計(jì)算工具 NumPy ，類似于 MATLAB 的 2D 繪圖庫(kù) Matplotlib。

工具安裝

安裝這些工具包時(shí)，不同系統(tǒng)平臺(tái)有可能出現(xiàn)不一樣的錯(cuò)誤，wordcloud，requests，jieba 都可以通過普通的 pip 方式在線安裝，

pip install wordcloud 
pip install requests 
pip install jieba

在Windows 平臺(tái)安裝 Pillow，NumPy，Matplotlib 直接用 pip 在線安裝會(huì)出現(xiàn)各種問題，推薦的一種方式是在一個(gè)叫 Python Extension Packages for Windows 1 的第三方平臺(tái)下載相應(yīng)的 .whl 文件安裝。可以根據(jù)自己的系統(tǒng)環(huán)境選擇下載安裝 cp27 對(duì)應(yīng) python2.7，amd64 對(duì)應(yīng) 64 位系統(tǒng)。下載到本地后進(jìn)行安裝

pip install Pillow-4.0.0-cp27-cp27m-win_amd64.whl 
pip install scipy-0.18.0-cp27-cp27m-win_amd64.whl 
pip install numpy-1.11.3+mkl-cp27-cp27m-win_amd64.whl 
pip install matplotlib-1.5.3-cp27-cp27m-win_amd64.whl

其他平臺(tái)可根據(jù)錯(cuò)誤提示 Google 解決。或者直接基于 Anaconda 開發(fā)，它是 Python 的一個(gè)分支，內(nèi)置了大量科學(xué)計(jì)算、機(jī)器學(xué)習(xí)的模塊。

獲取數(shù)據(jù)

新浪微博官方提供的 API 是個(gè)渣渣，只能獲取用戶***發(fā)布的5條數(shù)據(jù)，退而求其次，使用爬蟲去抓取數(shù)據(jù)，抓取前先評(píng)估難度，看看是否有人寫好了，在GitHub逛了一圈，基本沒有滿足需求的。倒是給我提供了一些思路，于是決定自己寫爬蟲。使用 http://m.weibo.cn/ 移動(dòng)端網(wǎng)址去爬取數(shù)據(jù)。發(fā)現(xiàn)接口 http://m.weibo.cn/index/my?format=cards&page=1 可以分頁(yè)獲取微博數(shù)據(jù)，而且返回的數(shù)據(jù)是 json 格式，這樣就省事很多了，不過該接口需要登錄后的 cookies 信息，登錄自己的帳號(hào)就可以通過 Chrome 瀏覽器找到 Cookies 信息。

實(shí)現(xiàn)代碼：

def fetch_weibo(): 
    api = "http://m.weibo.cn/index/my?format=cards&page=%s" 
    for i in range(1, 102): 
        response = requests.get(url=api % i, cookies=cookies) 
        data = response.json()[0] 
        groups = data.get("card_group") or [] 
        for group in groups: 
            text = group.get("mblog").get("text") 
            text = text.encode("utf-8") 
            text = cleanring(text).strip() 
            yield text

查看微博的總頁(yè)數(shù)是101，考慮到一次性返回一個(gè)列表對(duì)象太費(fèi)內(nèi)存，函數(shù)用 yield 返回一個(gè)生成器，此外還要對(duì)文本進(jìn)行數(shù)據(jù)清洗，例如去除標(biāo)點(diǎn)符號(hào)，HTML 標(biāo)簽，“轉(zhuǎn)發(fā)微博”這樣的字樣。

保存數(shù)據(jù)

數(shù)據(jù)獲取之后，我們要把它離線保存起來，方便下次重復(fù)使用，避免重復(fù)地去爬取。使用 csv 格式保存到 weibo.csv 文件中，以便下一步使用。數(shù)據(jù)保存到 csv 文件中打開的時(shí)候可能為亂碼，沒關(guān)系，用 notepad++查看不是亂碼。

def write_csv(texts): 
    with codecs.open('weibo.csv', 'w') as f: 
        writer = csv.DictWriter(f, fieldnames=["text"]) 
        writer.writeheader() 
        for text in texts: 
            writer.writerow({"text": text}) 
 
def read_csv(): 
    with codecs.open('weibo.csv', 'r') as f: 
        reader = csv.DictReader(f) 
        for row in reader: 
            yield row['text']

分詞處理

從 weibo.csv 文件中讀出來的每一條微博進(jìn)行分詞處理后再交給 wordcloud 生成詞云。結(jié)巴分詞適用于大部分中文使用場(chǎng)景，使用停止詞庫(kù) stopwords.txt 把無用的信息(比如：的，那么，因?yàn)榈?過濾掉。

def word_segment(texts): 
    jieba.analyse.set_stop_words("stopwords.txt") 
    for text in texts: 
        tags = jieba.analyse.extract_tags(text, topK=20) 
        yield " ".join(tags)

生成圖片

數(shù)據(jù)分詞處理后，就可以給 wordcloud 處理了，wordcloud 根據(jù)數(shù)據(jù)里面的各個(gè)詞出現(xiàn)的頻率、權(quán)重按比列顯示關(guān)鍵字的字體大小。生成方形的圖像，如圖：

是的，生成的圖片毫無美感，畢竟是要送人的也要拿得出手才好炫耀對(duì)吧，那么我們找一張富有藝術(shù)感的圖片作為模版，臨摹出一張漂亮的圖出來。我在網(wǎng)上搜到一張“心”型圖：

生成圖片代碼：

def generate_img(texts): 
    data = " ".join(text for text in texts) 
    mask_img = imread('./heart-mask.jpg', flatten=True) 
    wordcloud = WordCloud( 
        font_path='msyh.ttc', 
        background_color='white', 
        mask=mask_img 
    ).generate(data) 
    plt.imshow(wordcloud) 
    plt.axis('off') 
    plt.savefig('./heart.jpg', dpi=600)

需要注意的是處理時(shí)，需要給 matplotlib 指定中文字體，否則會(huì)顯示亂碼，找到字體文件夾：C:\Windows\Fonts\Microsoft YaHei UI復(fù)制該字體，拷貝到 matplotlib 安裝目錄：C:\Python27\Lib\site-packages\matplotlib\mpl-data\fonts\ttf 下

差不多就這樣。

責(zé)任編輯：武曉燕來源： 36大數(shù)據(jù)

Python 微博數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="1hs5g"></blockquote>}

<blockquote id="1hs5g"><p id="1hs5g"></p></blockquote>

<s id="1hs5g"><li id="1hs5g"></li></s>