自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="7ofsv"><rt id="7ofsv"></rt></sup>

<cite id="7ofsv"><rp id="7ofsv"></rp></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Python分析新浪微博各種表情使用頻率

作者：L Cooper 2011-10-21 09:43:28

開(kāi)發(fā) 后端前端

用新浪微博API積累了微博廣場(chǎng)的1.4萬(wàn)條數(shù)據(jù)，我選擇了21個(gè)字段輸出為TXT文件，想用Python稍微處理一下，統(tǒng)計(jì)一下這1.4萬(wàn)條微博里面表情使用情況，統(tǒng)計(jì)結(jié)構(gòu)在最后。

用新浪微博API積累了微博廣場(chǎng)的1.4萬(wàn)條數(shù)據(jù)，我選擇了21個(gè)字段輸出為TXT文件，想用Python稍微處理一下，統(tǒng)計(jì)一下這1.4萬(wàn)條微博里面表情使用情況，統(tǒng)計(jì)結(jié)構(gòu)在***。

無(wú)聊的時(shí)候用了下新浪JAVA版的API，對(duì)JAVA還不熟悉，但是稍微改一下還是沒(méi)問(wèn)題的，數(shù)據(jù)保存為TXT文件，再用Python處理，JAVA部分很簡(jiǎn)單，Python部分只涉及到表情的正則提取，都不好意思寫出來(lái)了。

1、調(diào)用新浪JAVA API下載微博廣場(chǎng)數(shù)據(jù)

步驟思路：

初始化API的Weibo類，設(shè)置Token后，設(shè)置下載間隔，然后重復(fù)調(diào)用getPublicTimeline()函數(shù)就可以了，下面是主要類的代碼：

這個(gè)不是完整的代碼，沒(méi)有初始化暫停間隔，可以掠過(guò)，很簡(jiǎn)單。

class WriteWeiboData{  
     private int n;  
     public WriteWeiboData(int count)  
     {  
         this.n=count;  
     }  
     public void Start(){  
         System.setProperty("weibo4j.oauth.consumerKey", Weibo.CONSUMER_KEY);  
         System.setProperty("weibo4j.oauth.consumerSecret", Weibo.CONSUMER_SECRET);  
         try {  
             //獲取前20條***更新的公共微博消息  
             Weibo weibo = new Weibo();  
             //weibo.setToken(args[0],args[1]);  
             weibo.setToken("keystring", "keyscrect");  
             for(int i=0;i<this.n;i++){  
                 System.out.print("Start to get weibo data num "+(i+1)+"\n");  
                 List<Status> statuses =weibo.getPublicTimeline();  
                 for (Status status : statuses) {  
                     SaveData(status);  
                 }  
                 try{  
                     System.out.print("Success to get weibo data num "+(i+1)+"\n");  
                     System.out.print("Sleep for 30 seconds");  
                     Thread.sleep(30000);  
                 }catch(Exception ee){  
                     System.out.print("Sleep Error");  
                 }  
             }  
         } catch (WeiboException e) {  
             e.printStackTrace();  
         }  
     }  
     public void SaveData(Status status){  
         //Return data format:  
                 //created_at,id,text,source,mid  
                 //user:id,screen_name,name,provience,city,location,description,url,domain,gender,  
                 //followers_count,friends_count,statuses_count,favourites_count,created_at,verified  
                 //annotations:server_ip  
                 try{  
                     User user=status.getUser();  
                     FileWriter fw=new FileWriter("F:/Sina.txt",true);  
                     fw.write(status.getCreatedAt()+"\t"+status.getId()+"\t"+status.getText()+"\t"+  
                     status.getSource()+"\t"+status.getMid()+"\t"+  
                     user.getId()+"\t"+user.getScreenName()+"\t"+user.getName()+"\t"+  
                     user.getProvince()+"\t"+user.getCity()+"\t"+user.getLocation()+"\t"+  
                     user.getDescription()+"\t"+user.getURL()+"\t"+user.getUserDomain()+"\t"+  
                     user.getGender()+"\t"+user.getFollowersCount()+"\t"+user.getFriendsCount()+"\t"+  
                     user.getStatusesCount()+"\t"+user.getFavouritesCount()+"\t"+user.getCreatedAt()+"\t");  
                     fw.write("\n");  
                     fw.close();  
                 }  
                 catch(Exception e){  
                     System.out.print("IO Error");  
                 }  
     }  
 }

2、數(shù)據(jù)格式：

要取得數(shù)據(jù)就是微博內(nèi)容，先練一下手玩玩。

3、Python處理數(shù)據(jù)

目標(biāo)：查看微博用戶表情使用情況，暫時(shí)只分性別，如果積累了合適的數(shù)據(jù)后可以分析各個(gè)時(shí)間段人們愛(ài)用哪種表情。

步驟：

$ 讀取TXT文件，遞歸處理每一行

$ 單獨(dú)提取出微博字段，正則提取表情字段，同時(shí)把性別提取出來(lái)，放到一個(gè)dict里面，dict的格式是：表情/女性使用頻率/男性使用頻率，遞歸處理，累積頻率

$ 把結(jié)果寫入到文件

注意：Python正則提取中文部分，先解碼成unicode編碼，再正則提取，表情的標(biāo)志是[]，雖有誤差，但無(wú)大礙。

代碼：

__collection函數(shù)是處理函數(shù)，返回處理結(jié)果(dict)

class EmotionFrequent():  
     infoFile='F:/Sina.txt' 
     def __init__(self):  
         pass 
     def __collection(self):  
         f=open(self.infoFile)  
         d=dict()  
         n=1 
         for line in f.readlines():  
             if line.strip()=='' or line.strip()=='\n':  
                 pass 
             cols=line.split('\t')  
             if len(cols)<20:  
                 continue 
             n+=1 
             es=[]  
             #if cols[2].find('[')!=-1 and cols[2].find(']')!=-1:  
             info=cols[2]  
             for i in re.findall(r'\[\S+?\]',info.decode('utf-8')):  
                 data=i[1:-1].encode('utf-8')  
                 if d.has_key(data):  
                     if cols[14]=='f':  
                         d[data][0]+=1 
                         d[data][2]+=1 
                     else:  
                         d[data][1]+=1 
                         d[data][2]+=1 
                 else:  
                     if cols[14]=='f':  
                         d[data]=[1,0,1]  
                     else:  
                         d[data]=[0,1,1]  
         print 'Total records num '+str(n)  
         return d  
         pass 
     def WriteDict(self):  
         d=self.__collection()  
         f=open('F:/keys.txt','w')  
         for k in d:  
             f.write(k+'\t')  
             f.write(str(d[k][0])+'\t')  
             f.write(str(d[k][1])+'\t')  
             f.write(str(d[k][2])+'\n')  
         f.close()  
         pass 
     def Run(self):  
         self.WriteDict()  
     pass

腳本運(yùn)行結(jié)果：

把結(jié)果放到EXCEL里面重新排序，得到如下結(jié)果：

至于怎么解讀這個(gè)結(jié)果，有沒(méi)有意義，各有各的想法。

網(wǎng)友評(píng)價(jià)：印證了女人是情緒化動(dòng)物，愛(ài)哭愛(ài)笑愛(ài)愛(ài)賣萌愛(ài)撒嬌要抱抱。。。。而男人，辛苦易生病易頭暈。

原文：http://www.cnblogs.com/Lannik/archive/2011/10/21/2219776.html

【編輯推薦】

Quora創(chuàng)始人談:我們?yōu)槭裁词褂肞ython
對(duì)于Python Web編程的一些概念總結(jié)
Python在Linux平臺(tái)上的發(fā)展前景展望
五分鐘理解Python元類（Metaclasses）
Python入門之你必須了解的語(yǔ)法與類型

責(zé)任編輯：陳貽新來(lái)源： L Cooper的博客

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)