自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

用Python分析數(shù)千個微信昵稱之后，我們發(fā)現(xiàn)90后和00后是這樣的人！

作者：XksA 2018-09-04 09:42:01

開發(fā) 后端數(shù)據(jù)分析

這是一篇技術(shù)文，也是一篇not技術(shù)文，今天分享的是，當筆者獲取了微信小程序英文取名的3500多個微信用戶昵稱、年齡段后，分析得到下面結(jié)果……

這是一篇技術(shù)文，也是一篇not技術(shù)文，今天分享的是，當筆者獲取了微信小程序英文取名的3500多個微信用戶昵稱、年齡段后，分析得到下面結(jié)果……

01 Let's get it

1. 基本信息獲取

訪問英文取名的用戶基本信接口，獲取英文取名用戶微信名（NickName）、訪問次數(shù)（Count）、總數(shù)據(jù)集（ResponseData），并將微信名存入文件。

# 獲取所有用戶數(shù)量和相關(guān)信息  
def get_json():  
    # 獲取入口  
    search_url = '英文取名用戶接口，歡迎掃碼使用英文取名，生成一個最適合你的英文名'  
    # 發(fā)送http請求,獲取請求頁面  
    search_response = requests.get(search_url)  
    # 設(shè)置編碼  
    search_response.encoding = 'UTF-8'  
    # 將頁面轉(zhuǎn)變成json代碼格式  
    search_json = search_response.json()  
    # 獲取我們需要的數(shù)據(jù),是列表格式  
    our_data = search_json['ResponseData']  
    list_len = len(our_data)  
    print('總用戶數(shù)有：' + str(list_len))  
    user_visit_numbers = 0  
    data_research = 0  
    NickName = []  
    for x in our_data:  
        user_numbers = x['Count'] + user_visit_numbers  
        if x['NickName'] == '':  
            data_research += 1  
        NickName.append(x['NickName'])  
    print("微信名獲取失敗量："+str(data_research))  
    print(NickName)  
    name = ['微信名稱']  
    file_test = pd.DataFrame(columns=name, data=NickName)  
    file_test.to_csv(r'I:/data.csv', encoding='utf-8',index=False)  
    print('總訪問量：' + str(user_visit_numbers))

運行結(jié)果：

總用戶數(shù)有：3549  
微信名獲取失敗量：0  
總訪問量：4573

2. 讀取所有微信名，數(shù)據(jù)分類

2.1 讀取微信名

# 讀取文件，取出微信名  
 def get_name():  
     NickName = []  
     with open('I:/data.csv','r',encoding='utf8') as file :  
         i = 0  
         for line in file:  
             if i == 0:   # 去除表頭  
                 i = 1  
                 continue  
            line = line.strip()    # 去除換行符  
            NickName.append(line)  
    return NickName

2.2 數(shù)據(jù)分為以下六大類

中文名	變量名	數(shù)據(jù)類型
全中文昵稱	ch_name	list
全英文昵稱	en_name	list
中文和數(shù)字混合昵稱	ch_di_name	list
包含圖片表情昵稱	img_name	list
其他昵稱	other_name	list

# ch ：Chinese  
ch_name_number = 0  
ch_name = []  
# en ：English  
en_name_number = 0  
en_name = []  
# di : digtal  
di_name_number = 0  
di_name = []  
# img : image  
img_name_number = 0  
img_name = []  
# ch_di : Chinese and digtal  
ch_di_name = []  
# other : other  
oth_name_number = 0  
oth_name = []

2.3 數(shù)據(jù)分類判斷

# 昵稱全中文判斷  
def is_all_ch(keyword):  
    for c in keyword:  
        # 包含常見中文字符  
        if not ('\u4e00' <= c <= '\u9fa5'):  
            return False  
    return True  
 
# 昵稱全英文判斷  
def is_all_en(keyword):  
    # 不能全部為空格或者首位為空格  
    if all(ord(c) == 32 for c in keyword) or keyword[0] == ' ':  
        return False  
    # 允許空格和英文并存(例如：Xist A)  
    if not all(65 < ord(c) < 128 or ord(c) == 32 for c in keyword):  
        return False  
    return True  
 
# 昵稱全數(shù)字判斷  
def is_all_di(keyword):  
    for uchar in keyword:  
        if not (uchar >= '\u0030' and uchar <= u'\u0039'):  
            return False  
    return True  
 
# 昵稱包含表情圖判斷  
def have_img(keyword):  
    # 下面是大部分圖片的一個unicode編碼集  
    # 詳情查看：https://en.wikipedia.org/wiki/Emoji  
    img_re = re.compile(u'['  
                      u'\U0001F300-\U0001F64F'  
                      u'\U0001F680-\U0001F6FF'  
                      u'\u2600-\u2B55]+',  
                      re.UNICODE)  
    if img_re.findall(keyword) :  
        return True  
    return False  
 
# 中文+數(shù)字昵稱判斷  
def is_ch_di(keyword):  
    for c in keyword:  
        if not ('\u4e00' <= c <= '\u9fa5') and not (c >= '\u0030' and c <= u'\u0039'):  
            return False  
    return True

2.4 數(shù)據(jù)歸類計算各類數(shù)量

list_name = get_name()  
 print("總共有："+str(len(list_name))+"個微信名")  
 for i in range(len(list_name)):  
     result = classification_name(list_name[i]) 
      if result == 'ch':  # 中文  
         ch_name_number +=1  
         ch_name.append(list_name[i])  
     if result == 'en':  # 英文  
         en_name_number +=1  
        en_name.append(list_name[i])  
    if result == 'di':  # 數(shù)字  
        di_name_number +=1  
        di_name.append(list_name[i])  
    if result == 'img': # 含表情 
         img_name_number +=1  
        img_name.append(list_name[i])  
    if result == 'ch_di': # 中文和數(shù)字  
        ch_di_name_number +=1  
        ch_di_name.append(list_name[i])  
    if result == 'other': # 其他  
        oth_name_number +=1  
        oth_name.append(list_name[i])  
 
print("純中文昵稱個數(shù)："+ str(ch_name_number))  
# print(ch_name)  
print("純英文昵稱個數(shù)："+ str(en_name_number)) 
#print(en_name)  
print("純數(shù)字昵稱個數(shù)："+ str(di_name_number))  
# print(di_name)  
print("包含表情圖昵稱個數(shù)："+ str(img_name_number))  
# print(img_name)  
print("中文和數(shù)字混合昵稱個數(shù)："+ str(ch_di_name_number))  
print(ch_di_name)  
print("其他昵稱個數(shù)："+ str(oth_name_number))  
# print(oth_name)

運行結(jié)果：

總共有：3549個微信名  
純中文昵稱個數(shù)：1514  
純英文昵稱個數(shù)：569  
純數(shù)字昵稱個數(shù)：9  
包含表情圖昵稱個數(shù)：400  
中文和數(shù)字混合昵稱個數(shù)：19  
其他昵稱個數(shù)：1038

3. 獲取用戶畫(只獲取用戶年齡段)

訪問英文取名用戶畫像接口，獲取近30天活躍用戶和新用戶的年齡段：

# 獲取用戶年齡段  
def get_data():  
    # 獲取token,并處理  
    t = get_token().strip('"')  
    # 然后將處理后的token值和其他參數(shù)作為post方式的參數(shù)值，調(diào)用用戶畫像api  
    post_user_api = " https://api.weixin.qq.com/datacube/getweanalysisappiduserportrait?access_token="  
    post_user_url = post_user_api + t  
    # 訪問獲取概況數(shù)據(jù) (近一個月的數(shù)據(jù)情況)  
    data = json.dumps({  
   "begin_date" : "2018-07-21",  
   "end_date" : "2018-08-19"})  
   # 獲取信息  
   user_portrait_data = get_info(post_user_url, data)  
   # 時間段  
   ref_date = user_portrait_data['ref_date']  
   # 新用戶  
   visit_uv_new = user_portrait_data['visit_uv_new']  
    活躍用戶  
   visit_uv = user_portrait_data['visit_uv']  
   # 年齡段  
   print(ref_date ) 
   print((visit_uv_new['ages']))  
   print((visit_uv['ages']))

運行結(jié)果：

# id ： 為年齡段序號  name ：年齡段名稱    value : 該年齡段人數(shù)  
20180721-20180819  
[{'id': 0, 'name': '未知', 'value': 6}, {'id': 1, 'name': '17歲以下', 'value': 18}, {'id': 2, 'name': '18-24歲', 'value': 118}, {'id': 3, 'name': '25-29歲', 'value': 75}, {'id': 4, 'name': '30-39歲', 'value': 81}, {'id': 5, 'name': '40-49歲', 'value': 14}, {'id': 6, 'name': '50歲以上', 'value': 7}] 
[{'id': 0, 'name': '未知', 'value': 6}, {'id': 1, 'name': '17歲以下', 'value': 20}, {'id': 2, 'name': '18-24歲', 'value': 147}, {'id': 3, 'name': '25-29歲', 'value': 88}, {'id': 4, 'name': '30-39歲', 'value': 95}, {'id': 5, 'name': '40-49歲', 'value': 20}, {'id': 6, 'name': '50歲以上', 'value': 10}]

02 來點有趣的，數(shù)據(jù)清洗、分析

1. 微信名稱類型數(shù)據(jù)可視化分析

核心代碼：

# 1.微信名分類：玫瑰餅圖  
from pyecharts import Pie  
# 數(shù)據(jù)獲取自上面代碼  
attr = ["純中文昵稱", "純英文昵稱", "純數(shù)字昵稱", "包含表情圖昵稱", "中文和數(shù)字混合昵稱", "其他昵稱"]  
v1 = [1514, 569, 9, 400, 19, 1038]  
pie = Pie("微信名分類餅圖", title_pos='center', width=900)  
pie.add(  
    "占比",  
    attr,  
    v1,  
    center=[50, 50],  
    is_random=True,  
    radius=[30, 75],  
    rosetype="area",  
    is_legend_show=False,  
    is_label_show=True,  
)  
pie.render("render_01.html")

運行效果：

從中可以看出，微信昵稱為全中文的占比最多，占有42.66%，其次為其他昵稱(中英文混合、字符等類型)，占有29.25%，再比較大的類就是純英文昵稱，占有16.03%,和包含表情包昵稱，占有11.27%，像純數(shù)字昵稱和中文數(shù)字混合昵稱相對占比較少。

我們常見的中文和數(shù)字混合昵稱最多的就是機構(gòu)名/姓名+聯(lián)系方式，一些營銷號常用，相較而言，大多數(shù)人還是喜歡用純中文來作昵稱，既體現(xiàn)一種文化情懷，又簡明扼要的介紹了自己，比如我的微信名就是老表，這是我初中時候的一個綽號，朋友們一說老表，不一定是在說親戚，有可能在說我，哈哈哈。

2. 微信用戶年齡段可視化分析

核心代碼：

# 2.用戶年齡段：玫瑰餅圖  
from pyecharts import Pie  
# 數(shù)據(jù)獲取自上面代碼  
attr = ["未知", "17歲以下", "18-24歲", "25-29歲", "30-39歲", "40-49歲","50歲以上"]  
v1 = [12, 38, 265, 163, 176, 34,17]  
pie = Pie("微信用戶年齡段餅圖", title_pos='center', width=900)  
pie.add( 
    "占比",  
    attr,  
    v1,  
    center=[50, 50],  
    is_random=True,  
    radius=[30, 75],  
    rosetype="area",  
    is_legend_show=False,  
    is_label_show=True,  
)  
pie.render("render_02.html")

運行效果：

從中可以看出，年齡段中，18-24歲的95-00后占比最多，達到37.59%，接下來是30-39歲的80-90后，占比達到24.97%，緊隨其后的為25-29歲的90-95后，占比達23.12%，其他年齡段可大概分為兩類：偏兒童類和偏老人類，一共占比10.21%。

我個人覺得這類人群少的原因是：小孩、老人玩微信的少，更不用說微信小程序了，對于小孩來說微信的作用就是玩游戲（登錄賬號），對于老人來說，微信主要用來聊天，已經(jīng)是比較復(fù)雜的了，小程序使用可能對老人來說就更復(fù)雜了，也缺少必要性。

3. 詞云分析微信名稱哪些詞語、表情包更受歡迎

3.1 繼續(xù)使用 pyecharts 生成詞云圖

核心代碼：

# 清洗數(shù)據(jù)，生成詞云圖  
def split_word(test_str):  
    test_str = re.sub('[,，。. \r\n]', '', test_str)  
    # jieba 詞語  
    segment = jieba.lcut(test_str)  
    words_df = pd.DataFrame({'segment': segment})  
    # quoting=3 表示stopwords.txt里的內(nèi)容全部不引用  
    stopwords = pd.read_csv(r"H:\PyCoding\ Analysis_wx_name\stopwords.txt", index_col=False, quoting=3, sep="\t", names=['stopword'], encoding='utf-8')  
    words_df = words_df[~words_df.segment.isin(stopwords.stopword)]  
    words_stat = words_df.groupby(by=['segment'])['segment'].agg({"計數(shù)": numpy.size})  
    words_stat = words_stat.reset_index().sort_values(by=["計數(shù)"], ascending=False)  
    test = words_stat.head(200).values  
    codes = [test[i][0] for i in range(0,len(test))]  
    counts = [test[i][1] for i in range(0,len(test))]  
    wordcloud = WordCloud(width=1300, height=620)  
    wordcloud.add("微信昵稱", codes, counts, word_size_range=[20, 100])  
    wordcloud.render('render_03.html')

運行效果：

▲pyecharts詞云圖

3.2 使用 wordcloud + matplotlib 生成高級一點的詞云圖

核心代碼：

# 下下期好好講一下matplotlib繪圖可視化，挺有意思的  
# 調(diào)用get_name函數(shù)獲取全部微信名  
text = get_name()  
# 調(diào)用jiebaclearText函數(shù)，清洗數(shù)據(jù)(該函數(shù)和上面切詞思想一樣)  
text1=jiebaclearText(text)  
#產(chǎn)生詞云圖  
bg = plt.imread(r"G:\small_pig.jpg")  
#生成詞云  
wc=WordCloud(  
    background_color="wathet", #設(shè)置背景為白色，默認為黑色  
    mask=bg,      # 設(shè)置詞云內(nèi)容范圍(除指定圖片白色區(qū)域的其他區(qū)域都將覆蓋詞云內(nèi)容)  
    margin=10,               #設(shè)置圖片的邊緣  
    max_font_size=70,   #顯示的最大的字體大小  
    random_state=20,    #為每個單詞返回一個PIL顏色  
    font_path='G:\simkai.ttf'   #中文處理，用系統(tǒng)自帶的字體  
    # 可以在這里下載這個字體：http://www.font5.com.cn/font_download.php?id=534&part=1245067666  
    ).generate(text1)  
#為圖片設(shè)置字體  
my_font=fm.FontProperties(fname='G:\simkai.ttf')  
# 圖片背景  
bg_color = ImageColorGenerator(bg)  
# 開始畫圖  
plt.imshow(wc.recolor(color_func=bg_color))  
# 為云圖去掉坐標軸  
plt.axis("off")  
# 保存云圖  
wc.to_file("render_04.png")

詞云輪廓原圖：

[[242473]]

▲這是您的專屬社會人

運行效果：

[[242474]]

▲wordcloud詞云圖

由于第二種方法無法解析表情圖，所以沒有表情出現(xiàn)，除此外這兩種方法顯示的詞云圖內(nèi)容幾乎大同小異。

通過詞云圖，我們一眼看出大家使用最多的，除開中文后，就是表情圖了，你的微信朋友圈里是否也有這樣的大紅嘴唇，我的好像有，哈哈哈~

當我們單純來看詞云中的中文時，發(fā)現(xiàn)像太陽、陽光、微笑、可愛、開心、愛、未來等比較積極向上的詞語還是比較受大家喜歡的，也體現(xiàn)出大家的內(nèi)心的積極、樂觀，當然還有像麗麗、徐、陳等這樣的姓名部分，在昵稱中大家也使用的比較多，也不缺乏有像悲傷、涼這樣比較冷色的詞語。

03 通過昵稱進行情緒分析(大膽猜想)

1. 微信昵稱為全中文

微信昵稱為全中文可以分為兩大類：自己的真名和其他昵稱。

直接用自己的姓名當微信昵稱的人，性格大多是直來直往的那種，待人比較坦誠。

他們的微信一般用于熟人社交和日常辦公，平時不會隨便加不熟的人，就算用真名也不怕泄露個人信息，來個不恰當?shù)谋扔鳎翰蛔鎏澬氖?，不怕鬼敲門，哈哈哈。

為其他昵稱的人，大多有自己的看法，也許昵稱是自己對未來的一種期望，也許昵稱是自己對生活的一種態(tài)度，或者是一些無厘頭的話語，炫酷的話語。

[[242475]]

2. 微信昵稱為全英文

出于個人喜好或工作需求，有些人會給自己取一個容易記的、叫著順口的英文名，比如Tom、Abby、Jason，并常常在自我介紹的時候，讓大家可以用英文名字稱呼自己。

對他們而言，英文名就相當于自己的第二個名字，用它做微信名，和用本名沒什么太大的區(qū)別。

也有的人會刻意避開那些常見的英文名，取一些更小眾的，他們更在意提高自己的“逼格”，喜歡標新立異，追求時尚和前衛(wèi)。

[[242476]]

3. 微信昵稱帶有表情符號

有很多女生會在微信名稱里加上各種表情符號，從上面分析的詞云圖中可以看出，一個大紅唇大家使用最多，其他的可能是一個愛心，一朵玫瑰，一顆星星，又或是系統(tǒng)自帶的emoji表情。

她們可能覺得這是一種特別的裝飾，能讓自己的名字和別人有明顯的區(qū)別。

這樣的女生，大多有細膩的小心思、浪漫的生活情調(diào)，和一顆蓬勃的少女心。

[[242477]]

4. 微信昵稱帶有職業(yè)性質(zhì)

一般來說，會主動在自己微信名前面帶一個字母“A”的，大多都是整天在朋友圈里發(fā)廣告的微商或代購。

比較正式一點的，用的都是“公司名+姓名”的形式，這一類人基本都是銷售員或房產(chǎn)中介……或者就是真正的大佬啦~

還有一些人，會根據(jù)自己不同的工作階段不定時更換名字后綴的。

認識一個在某地產(chǎn)公司做人力的朋友，為了能好好享受假期，她會把微信名改成“ΧΧΧ休假中”，以便提醒那些在節(jié)假日還私信她詢問工作的人。

也有一些人反著來，為了顯示自己特別積極，直接把微信名改成“ΧΧΧ加班中”……emmm主要是改給老板看的吧。

[[242478]]

5. 微信昵稱帶偶像名

不用說，這一類都是典型的追星族，而且大多都是女生，比如吳亦凡夫人，蔡徐坤秘密女友，胡歌的小嬌妻……不出意外，她們的頭像一般就是她們的愛豆本人。

她們平時會在微博給偶像打call，朋友圈也會發(fā)很多相關(guān)推薦，如果有人夸自己的愛豆，她們會覺得遇到了知音；相反地，如果有人說她們愛豆的壞話，她們會馬上拉黑……

切記，在追星的人面前，不要輕易抬杠，對她的愛豆指手畫腳……

[[242479]]

6. 微信昵稱是四字詞

仔細觀察長輩們的微信名，就會發(fā)現(xiàn)他們特別喜歡用四字詞作昵稱。

這些四字詞最大的共同點，就是都傳遞著一種歲月靜好的氛圍：“人生如茶”、“花自芬芳”、“上善若水”、“人心依舊”、“云淡風輕”……

年輕人用獨特的微信名標記自己，年長點的叔叔阿姨只是想純粹地寄托一種生活理想。

都說名字是人的第二張臉。微信名取得好，往往會給人留下更好的印象。

[[242480]]

你的微信名有什么特別的含義嗎？評論區(qū)里聊一聊。

04 附錄：參考文檔

微信小程序api幫助文檔、wikipedia-emoji(表情圖編碼介紹)
Wordcloud官方文檔
傲嬌的草履蟲寫的 Wordcloud 各參數(shù)含義
知乎給誰寫的：微信名字，暴露了你是一個什么樣的人

責任編輯：龐桂玉來源：大數(shù)據(jù)

編程語言 Python 數(shù)據(jù)分析

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營