自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="ouah5"><button id="ouah5"><progress id="ouah5"></progress></button></ruby>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

用Python分析了數(shù)千個(gè)微信昵稱后，我們發(fā)現(xiàn)了這些規(guī)律...

作者：XksA 2018-08-28 12:07:42

大數(shù)據(jù) 數(shù)據(jù)分析

這是一篇技術(shù)文，但又不是一篇技術(shù)文，今天分享的是，當(dāng)筆者獲取了微信小程序英文取名的3500多個(gè)微信用戶昵稱、年齡段后，分析得到下面結(jié)果。

一、前言

這是一篇技術(shù)文，但又不是一篇技術(shù)文，今天分享的是，當(dāng)筆者獲取了微信小程序英文取名的3500多個(gè)微信用戶昵稱、年齡段后，分析得到下面結(jié)果。

二、Let's get it

1.基本信息獲取

訪問英文取名的用戶基本信息接口，獲取英文取名用戶微信名(Nick names)、訪問次數(shù)(Count)、總數(shù)據(jù)集(Response data)，并將微信名存入文件。

# 獲取所有用戶數(shù)量和相關(guān)信息 
def get_json(): 
    # 獲取入口 
    search_url = '英文取名用戶接口，歡迎掃碼使用英文取名，生成一個(gè)最適合你的英文名' 
    # 發(fā)送http請(qǐng)求,獲取請(qǐng)求頁面 
    search_response = requests.get(search_url) 
    # 設(shè)置編碼 
    search_response.encoding = 'UTF-8' 
    # 將頁面轉(zhuǎn)變成json代碼格式 
    search_json = search_response.json() 
    # 獲取我們需要的數(shù)據(jù),是列表格式 
    our_data = search_json['ResponseData'] 
    list_len = len(our_data) 
    print('總用戶數(shù)有：' + str(list_len)) 
    user_visit_numbers = 0 
    data_research = 0 
    NickName = [] 
    for x in our_data: 
        user_numbers = x['Count'] + user_visit_numbers 
        if x['NickName'] == '': 
            data_research += 1 
        NickName.append(x['NickName']) 
    print("微信名獲取失敗量："+str(data_research)) 
    print(NickName) 
    name = ['微信名稱'] 
    file_test = pd.DataFrame(columns=name, data=NickName) 
    file_test.to_csv(r'I:/data.csv', encoding='utf-8',index=False) 
    print('總訪問量：' + str(user_visit_numbers))

運(yùn)行結(jié)果：

總用戶數(shù)有：3549 
微信名獲取失敗量：0 
總訪問量：4573

2.讀取所有微信名，數(shù)據(jù)分類

(1)讀取微信名

# 讀取文件，取出微信名 
 def get_name(): 
     NickName = [] 
     with open('I:/data.csv','r',encoding='utf8') as file : 
         i = 0 
         for line in file: 
             if i == 0:   # 去除表頭 
                 i = 1 
                 continue 
            line = line.strip()    # 去除換行符 
            NickName.append(line) 
    return NickName

(2)數(shù)據(jù)分為以下六大類

# ch ：Chinese 
ch_name_number = 0 
ch_name = [] 
# en ：English 
en_name_number = 0 
en_name = [] 
# di : digtal 
di_name_number = 0 
di_name = [] 
# img : image 
img_name_number = 0 
img_name = [] 
# ch_di : Chinese and digtal 
ch_di_name = [] 
# other : other 
oth_name_number = 0 
oth_name = []

(3)數(shù)據(jù)分類判斷

# 昵稱全中文判斷 
def is_all_ch(keyword): 
    for c in keyword: 
        # 包含常見中文字符 
        if not ('\u4e00' <= c <= '\u9fa5'): 
            return False 
    return True 
 
# 昵稱全英文判斷 
def is_all_en(keyword): 
    # 不能全部為空格或者首位為空格 
    if all(ord(c) == 32 for c in keyword) or keyword[0] == ' ': 
        return False 
    # 允許空格和英文并存(例如：Xist A) 
    if not all(65 < ord(c) < 128 or ord(c) == 32 for c in keyword): 
        return False 
    return True 
 
# 昵稱全數(shù)字判斷 
def is_all_di(keyword): 
    for uchar in keyword: 
        if not (uchar >= '\u0030' and uchar <= u'\u0039'): 
            return False 
    return True 
 
# 昵稱包含表情圖判斷 
def have_img(keyword): 
    # 下面是大部分圖片的一個(gè)unicode編碼集 
    # 詳情查看：https://en.wikipedia.org/wiki/Emoji 
    img_re = re.compile(u'[' 
                      u'\U0001F300-\U0001F64F' 
                      u'\U0001F680-\U0001F6FF' 
                      u'\u2600-\u2B55]+', 
                      re.UNICODE) 
    if img_re.findall(keyword) : 
        return True 
    return False 
 
# 中文+數(shù)字昵稱判斷 
def is_ch_di(keyword): 
    for c in keyword: 
        if not ('\u4e00' <= c <= '\u9fa5') and not (c >= '\u0030' and c <= u'\u0039'): 
            return False 
    return True

(4)數(shù)據(jù)歸類計(jì)算各類數(shù)量

list_name = get_name() 
 print("總共有："+str(len(list_name))+"個(gè)微信名") 
 for i in range(len(list_name)): 
     result = classification_name(list_name[i]) 
     if result == 'ch':  # 中文 
         ch_name_number +=1 
         ch_name.append(list_name[i]) 
     if result == 'en':  # 英文 
         en_name_number +=1 
        en_name.append(list_name[i]) 
    if result == 'di':  # 數(shù)字 
        di_name_number +=1 
        di_name.append(list_name[i]) 
    if result == 'img': # 含表情 
        img_name_number +=1 
        img_name.append(list_name[i]) 
    if result == 'ch_di': # 中文和數(shù)字 
        ch_di_name_number +=1 
        ch_di_name.append(list_name[i]) 
    if result == 'other': # 其他 
        oth_name_number +=1 
        oth_name.append(list_name[i]) 
 
print("純中文昵稱個(gè)數(shù)："+ str(ch_name_number)) 
# print(ch_name) 
print("純英文昵稱個(gè)數(shù)："+ str(en_name_number)) 
#print(en_name) 
print("純數(shù)字昵稱個(gè)數(shù)："+ str(di_name_number)) 
# print(di_name) 
print("包含表情圖昵稱個(gè)數(shù)："+ str(img_name_number)) 
# print(img_name) 
print("中文和數(shù)字混合昵稱個(gè)數(shù)："+ str(ch_di_name_number)) 
print(ch_di_name) 
print("其他昵稱個(gè)數(shù)："+ str(oth_name_number)) 
# print(oth_name)

運(yùn)行結(jié)果：

總共有：3549個(gè)微信名 
純中文昵稱個(gè)數(shù)：1514 
純英文昵稱個(gè)數(shù)：569 
純數(shù)字昵稱個(gè)數(shù)：9 
包含表情圖昵稱個(gè)數(shù)：400 
中文和數(shù)字混合昵稱個(gè)數(shù)：19 
其他昵稱個(gè)數(shù)：1038

3.獲取用戶畫(只獲取用戶年齡段)

訪問英文取名用戶畫像接口，獲取近30天活躍用戶和新用戶的年齡段。

# 獲取用戶年齡段 
def get_data(): 
    # 獲取token,并處理 
    t = get_token().strip('"') 
    # 然后將處理后的token值和其他參數(shù)作為post方式的參數(shù)值，調(diào)用用戶畫像api 
    post_user_api = " https://api.weixin.qq.com/datacube/getweanalysisappiduserportrait?access_token=" 
    post_user_url = post_user_api + t 
    # 訪問獲取概況數(shù)據(jù) (近一個(gè)月的數(shù)據(jù)情況) 
    data = json.dumps({ 
   "begin_date" : "2018-07-21", 
   "end_date" : "2018-08-19"}) 
   # 獲取信息 
   user_portrait_data = get_info(post_user_url, data) 
   # 時(shí)間段 
   ref_date = user_portrait_data['ref_date'] 
   # 新用戶 
   visit_uv_new = user_portrait_data['visit_uv_new'] 
    活躍用戶 
   visit_uv = user_portrait_data['visit_uv'] 
   # 年齡段 
   print(ref_date ) 
   print((visit_uv_new['ages'])) 
   print((visit_uv['ages']))

運(yùn)行結(jié)果：

# id ： 為年齡段序號(hào)  name ：年齡段名稱    value : 該年齡段人數(shù) 
20180721-20180819 
[{'id': 0, 'name': '未知', 'value': 6}, {'id': 1, 'name': '17歲以下', 'value': 18}, {'id': 2, 'name': '18-24歲', 'value': 118}, {'id': 3, 'name': '25-29歲', 'value': 75}, {'id': 4, 'name': '30-39歲', 'value': 81}, {'id': 5, 'name': '40-49歲', 'value': 14}, {'id': 6, 'name': '50歲以上', 'value': 7}] 
[{'id': 0, 'name': '未知', 'value': 6}, {'id': 1, 'name': '17歲以下', 'value': 20}, {'id': 2, 'name': '18-24歲', 'value': 147}, {'id': 3, 'name': '25-29歲', 'value': 88}, {'id': 4, 'name': '30-39歲', 'value': 95}, {'id': 5, 'name': '40-49歲', 'value': 20}, {'id': 6, 'name': '50歲以上', 'value': 10}]

三、來點(diǎn)有趣的：數(shù)據(jù)清洗、分析

1.微信名稱類型數(shù)據(jù)可視化分析

核心代碼：

from pyecharts import Pie 
# 數(shù)據(jù)獲取自上面代碼 
attr = ["純中文昵稱", "純英文昵稱", "純數(shù)字昵稱", "包含表情圖昵稱", "中文和數(shù)字混合昵稱", "其他昵稱"] 
v1 = [1514, 569, 9, 400, 19, 1038] 
pie = Pie("微信名分類餅圖", title_pos='center', width=900) 
pie.add( 
    "占比", 
    attr, 
    v1, 
    center=[50, 50], 
    is_random=True, 
    radius=[30, 75], 
    rosetype="area", 
    is_legend_show=False, 
    is_label_show=True, 
) 
pie.render("render_01.html")

運(yùn)行效果：

微信昵稱類別玫瑰餅圖

從中可以看出，微信昵稱為全中文的占比最多，占有42.66%，其次為其他昵稱(中英文混合、字符等類型)，占有29.25%。

再比較大的類，就是純英文昵稱，占有16.03%，以及包含表情包昵稱的，占有11.27%，純數(shù)字昵稱和中文數(shù)字混合昵稱，相對(duì)占比較少。

我們常見的中文和數(shù)字混合昵稱，最多的就是機(jī)構(gòu)名/姓名+聯(lián)系方式，一些營銷號(hào)比較常用。

相較而言，大多數(shù)人還是喜歡，用純中文來作昵稱，既體現(xiàn)一種文化情懷，又簡明扼要地介紹了自己，比如我的微信名就是老表，這是我初中時(shí)候的一個(gè)綽號(hào)，朋友們一說老表，不一定是在說親戚，有可能在說我，哈哈哈。

2. 微信用戶年齡段可視化分析

核心代碼：

# 2.用戶年齡段：玫瑰餅圖 
from pyecharts import Pie 
# 數(shù)據(jù)獲取自上面代碼 
attr = ["未知", "17歲以下", "18-24歲", "25-29歲", "30-39歲", "40-49歲","50歲以上"] 
v1 = [12, 38, 265, 163, 176, 34,17] 
pie = Pie("微信用戶年齡段餅圖", title_pos='center', width=900) 
pie.add( 
    "占比", 
    attr, 
    v1, 
    center=[50, 50], 
    is_random=True, 
    radius=[30, 75], 
    rosetype="area", 
    is_legend_show=False, 
    is_label_show=True, 
) 
pie.render("render_02.html")

運(yùn)行效果：

用戶年齡段分布玫瑰餅圖

從中可以看出，年齡段中，18-24歲的95-00后占比最多，達(dá)到37.59%，接下來是30-39歲的80-90后，占比達(dá)到24.97%，緊隨其后的為25-29歲的90-95后，占比達(dá)23.12%，其他年齡段可大概分為兩類：偏兒童類和偏老人類，一共占比10.21%。

我個(gè)人覺得，這類人群少的原因是：小孩、老人玩微信的少，更不用說微信小程序了，對(duì)于小孩來說，微信的作用就是玩游戲(登錄賬號(hào))，對(duì)于老人來說，微信主要用來聊天，已經(jīng)是比較復(fù)雜的了，小程序使用可能對(duì)老人來說就更復(fù)雜了，也缺少必要性。

3. 詞云分析微信名稱哪些詞語、表情包更受歡迎?

(1)繼續(xù)使用pyecharts生成詞云圖

核心代碼：

# 清洗數(shù)據(jù)，生成詞云圖 
def split_word(test_str): 
    test_str = re.sub('[,，。. \r\n]', '', test_str) 
    # jieba 詞語 
    segment = jieba.lcut(test_str) 
    words_df = pd.DataFrame({'segment': segment}) 
    # quoting=3 表示stopwords.txt里的內(nèi)容全部不引用 
    stopwords = pd.read_csv(r"H:\PyCoding\ Analysis_wx_name\stopwords.txt", index_col=False, quoting=3, sep="\t", names=['stopword'], encoding='utf-8') 
    words_df = words_df[~words_df.segment.isin(stopwords.stopword)] 
    words_stat = words_df.groupby(by=['segment'])['segment'].agg({"計(jì)數(shù)": numpy.size}) 
    words_stat = words_stat.reset_index().sort_values(by=["計(jì)數(shù)"], ascending=False) 
    test = words_stat.head(200).values 
    codes = [test[i][0] for i in range(0,len(test))] 
    counts = [test[i][1] for i in range(0,len(test))] 
    wordcloud = WordCloud(width=1300, height=620) 
    wordcloud.add("微信昵稱", codes, counts, word_size_range=[20, 100]) 
    wordcloud.render('render_03.html')

運(yùn)行效果：

pyecharts詞云圖

4. 使用Wordcloud+matplotlib，生成高級(jí)一點(diǎn)的詞云圖:

核心代碼：

# 下下期好好講一下matplotlib繪圖可視化，挺有意思的 
# 調(diào)用get_name函數(shù)獲取全部微信名 
text = get_name() 
# 調(diào)用jiebaclearText函數(shù)，清洗數(shù)據(jù)(該函數(shù)和上面切詞思想一樣) 
text1=jiebaclearText(text) 
#產(chǎn)生詞云圖 
bg = plt.imread(r"G:\small_pig.jpg") 
#生成詞云 
wc=WordCloud( 
    background_color="wathet", #設(shè)置背景為白色，默認(rèn)為黑色 
    mask=bg,      # 設(shè)置詞云內(nèi)容范圍(除指定圖片白色區(qū)域的其他區(qū)域都將覆蓋詞云內(nèi)容) 
    margin=10,               #設(shè)置圖片的邊緣 
    max_font_size=70,   #顯示的最大的字體大小 
    random_state=20,    #為每個(gè)單詞返回一個(gè)PIL顏色 
    font_path='G:\simkai.ttf'   #中文處理，用系統(tǒng)自帶的字體 
    # 可以在這里下載這個(gè)字體：http://www.font5.com.cn/font_download.php?id=534&part=1245067666 
    ).generate(text1) 
#為圖片設(shè)置字體 
my_font=fm.FontProperties(fname='G:\simkai.ttf') 
# 圖片背景 
bg_color = ImageColorGenerator(bg) 
# 開始畫圖 
plt.imshow(wc.recolor(color_func=bg_color)) 
# 為云圖去掉坐標(biāo)軸 
plt.axis("off") 
# 保存云圖 
wc.to_file("render_04.png")

5.詞云輪廓原圖：

這是您的專屬社會(huì)人

運(yùn)行效果：

wordcloud詞云圖

由于第二種方法無法解析表情圖，所以沒有表情出現(xiàn)，除此之外，這兩種方法顯示的詞云圖內(nèi)容，幾乎大同小異。

通過詞云圖，我們一眼看出，大家使用最多的，除開中文后，就是表情圖了，你的微信朋友圈里，是否也有這樣的大紅嘴唇，我的好像有，哈哈哈~

當(dāng)我們單純來看詞云中的中文時(shí)，發(fā)現(xiàn)像太陽、陽光、微笑、可愛、開心、愛、未來等比較積極向上的詞語，還是比較受大家喜歡的，也體現(xiàn)出大家的內(nèi)心的積極、樂觀，當(dāng)然還有像麗麗、徐、陳等這樣的姓名部分，在昵稱中大家也使用得比較多，但也不缺乏有像悲傷、涼這樣比較冷色的詞語。

四、通過昵稱進(jìn)行情緒分析(大膽猜想)

1.微信昵稱為全中文

微信昵稱為全中文，可以分為兩大類：自己的真名和其他昵稱。

直接用自己的姓名，當(dāng)微信昵稱的人，性格大多是直來直往的那種，待人比較坦誠。

他們的微信，一般用于熟人社交和日常辦公，平時(shí)不會(huì)隨便加不熟的人，就算用真名，也不怕泄露個(gè)人信息，來個(gè)不恰當(dāng)?shù)谋扔鳎翰蛔鎏澬氖拢慌鹿砬瞄T，哈哈哈。

為其他昵稱的人，大多有自己的看法，也許昵稱是自己對(duì)未來的一種期望，也許昵稱是自己對(duì)生活的一種態(tài)度，或者是一些無厘頭的話語，炫酷的話語。(猜測)

2.微信昵稱為全英文

出于個(gè)人喜好或工作需求，有些人會(huì)給自己取一個(gè)容易記的、叫著順口的英文名，比如Tom、Abby、Jason，并常常在自我介紹的時(shí)候，讓大家可以用英文名字稱呼自己。

對(duì)他們而言，英文名就相當(dāng)于自己的第二個(gè)名字，用它做微信名，和用本名沒什么太大的區(qū)別。

也有的人會(huì)刻意避開，那些常見的英文名，取一些更小眾的，他們更在意提高自己的“逼格”，喜歡標(biāo)新立異，追求時(shí)尚和前衛(wèi)。(猜測)

3.微信昵稱帶有表情符號(hào)

有很多女生，會(huì)在微信名稱里加上各種表情符號(hào)，從上面分析的詞云圖中，可以看出，一個(gè)大紅唇大家使用最多，其他的可能是一個(gè)愛心、一朵玫瑰、一顆星星、又或是系統(tǒng)自帶的emoji表情。

她們可能覺得，這是一種特別的裝飾，能讓自己的名字，和別人有明顯的區(qū)別。

這樣的女生，大多有細(xì)膩的小心思、浪漫的生活情調(diào)，和一顆蓬勃的少女心。(猜測)

4.微信昵稱帶有職業(yè)性質(zhì)

一般來說，會(huì)主動(dòng)在自己微信名前面，帶一個(gè)字母“A”的，大多都是整天在朋友圈里發(fā)廣告的微商或代購。

比較正式一點(diǎn)的，用的都是“公司名+姓名”的形式，這一類人基本都是銷售員或房產(chǎn)中介……或者就是真正的大佬啦~

還有一些人，會(huì)根據(jù)自己不同的工作階段，不定時(shí)更換名字后綴的。

認(rèn)識(shí)一個(gè)在某地產(chǎn)公司做人力的朋友，為了能好好享受假期，她會(huì)把微信名改成“ΧΧΧ休假中”，以便提醒那些在節(jié)假日，還私信她詢問工作的人。

也有一些人反著來，為了顯示自己特別積極，直接把微信名改成“ΧΧΧ加班中”……emmm主要是改給老板看的吧。(猜想)

5.微信昵稱帶偶像名

不用說，這一類都是典型的追星族，而且大多都是女生，比如吳亦凡夫人、蔡徐坤秘密女友、胡歌的小嬌妻……不出意外，她們的頭像，一般就是她們的愛豆本人。

她們平時(shí)會(huì)在微博，給偶像打Call，朋友圈也會(huì)發(fā)很多相關(guān)推薦，如果有人夸自己的愛豆，她們會(huì)覺得遇到了知音;相反地，如果有人說她們愛豆的壞話，她們會(huì)馬上拉黑……

切記，在追星的人面前，不要輕易抬杠，不要對(duì)她的愛豆指手畫腳……(猜想)

6.微信昵稱是四字詞

仔細(xì)觀察長輩們的微信名，就會(huì)發(fā)現(xiàn)他們，特別喜歡用四字詞作昵稱。

這些四字詞最大的共同點(diǎn)，就是都傳遞著一種歲月靜好的氛圍：“人生如茶”“花自芬芳”“上善若水”“人心依舊”“云淡風(fēng)輕”……

年輕人用獨(dú)特的微信名標(biāo)記自己，年長點(diǎn)的叔叔阿姨，只是想純粹地寄托一種生活理想。(猜想)

都說名字是人的第二張臉。微信名取得好，往往會(huì)給人留下更好的印象。你的微信名，有什么特別的含義嗎?評(píng)論區(qū)里聊一聊。

05、附錄：參考文檔

(1)微信小程序api幫助文檔、wikipedia-emoji(表情圖編碼介紹);
(2)Wordcloud官方文檔;
(3)傲嬌的草履蟲寫的 Wordcloud 各參數(shù)含義;
(4)微信名字，暴露了你是一個(gè)什么樣的人。

作者：XksA，大三在讀的師范技術(shù)生，主要學(xué)習(xí)Python web、數(shù)據(jù)分析、可視化方面，個(gè)人公眾號(hào) 極簡XksA 長期分享學(xué)習(xí)筆記，學(xué)習(xí)資料，歡迎交流學(xué)習(xí)。

責(zé)任編輯：未麗燕來源：極簡XksA

微信數(shù)據(jù)分析昵稱

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營