自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

怎樣借助Python爬蟲給寶寶起個(gè)好名字

作者：瘋狂的螞蟻 2017-02-10 11:49:31

開發(fā) 后端

每個(gè)人一生中都會遇到一件事情，在事情出現(xiàn)之前不會關(guān)心，但是事情一旦來臨就發(fā)現(xiàn)它極其重要，并且需要在很短的時(shí)間內(nèi)做出重大決定，那就是給自己的新生寶寶起個(gè)名字。

每個(gè)人一生中都會遇到一件事情，在事情出現(xiàn)之前不會關(guān)心，但是事情一旦來臨就發(fā)現(xiàn)它極其重要，并且需要在很短的時(shí)間內(nèi)做出重大決定，那就是給自己的新生寶寶起個(gè)名字。因?yàn)橐诤⒆映錾髢芍軆?nèi)起個(gè)名字（需要辦理出生證明了），估計(jì)很多人都像我一樣，剛開始是很慌亂的，雖然感覺漢字非常的多隨便找個(gè)字做名字都行，后來才發(fā)現(xiàn)真不是隨便的事情，怎么想都發(fā)現(xiàn)不合適，于是到處翻詞典、網(wǎng)上搜、翻唐詩宋詞、詩經(jīng)、甚至武俠小說，然而想了很久得到的名字，往往卻受到家屬的意見和反對，比如不順口、和親戚重名重音等問題，這樣就陷入了重復(fù)尋找和否定的循環(huán)，越來越混亂。

每個(gè)人一生中都會遇到一件事情，在事情出現(xiàn)之前不會關(guān)心，但是事情一旦來臨就發(fā)現(xiàn)它極其重要，并且需要在很短的時(shí)間內(nèi)做出重大決定，那就是給自己的新生寶寶起個(gè)名字。

因?yàn)橐诤⒆映錾髢芍軆?nèi)起個(gè)名字（需要辦理出生證明了），估計(jì)很多人都像我一樣，剛開始是很慌亂的，雖然感覺漢字非常的多隨便找個(gè)字做名字都行，后來才發(fā)現(xiàn)真不是隨便的事情，怎么想都發(fā)現(xiàn)不合適，于是到處翻詞典、網(wǎng)上搜、翻唐詩宋詞、詩經(jīng)、甚至武俠小說，然而想了很久得到的名字，往往卻受到家屬的意見和反對，比如不順口、和親戚重名重音等問題，這樣就陷入了重復(fù)尋找和否定的循環(huán)，越來越混亂。

于是我們再次回到網(wǎng)上各種搜索，找到很多網(wǎng)上給出的“男寶寶好聽的名字大全”之類的文章，這些文章一下子給出幾百上千個(gè)名字，看的眼花繚亂沒法使用。而有不少的測名字的網(wǎng)站或者APP，輸入名字能給出八字或者五格的評分，這樣的功能感覺還挺好的能給個(gè)參考，然而要么我們需要一個(gè)個(gè)名字的輸入進(jìn)行測試、要么這些網(wǎng)站或者APP自身的名字很少、要么不能滿足我們的需求比如限定字、要么就開始收費(fèi)，到***也找不到一個(gè)好用的。

于是我想做這么一個(gè)程序：

主要的功能，是給出批量名字提供參考，這些名字是結(jié)合寶寶的生辰八字算出來的；
自己可以擴(kuò)充名字庫，比如網(wǎng)上發(fā)現(xiàn)了一批詩經(jīng)里的好名字，想看看怎么樣，添加進(jìn)去就能用；
可以限定名字的使用字，比如有的家族譜有限定，當(dāng)前是“國”字輩，名字中必須有“國”字；
名字列表可以給出評分，這樣倒排后就可以從高分往低分來看名字；

通過這種方式可以得到一份符合自己孩子生辰八字、自己的家譜限制、以及自己喜好的名字列表，并且該列表已經(jīng)給出了分?jǐn)?shù)用于參考，以此為基準(zhǔn)我們可以挨個(gè)琢磨找出心儀的名字。當(dāng)然如果有新的想法，隨時(shí)可以把新的名字添加到詞庫里面，進(jìn)行重新計(jì)算。

程序的代碼結(jié)構(gòu)

代碼介紹：

/chinese-name-score 代碼根目錄
/chinese-name-score/main 代碼目錄
/chinese-name-score/main/dicts 詞典文件目錄
/chinese-name-score/main/dicts/names_boys_double.txt 詞典文件，男孩的雙字名字
/chinese-name-score/main/dicts/names_boys_single.txt 詞典文件，男孩的單字名字
/chinese-name-score/main/dicts/names_girls_single.txt 詞典文件，女孩的雙字名字
/chinese-name-score/main/dicts/names_grils_double.txt 詞典文件，女孩的單字名字
/chinese-name-score/main/outputs 輸出數(shù)據(jù)目錄
/chinese-name-score/main/outputs/names_girls_source_wxy.txt 輸出的示例文件
/chinese-name-score/main/scripts 一些對詞典文件做預(yù)處理的腳本
/chinese-name-score/main/scripts/unique_file_lines.py 設(shè)定詞典文件，對詞典中的名字去重和去空白行
/chinese-name-score/main/sys_config.py 程序的系統(tǒng)配置，包含爬取得目標(biāo)URL、詞典文件路徑
/chinese-name-score/main/user_config.py 程序的用戶配置，包括寶寶的年月日時(shí)分性別等設(shè)定
/chinese-name-score/main/get_name_score.py 程序的運(yùn)行入口

使用代碼的方法：

如果沒有限定字，就找到詞典文件names_boys_double.txt和names_grils_double.txt，可以在這里添加自己找到的一些名字列表，按行分割添加在***即可；
如果有限定字，就找到詞典文件names_boys_single.txt和names_girls_single.txt，在這里添加自己預(yù)先中意的單個(gè)字列表，按行分割添加在***即可；
打開user_config.py，進(jìn)行配置，配置項(xiàng)見下一節(jié)；
運(yùn)行腳本get_name_score.py
在outputs目錄中，查看自己的產(chǎn)出文件，可以復(fù)制到Excel，進(jìn)行排序等操作；

程序的配置入口

程序的配置如下：

Python

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

# coding:GB18030

"""
在這里寫好配置
"""

setting = {}

# 限定字，如果配置了該值，則會取用單字字典，否則取用多字字典
setting["limit_world"] = "國"
# 姓
setting["name_prefix"] = "李"
# 性別，取值為男或者女
setting["sex"] = "男"
# 省份
setting["area_province"] = "北京"
# 城市
setting["area_region"] = "海淀"
# 出生的公歷年份
setting['year'] = "2017"
# 出生的公歷月份
setting['month'] = "1"
# 出生的公歷日子
setting['day'] = "11"
# 出生的公歷小時(shí)
setting['hour'] = "11"
# 出生的公歷分鐘
setting['minute'] = "11"
# 結(jié)果產(chǎn)出文件名稱
setting['output_fname'] = "names_girls_source_xxx.txt"

根據(jù)配置項(xiàng)setting[“limit_world”]，系統(tǒng)自動來決定選用單字詞典還是多字詞典：

如果設(shè)置了該項(xiàng)，比如等于“國”，那么程序會組合所有的單字為名字用于計(jì)算，比如國浩和浩國兩個(gè)名字都會計(jì)算；
如果不設(shè)置該項(xiàng)，保持空字符串，則程序只會讀取*_double.txt的雙字詞典

程序的原理

這是一個(gè)簡單的爬蟲。大家可以打開http://life.httpcn.com/xingming.asp網(wǎng)站查看，這是一個(gè)POST表單，填寫需要的參數(shù)，點(diǎn)提交，就會打開一個(gè)結(jié)果頁面，結(jié)果頁面的最下方包含了八字分?jǐn)?shù)和五格分?jǐn)?shù)。

如果想得到分?jǐn)?shù)，就需要做兩件事情，一是爬蟲自動提交表單，獲取結(jié)果頁面；二是從結(jié)果頁面提取分?jǐn)?shù)；

對于***件事情，很簡單，urllib2即可實(shí)現(xiàn)（代碼在/chinese-name-score/main/get_name_score.py）：

Python

1
2
3

    post_data = urllib.urlencode(params)
    req = urllib2.urlopen(sys_config.REQUEST_URL, post_data)
    content = req.read()

這里的params是個(gè)參數(shù)dict，使用這種方式，就進(jìn)行了POST帶數(shù)據(jù)的提交，然后從content得到了結(jié)果數(shù)據(jù)。

params的參數(shù)設(shè)定如下：

Python

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

    params = {}

    # 日期類型，0表示公歷，1表示農(nóng)歷
    params['data_type'] = "0"
    params['year'] = "%s" % str(user_config.setting["year"])
    params['month'] = "%s" % str(user_config.setting["month"])
    params['day'] = "%s" % str(user_config.setting["day"])
    params['hour'] = "%s" % str(user_config.setting["hour"])
    params['minute'] = "%s" % str(user_config.setting["minute"])
    params['pid'] = "%s" % str(user_config.setting["area_province"])
    params['cid'] = "%s" % str(user_config.setting["area_region"])
    # 喜用五行，0表示自動分析，1表示自定喜用神
    params['wxxy'] = "0"
    params['xing'] = "%s" % (user_config.setting["name_prefix"])
    params['ming'] = name_postfix
    # 表示女，1表示男
    if user_config.setting["sex"] == "男":
        params['sex'] = "1"
    else:
        params['sex'] = "0"

    params['act'] = "submit"
    params['isbz'] = "1"

第二件事情，就是從網(wǎng)頁中提取需要的分?jǐn)?shù)，我們可以使用BeautifulSoup4來實(shí)現(xiàn)，其語法也很簡單：

Python

1
2
3
4
5
6
7
8
9
10
11
12
13

    soup = BeautifulSoup(content, 'html.parser', from_encoding="GB18030")
    full_name = get_full_name(name_postfix)

    # print soup.find(string=re.compile(u"姓名五格評分"))
    for node in soup.find_all("div", class_="chaxun_b"):
        node_cont = node.get_text()
        if u'姓名五格評分' in node_cont:
            name_wuge = node.find(string=re.compile(u"姓名五格評分"))
            result_data['wuge_score'] = name_wuge.next_sibling.b.get_text()

        if u'姓名八字評分' in node_cont:
            name_wuge = node.find(string=re.compile(u"姓名八字評分"))
            result_data['bazi_score'] = name_wuge.next_sibling.b.get_text()

通過該方法，就能對HTML解析，提取八字和五格的分?jǐn)?shù)。

運(yùn)行結(jié)果事例

1
2
3
4
5
6
7
8
9
10
11
12

1/1287 李國錦姓名八字評分=61.5 姓名五格評分=78.6 總分=140.1
2/1287 李國鐵姓名八字評分=61 姓名五格評分=89.7 總分=150.7
3/1287 李國晶姓名八字評分=21 姓名五格評分=81.6 總分=102.6
4/1287 李鳴國姓名八字評分=21 姓名五格評分=90.3 總分=111.3
5/1287 李柔國姓名八字評分=64 姓名五格評分=78.3 總分=142.3
6/1287 李國經(jīng) 姓名八字評分=21 姓名五格評分=89.8 總分=110.8
7/1287 李國蒂姓名八字評分=22 姓名五格評分=87.2 總分=109.2
8/1287 李國登姓名八字評分=21 姓名五格評分=81.6 總分=102.6
9/1287 李略國姓名八字評分=21 姓名五格評分=83.7 總分=104.7
10/1287 李國添姓名八字評分=21 姓名五格評分=81.6 總分=102.6
11/1287 李國天姓名八字評分=22 姓名五格評分=83.7 總分=105.7
12/1287 李國田姓名八字評分=22 姓名五格評分=93.7 總分=115.7

有了這些分?jǐn)?shù)，我們就可以進(jìn)行排序，是一個(gè)很實(shí)用的參考資料。

友情提示

分?jǐn)?shù)跟很多因素有關(guān)，比如出生時(shí)刻、已經(jīng)限定的字、限定字的筆畫等因素，這些條件決定了有些名字不會分?jǐn)?shù)高，不要受此影響，找出相對分?jǐn)?shù)高的就可以了；
目前程序只能抓取一個(gè)網(wǎng)站的內(nèi)容，地址是http://life.httpcn.com/xingming.asp
本列表僅供參考，看過一些文章，歷史上很多名人偉人，姓名八字評分都非常低但是都建功立業(yè)，名字確實(shí)會有些影響但有時(shí)候朗朗上口就是***的；
從本列表中選取名字之后，可以在百度、人人網(wǎng)等地方查查，以防有些負(fù)面的人重名、或者起這個(gè)名字的人太多了爛大街；
八字分?jǐn)?shù)是中國傳承，五格分?jǐn)?shù)是日本人近代發(fā)明的，有時(shí)候也可以試試西方的星座起名法，并且奇怪的是八字和五個(gè)分?jǐn)?shù)不同網(wǎng)站打分相差很大，更說明了這東西只供參考；

本文的代碼已上傳到github：https://github.com/peiss/chinese-name-score

本文地址：http://www.crazyant.net/2076.html，轉(zhuǎn)載請注明來源。

責(zé)任編輯：張燕妮來源：博客

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="3i6ld"><i id="3i6ld"></i></blockquote>}