盤點(diǎn)Python中四種讀取Json文件和提取Json文件內(nèi)容的方法
大家好,我是Python進(jìn)階者。
前言
前幾天在才哥的交流群有個(gè)叫【杭州-學(xué)生-飛飛飛】的粉絲在群里問了一個(gè)json文件處理的問題。
看上去他只需要follower和ddate這兩個(gè)字段下的對應(yīng)的值。
我們知道json是一種常見的數(shù)據(jù)傳輸形式,所以對于爬取數(shù)據(jù)的數(shù)據(jù)解析,json的相關(guān)操作是比較重要的,能夠加快我們的數(shù)據(jù)提取效率。
思路
關(guān)于這個(gè)問題,倒不是很難,群里提出了三個(gè)方法,第一個(gè)是才哥說的pd處理或者正則表達(dá)式,第二個(gè)是小編自己提出的json處理,第三個(gè)是【成都-IT技術(shù)支持-小王】提出的jsonpath,總之方法很多,這里給出4個(gè)處理方法,希望下次粉絲們再遇到類似問題的時(shí)候,有章可循。
實(shí)現(xiàn)過程
1、正則表達(dá)式
這個(gè)方法可以看看,通過匹配的方法進(jìn)行提取,代碼如下所示:
- import re
- import json
- file = open('漫畫.txt', 'r', encoding='utf-8')
- content = file.readline()
- ddate_result1 = re.findall('"ddate":"(\d+\-\d+\-\d+)"', content)
- ddate_result2 = re.findall('"ddate":"(.*?)"', content)
- follower_result1 = re.findall('"follower":(\d+),"', content)
- print(ddate_result1)
- print(ddate_result2)
- print(follower_result1)
運(yùn)行之后,可以得到結(jié)果:
關(guān)于ddate,follower獲取的方法肯定還有很多其他寫法,這里只是拋磚引玉,歡迎大家多多嘗試。
2、jsonpath方法一
關(guān)于jsonpath的用法,之前在這篇文章中有提及,感興趣的小伙伴也可以去看看:數(shù)據(jù)提取之JSON與JsonPATH。
下面是【成都-IT技術(shù)支持-小王】大佬給的代碼:
- from jsonpath import jsonpath
- import json
- """follower和ddate"""
- with open("漫畫.txt", encoding="utf-8") as file:
- file_json = json.loads(file.readline())
- follower = jsonpath(file_json, "$..follower")
- ddate = jsonpath(file_json, "$..ddate")
- print(follower)
- print(ddate)
代碼運(yùn)行之后,就會得到想要的數(shù)據(jù),如下圖所示:
這個(gè)..就和xpath里面的//一樣,子孫節(jié)點(diǎn),$是根節(jié)點(diǎn)。
3、jsonpath方法二
這個(gè)是另外一個(gè)用法了,小號【皮皮】提供的,直接上代碼。
- import json
- import jsonpath
- # obj = json.load(open('羅翔.json', 'r', encoding='utf-8')) # 注意,這里是文件的形式,不能直接放一個(gè)文件名的字符串
- file = open('漫畫.txt', 'r', encoding='utf-8') # 注意,這里是文件的形式,不能直接放一個(gè)文件名的字符串
- obj = json.loads(file.readline())
- follower = jsonpath.jsonpath(obj, '$..follower') # 文件對象 jsonpath語法
- ddate = jsonpath.jsonpath(obj, '$..ddate') # 文件對象 jsonpath語法
- print(follower)
- print(ddate)
代碼運(yùn)行之后,也可以得到預(yù)期的結(jié)果。
當(dāng)然了,如果你的文件本來就是json文件,也可以直接讀取,代碼類似:
- import json
- import jsonpath
- obj = json.load(open('羅翔.json', 'r', encoding='utf-8')) # 注意,這里是文件的形式,不能直接放一個(gè)文件名的字符串
- # file = open('羅翔.json', 'r', encoding='utf-8') # 注意,這里是文件的形式,不能直接放一個(gè)文件名的字符串
- # obj = json.loads(file.readline())
- follower = jsonpath.jsonpath(obj, '$..follower') # 文件對象 jsonpath語法
- ddate = jsonpath.jsonpath(obj, '$..ddate') # 文件對象 jsonpath語法
- print(follower)
- print(ddate)
運(yùn)行之后,也可以得到預(yù)期的結(jié)果:
4、jsonpath方法三
這個(gè)是群里【深圳-Hua Bro】華博提供的,代碼如下:
- import json
- import jsonpath
- with open("羅翔.txt", 'r', encoding="UTF-8") as fr:
- file_json = eval(fr.read().replace('\n\u200b', '')) # 讀取的str轉(zhuǎn)為字典
- follower = jsonpath.jsonpath(file_json, '$..follower') # 文件對象 jsonpath語法
- ddate = jsonpath.jsonpath(file_json, '$..ddate') # 文件對象 jsonpath語法
- print(follower)
- print(ddate)
方法大同小異,運(yùn)行之后,也可以拿到預(yù)取的目標(biāo)數(shù)據(jù),如下圖所示。
總結(jié)
我是Python進(jìn)階者。本文基于粉絲針對json文件處理的提問,綜合群友們的回答,整理了4種可行的方案,幫助粉絲解決了問題。這里墻裂給大家推薦jsonpath這個(gè)庫,感興趣的小伙伴可以學(xué)習(xí)學(xué)習(xí),下次再遇到j(luò)son文件提取數(shù)據(jù)就再也不慌啦!
【編輯推薦】