Python中值得學習的第三方JSON庫
我們在日常使用Python的過程中,經常會使用json格式存儲一些數據,尤其是在web開發(fā)中。而Python原生的json庫性能差、功能少,只能堪堪應對簡單輕量的json數據存儲轉換需求。
而本文我要給大家介紹的第三方json庫orjson,在公開的各項基準性能測試中,以數倍至數十倍的性能優(yōu)勢碾壓json、ujson、rapidjson、simplejson等其他Python庫,且具有諸多額外功能,下面我們就來領略其常用方法吧~
orjson常用方法
orjson支持3.7到3.10所有版本64位的Python,本文演示對應的orjson的版本為3.7.0,直接使用pip install -U orjson即可完成安裝。下面我們來對orjson中的常用方法進行演示:
1. 序列化
與原生json庫類似,我們可以使用orjson.dumps()將Python對象序列化為JSON數據,注意,略有不同的是,orjson序列化的結果并不是str型而是bytes型,在下面的例子中,我們對包含一千萬個簡單字典元素的列表進行序列化,orjson與json庫的耗時比較如下:
2. 反序列化
將JSON數據轉換為Python對象的過程我們稱之為反序列化,使用orjson.loads()進行操作,可接受bytes、str型等常見類型,在前面例子的基礎上我們添加反序列化的例子:
3. 豐富的option選項
在orjson的序列化操作中,可以通過參數option來配置諸多額外功能,常用的有:
(1) OPT_INDENT_2
通過配置option=orjson.OPT_INDENT_2,我們可以為序列化后的JSON結果添加2個空格的縮進美化效果,從而彌補其沒有參數indent的不足:
(2) OPT_OMIT_MICROSECONDS
orjson.dumps()可以直接將Python中datetime、time等標準庫中的日期時間對象轉換成相應的字符串,這是原生json庫做不到的,而通過配置option=orjson.OPT_OMIT_MICROSECONDS,可以將轉換結果后綴的毫秒部分省略掉:
(3) OPT_NON_STR_KEYS
當需要序列化的對象存在非數值型鍵時,orjson默認會拋出TypeError錯誤,這時需要配置option=orjson.OPT_NON_STR_KEYS來強制將這些鍵轉換為字符型:
(4) OPT_SERIALIZE_NUMPY
orjson的一大重要特性是其可以將包含numpy中數據結構對象的復雜對象,兼容性地轉換為JSON中的數組,配合option=orjson.OPT_SERIALIZE_NUMPY即可:
(5) OPT_SERIALIZE_UUID
除了可以自動序列化numpy對象外,orjson還支持對UUID對象進行轉換,在orjson 3.0之前的版本中,需要配合option=orjson.OPT_SERIALIZE_UUID,而本文演示的3.X版本則無需額外配置參數:
(6) OPT_SORT_KEYS
通過配合參數option=orjson.OPT_SORT_KEYS,可以對序列化后的結果自動按照鍵進行排序:
(7) 組合多種option
當你的序列化操作需要涉及多種option功能時,則可以使用|運算符來組合多個option參數即可:
4. 針對dataclass、datetime添加自定義處理策略
當你需要序列化的對象中涉及到dataclass自定義數據結構時,可以配合orjson.OPT_PASSTHROUGH_DATACLASS,再通過對default參數傳入自定義處理函數,來實現更為自由的數據轉換邏輯,譬如下面簡單的例子中,我們可以利用此特性進行原始數據的脫敏操作:
類似的,針對datetime類型數據,我們同樣可以配合OPT_PASSTHROUGH_DATETIME和自定義default函數實現日期自定義格式化轉換:
orjson更多特性可前往官方倉庫https://github.com/ijl/orjson了解更多.