超全!Python中常見(jiàn)的配置文件寫(xiě)法
為什么要寫(xiě)配置文件
這個(gè)固定文件我們可以直接寫(xiě)成一個(gè) .py 文件,例如 settings.py 或 config.py,這樣的好處就是能夠在同一工程下直接通過(guò) import 來(lái)導(dǎo)入當(dāng)中的部分;但如果我們需要在其他非 Python 的平臺(tái)進(jìn)行配置文件共享時(shí),寫(xiě)成單個(gè) .py 就不是一個(gè)很好的選擇。這時(shí)我們就應(yīng)該選擇通用的配置文件類(lèi)型來(lái)作為存儲(chǔ)這些固定的部分。目前常用且流行的配置文件格式類(lèi)型主要有 ini、json、toml、yaml、xml 等,這些類(lèi)型的配置文件我們都可以通過(guò)標(biāo)準(zhǔn)庫(kù)或第三方庫(kù)來(lái)進(jìn)行解析。
ini
ini 即 Initialize 初始化之意,早期是在 Windows 上配置文件的存儲(chǔ)格式。ini 文件的寫(xiě)法通俗易懂,往往比較簡(jiǎn)單,通常由節(jié)(Section)、鍵(key)和值(value)組成,就像以下形式:
[localdb]
host = 127.0.0.1
user = root
password = 123456
port = 3306
database = mysql
Python 本身內(nèi)置的 configparser 標(biāo)準(zhǔn)庫(kù),我們直接就可以用來(lái)對(duì) ini 文件進(jìn)行解析。如我們將上述內(nèi)容保存在一個(gè)名為 db.ini 的文件中,然后使用 read() 方法來(lái)進(jìn)行解析和讀取,最后通過(guò) items() 方法來(lái)獲取指定節(jié)點(diǎn)下的所有鍵值對(duì)。
>>> from configparser import ConfigParser
>>> cfg = ConfigParser()
>>> cfg.read("/Users/Bobot/db.ini")
['/Users/Bobot/db.ini']
>>> cfg.items("localdb")
[('host', '127.0.0.1'), ('user', 'root'), ('password', '123456'), ('port', '3306'), ('database', 'mysql')]
需要注意的是,configparser 默認(rèn)將值以字符串的形式呈現(xiàn),所以這也就是為什么我們?cè)?db.ini 文件中沒(méi)有加引號(hào)而是直接將字面量寫(xiě)在上面的原因。
獲取到鍵值對(duì)后,我其實(shí)直接就將其轉(zhuǎn)換成字典,然后通過(guò)解包的方式進(jìn)行穿參,保持代碼簡(jiǎn)潔:
#!pip install pymysql
import pymysql
from configparser import ConfigParser
cfg = ConfigParser()
cfg.read("/Users/Bobot/db.ini")
db_cfg = dict(cfg.items("localdb"))
con = pymysql.connect(**db_cfg)
json
json 格式可以說(shuō)是我們常見(jiàn)的一種文件形式了,也是目前在互聯(lián)網(wǎng)較為流行的一種數(shù)據(jù)交換格式。除此之外,json 有時(shí)也是配置文件的一種。
比如 npm(JavaScript 包管理工具類(lèi)似 Python 的 pip)、以及微軟出品的目前被廣泛使用的 VSCode 編輯器,都使用 json 編寫(xiě)配置參數(shù)。
和 configparser 一樣,Python 也內(nèi)置了 json 標(biāo)準(zhǔn)庫(kù),可以通過(guò) load() 和 loads() 方法來(lái)導(dǎo)入文件式和字符串的 json 內(nèi)容。
{
"localdb":{
"host": "127.0.0.1",
"user": "root",
"password": "123456",
"port": 3306,
"database": "mysql"
}
}
我們將上述內(nèi)容保存為 db.json 后進(jìn)行讀取和解析,json 庫(kù)讀取 json 文件相對(duì)簡(jiǎn)單容易,而且很容易解析成 Python 的字典對(duì)象。
>>> import json
>>> from pprint import pprint
>>>
>>> with open('/Users/Bobot/db.json') as j:
... cfg = json.load(j)['localdb']
...
>>> pprint(cfg)
{'database': 'mysql',
'host': '127.0.0.1',
'password': '123456',
'port': 3306,
'user': 'root'}
使用 json 文件配置的缺點(diǎn)就是語(yǔ)法標(biāo)準(zhǔn)嚴(yán)格限制,為人所詬病之一的就是無(wú)法在當(dāng)中寫(xiě)注釋?zhuān)遣扇?json 類(lèi)型的其他超集作為替代方案(VSCode 中能寫(xiě)注釋的 json 參數(shù)配置文件便是代替方案的一種);同時(shí)存在嵌套過(guò)深的問(wèn)題,容易導(dǎo)致出錯(cuò),不宜用來(lái)寫(xiě)過(guò)長(zhǎng)或復(fù)雜的參數(shù)配置信息。
toml
toml 格式(或 tml 格式)是 Github 聯(lián)合創(chuàng)始人 Tom Preston-Werner 所提出的一種配置文件格式。根據(jù)維基百科的資料,toml 最開(kāi)始提出時(shí)是在 2013年7月份,距今已有七年時(shí)間;它在某些方面也與后面要談到的 yaml 文件有些類(lèi)似,但如果當(dāng)你知道 yaml 的規(guī)范有幾十頁(yè)(沒(méi)有錯(cuò),真的就是幾十頁(yè)……)的時(shí)候,可能你真的就不太愿意去寫(xiě)那么復(fù)雜的配置文件,toml 格式則倒是個(gè)不錯(cuò)的選擇。
toml 格式大致如下:
從這里可以看出 toml 有點(diǎn)類(lèi)似于前面所講的 ini 文件。但是它比 ini 擴(kuò)展了更多的內(nèi)容。
在樣例圖片中我們可以看到,除了基本的字符串以外,例如時(shí)間戳、布爾值、數(shù)組等都進(jìn)一步支持,而且樣式和 Python 的原生寫(xiě)法十分類(lèi)似。
當(dāng)然這里不會(huì)過(guò)多介紹 toml 格式的一些規(guī)范說(shuō)明,有人已經(jīng)對(duì)官方的規(guī)范文檔進(jìn)行了翻譯,有興趣的朋友可以直接查閱。
這么契合 Python 方式的配置文件類(lèi)型已經(jīng)有開(kāi)發(fā)者造出了相應(yīng)的「輪子」,目前在 Github 上 Stars 數(shù)最多的是則是 uiri/toml 的版本,不過(guò)該版本僅通過(guò)了 v0.5 版本 toml 規(guī)范,但在使用上還是蠻簡(jiǎn)潔的,我們可以通過(guò) pip 命令進(jìn)行安裝
pip install toml
該庫(kù)的解析方式很簡(jiǎn)單,也有點(diǎn)類(lèi)似于 json 庫(kù)的解析用法,即通過(guò)load() 或 loads() 來(lái)進(jìn)行解析;同理轉(zhuǎn)換并導(dǎo)出也是同樣類(lèi)似的用法。
比如我們現(xiàn)在將以下內(nèi)容寫(xiě)入到 config.toml 中:
[mysql]
host = "127.0.0.1"
user = "root"
port = 3306
database = "test"
[mysql.parameters]
pool_size = 5
charset = "utf8"
[mysql.fields]
pandas_cols = [ "id", "name", "age", "date"]
緊接著我們就可以通過(guò) toml 庫(kù)中的 load() 方法來(lái)進(jìn)行讀?。?/p>
>>> import toml
>>> import os
>>> from pprint import pprint
>>> cfg = toml.load(os.path.expanduser("~/Desktop/config.toml"))
>>> pprint(cfg)
{'mysql': {'database': 'test',
'fields': {'pandas_cols': ['id', 'name', 'age', 'date']},
'host': '127.0.0.1',
'parameters': {'charset': 'utf8', 'pool_size': 5},
'port': 3306,
'user': 'root'}}
可以看到 toml 文件被間接地轉(zhuǎn)化成了字典類(lèi)型,當(dāng)然這也就是 json 版的寫(xiě)法(將單引號(hào)替換成雙引號(hào)即可),方便我們后續(xù)調(diào)用或者傳參。
yaml
yaml 格式(或 yml 格式)是目前較為流行的一種配置文件,它早在 2001 由一個(gè)名為 Clark Evans 的人提出;同時(shí)它也是目前被廣泛使用的配置文件類(lèi)型,典型的就是 Docker 容器里的 docker-compose.yml 配置文件,如果經(jīng)常使用 Docker 進(jìn)行部署的人對(duì)此不會(huì)陌生。
yaml 文件的設(shè)計(jì)從 Python、XML 等地方獲取靈感,所以在使用時(shí)能很清楚地看到這些部分的影子。
在上一節(jié) toml 內(nèi)容里我曾提到,yaml 的規(guī)范內(nèi)容可以說(shuō)是冗長(zhǎng)和復(fù)雜,足足有80頁(yè)之多。
所以感興趣的朋友可以再自行了解相關(guān)用法。
YAML 官方早已經(jīng)提供了相應(yīng)的 Python 庫(kù)進(jìn)行支持,即 PyYAML;當(dāng)然也同樣需要我們事先進(jìn)行安裝:
pip install pyyaml
同 json 庫(kù)和 toml 庫(kù)一樣,通過(guò) load() 方法來(lái)進(jìn)行加載。
需要注意的是,使用 load() 方法會(huì)存在一定的安全隱患,從思科 Talos 的這份報(bào)告中我們可以看到,如果加載了未知或不信任的 yaml 文件,那么有可能會(huì)存在被攻擊的風(fēng)險(xiǎn)和網(wǎng)絡(luò)安全隱患,因?yàn)樗軌蛑苯诱{(diào)用相應(yīng)的 Python 函數(shù)來(lái)執(zhí)行為攻擊者所需要的命令,比如說(shuō)在 yaml 文件中寫(xiě)入這么一段:
# 使用Linux和macOS的朋友不要輕易嘗試
!!python/object/apply:os.system ["rm -rf /"]
因此最好是使用 safe_load() 來(lái)代替 load() 方法。
這和 Python 內(nèi)置的 string 標(biāo)準(zhǔn)庫(kù)中 Template 類(lèi)的 substitute() 模板方法一樣存在著同樣的安全隱患,所以使用 safe_substitute() 來(lái)替代是一樣的道理。
如我們現(xiàn)在將之前的一些配置信息寫(xiě)入 config.yaml 文件中:
mysql:
host: "127.0.0.1"
port: 3306
user: "root"
password: "123456"
database: "test"
parameter:
pool_size: 5
charset: "utf8"
fields:
pandas_cols:
- id
- name
- age
- date
然后我們通過(guò) safe_load() 方法進(jìn)行解析:
>>> import os
>>> from pprint import pprint
>>>
>>> with open(os.path.expanduser("~/config.yaml"), "r") as config:
... cfg = yaml.safe_load(config)
...
>>> pprint(cfg)
{'mysql': {'database': 'test',
'fields': {'pandas_cols': ['id', 'name', 'age', 'date']},
'host': '127.0.0.1',
'parameter': {'charset': 'utf8', 'pool_size': 5},
'password': '123456',
'port': 3306,
'user': 'root'}}
可以看到最后結(jié)果和前面的 toml 庫(kù)的解析結(jié)果基本一致。
結(jié)尾
本文列舉了一些主流且常見(jiàn)的配置文件類(lèi)型及其 Python 的讀取方法,可能有的讀者會(huì)發(fā)現(xiàn)當(dāng)中沒(méi)有 xml 格式類(lèi)型的內(nèi)容。對(duì)于 xml 配置文件可能與 Java 系語(yǔ)言打交道的朋友遇見(jiàn)得會(huì)多一些,但 xml 文件的可讀性實(shí)在是讓人望而生畏;對(duì) xml 文件不了解的朋友可以使用 Chrome 瀏覽器隨便進(jìn)入一個(gè)網(wǎng)站然后按下 F12 進(jìn)入開(kāi)發(fā)者后查看那密密麻麻的 html 元素便是 .xml 的縮影。
除了這些主流的配置文件類(lèi)型之外,像一些 .cfg、.properties 等都可以作為配置文件,甚至和開(kāi)頭提到的那樣,你單獨(dú)用一個(gè) .py 文件來(lái)書(shū)寫(xiě)各類(lèi)配置信息作為配置文件進(jìn)行導(dǎo)入都是沒(méi)問(wèn)題,只是在跨語(yǔ)言共享時(shí)可能會(huì)有些障礙。因此本文就不過(guò)多介紹,感興趣的朋友可以進(jìn)一步自行了解。
在本文里列舉的配置文件類(lèi)型其復(fù)雜性由上到下依次增加:ini < json ≈ toml < yaml,它們之間各有優(yōu)劣,可以根據(jù)自己實(shí)際的需求和團(tuán)隊(duì)協(xié)作要求來(lái)具體選擇。