怎么正經(jīng)的實現(xiàn)shell腳本單例運(yùn)行?
假設(shè)你的一個腳本已經(jīng)在運(yùn)行了,如果避免再次被執(zhí)行呢?也就是如何實現(xiàn)單例運(yùn)行?
看起來可行的方法
一個非常簡單的思路就是,新的腳本被執(zhí)行時,先檢測當(dāng)前腳本是否有其他實例正在運(yùn)行,如果有則直接退出。
- runCount=$(ps -ef|grep test.sh | grep -v grep -c)
- if [ "${runCount}" -ge 1 ]
- then
- echo -e "test.sh already running,num:${runCount}"
- exit 1;
- fi
- while true
- do
- echo "test.sh run"
- sleep 1
- done
這里通過ps獲取到當(dāng)前在運(yùn)行的test.sh腳本數(shù),如果大于1,說明已經(jīng)有在運(yùn)行的了。
但是你運(yùn)行會發(fā)現(xiàn),其程序數(shù)量不只是一個。
- $ ./test.sh
- test.sh already running,num:2
驚不驚喜?為什么為這樣呢?原因在于,shell腳本中一個命令執(zhí)行相當(dāng)于fork了一個進(jìn)程執(zhí)行,這里執(zhí)行的是查找tesh.sh并grep的程序,另外還有一個就是當(dāng)前運(yùn)行的腳本程序,這樣的方式自然就會出現(xiàn)每次都有兩個了。
當(dāng)然判斷條件這里你可以換一下,例如數(shù)量大于2,但終歸不太好。
文件鎖
實際上這種方法你已經(jīng)在《如何讓你的程序同時只有一個在運(yùn)行》介紹過了,只不過之前是用于編寫C/C++程序,而這里是用于shell腳本。
我們來回顧一下,這是一個怎樣的過程:
- 運(yùn)行前檢查是否有該鎖文件,并且文件中的進(jìn)程正在運(yùn)行
- 如果有并且程序正在運(yùn)行,則已經(jīng)有實例在運(yùn)行
- 否則,無實例,創(chuàng)建鎖文件,寫入進(jìn)程id
- 退出時,刪除鎖文件
解釋一下第一條,為什么一定要確定鎖文件中的進(jìn)程正在運(yùn)行,因為,有些情況下如果運(yùn)行的時候退出沒有刪除該文件,則會導(dǎo)致新的實例永遠(yuǎn)無法運(yùn)行。
- #!/usr/bin/env bash
- LOCKFILE=/tmp/test.lock
- if [ -e ${LOCKFILE} ] && kill -0 `cat ${LOCKFILE}`; then
- echo " $0 already running"
- exit
- fi
- # 確保退出時,鎖文件被刪除
- trap "rm -f ${LOCKFILE}; exit" INT TERM EXIT
- #將當(dāng)前程序進(jìn)程id寫入鎖文件
- echo $$ > ${LOCKFILE}
- # 做你需要的事情
- sleep 1000
- # 刪除鎖文件
- rm -f ${LOCKFILE}
我們試著運(yùn)行其中一個,然后另外一個窗口嘗試運(yùn)行:
- $ ./test.sh
- ./test.sh already running
由于已經(jīng)有實例在運(yùn)行,發(fā)現(xiàn)新的程序無法運(yùn)行了。而等舊的腳本運(yùn)行完之后,新的就可以運(yùn)行了。
實際上這里面有幾個點非常巧妙:
- kill -0 `cat \${LOCKFILE}` 這里用于檢測該進(jìn)程是否存在,避免進(jìn)程不在了,但是鎖文件還在,導(dǎo)致后面的腳本無法運(yùn)行。
- trap "rm -f \${LOCKFILE}; exit" INT TERM EXIT 用于確保腳本退出時,鎖文件會被刪除。
- rm -f {LOCKFILE} 腳本最后需要刪除鎖文件
flock
說到鎖文件,這里就不得不提flock命令了。沒有前面的一些巧妙處理,我們很多時候會很難刪除原先創(chuàng)建的鎖文件,比如:
- 腳本被意外中斷,沒來得及執(zhí)行刪除
- 多個腳本產(chǎn)生競爭,導(dǎo)致判斷異常,比如前面有一個腳本運(yùn)行,判斷沒有鎖文件,下一步準(zhǔn)備創(chuàng)建,但是另外一個腳本又先創(chuàng)建了,就會導(dǎo)致異常了。
因此我們可以考慮使用flock:
- #!/usr/bin/env bash
- LOCK_FILE=/tmp/test.lock
- exec 99>"$LOCK_FILE"
- flock -n 99
- if [ "$?" != 0 ]; then
- echo "$0 already running"
- exit 1
- fi
- #腳本要做的其他事情
- sleep 1024
解釋一下:
- exec 99>"$LOCK_FILE" 表示創(chuàng)建文件描述符99,指向鎖文件,為何是99?110其實也是可以的,只是為了和當(dāng)前腳本可能打開的文件描述符沖突(例如和0,1,2沖突)。
- flock -n 99 嘗試對該文件描述符加鎖,由操作系統(tǒng)保證原子性
- 一旦flock失敗了,我們這里可以退出
- 而即使鎖定了,腳本退出后,也會自動釋放
因此這里避免了鎖沒有釋放的情況。
另一種做法
查看flock的man手冊,我們發(fā)現(xiàn)它還有一個例子是這么做的:
- [ "${FLOCKER}" != "$0" ] && exec env FLOCKER="$0" flock -en "$0" "$0" "$@" || :
在腳本開頭加上上面這么一行就可以了。例如:
- #!/usr/bin/env bash
- [ "${FLOCKER}" != "$0" ] && exec env FLOCKER="$0" flock -en "$0" "$0" "$@" || :
- #腳本要做的其他事情
- sleep 1024
解釋一下:如果${FLOCKER}環(huán)境變量沒有設(shè)置,則嘗試將腳本本身加鎖,如果加鎖成功,則運(yùn)行當(dāng)前腳本,(并且?guī)显械膮?shù)),否則的話靜默退出。
總結(jié)
單例運(yùn)行本身思路是很簡單的,就是探測當(dāng)前是否有實例在運(yùn)行,如果有,則退出,但是這里如何判斷,卻并不是那么容易。
最后,總結(jié)一下本文出現(xiàn)的一些該掌握的信息:
- $0 腳本名稱
- $@ 腳本參數(shù)
- $$ 當(dāng)前腳本進(jìn)程id
- $? 上一條命令執(zhí)行結(jié)果
- 描述符0 標(biāo)準(zhǔn)輸入
- 描述符1 標(biāo)準(zhǔn)輸出
- 描述符2 標(biāo)準(zhǔn)錯誤
- > 重定向