數(shù)據(jù)庫連接配置策略和實踐指南
一 前言
應(yīng)用執(zhí)行SQL請求完成的過程中,數(shù)據(jù)庫連接占很重要一部分。尤其是涉及到流量瞬間暴漲,需要創(chuàng)建大量連接,或者網(wǎng)絡(luò)異常導(dǎo)致重連時,從業(yè)務(wù)端來看,sql執(zhí)行緩慢的問題,此時sql執(zhí)行并非真的慢。本文是基于我們自己的生產(chǎn)環(huán)境的Durid實踐,僅供各位參考,當(dāng)然不同公司的鏈路/業(yè)務(wù)壓力可能不一樣。具體到個別參數(shù)需要區(qū)別對待。
二 具體實踐
從整體系統(tǒng)的角度,我們要考慮幾個點 ,數(shù)據(jù)庫連接數(shù)配置多少合適,針對空閑連接,網(wǎng)絡(luò)異常的超時時間,如何高效復(fù)用連接,druid 版本選擇這幾個方面來介紹。
2.1 如何設(shè)置連接池大小
合適的連接池大小和業(yè)務(wù)請求的 QPS 和 單個請求的 RT(單位為毫秒)。基本公式:
連接數(shù) = QPS /(1000/RT) + N = QPS * RT /1000 + N
注意: 此處 QPS 和 RT 為單個應(yīng)用端統(tǒng)計。假定隨連接數(shù)量增加,客戶端能處理的請求數(shù)線性增加。
舉個例子
- 比如 一個請求的耗時rt=2ms,每個連接能處理的請求數(shù)量
- S = 1000/2 =500 ,
- 業(yè)務(wù)層總請求量是 M=5000 ,那么合理的連接數(shù)為
- M/S=5000/500=10
- 為了避免連接數(shù)被占滿,我們會在上面的連接數(shù)的基礎(chǔ)上再加上N ,最終的連接數(shù)為10+N .
統(tǒng)計平時的最大 QPS 和此時的 RT,以此計算 minIdle,并設(shè)置 initialSize = minIdle。
統(tǒng)計峰值時的 QPS 和此時的 RT,以此計算 maxActive。
可以通過以下方法,通過 jmx 觀察 Druid 實際的連接池狀況,重點關(guān)注 ActiveCount:活動連接數(shù),PoolingCount:池子中的連接數(shù)。并根據(jù)實際情況考慮調(diào)整。
- java -XX:+UseConcMarkSweepGC -XX:+CMSClassUnloadingEnabled -XX:+TieredCompilation -XX:TieredStopAtLevel=1 -Xverify:none -client -jar /PATH/cmdline-jmxclient-0.10.3.jar - 127.0.0.1:7777 'com.alibaba.druid:type=DruidDataSourceStat' DataSourceList |& grep -E 'ActiveCount|PoolingCount'
2.2 如何設(shè)置超時時間
連接池中的超時時間主要有:
- connectTimeout 建立 TCP 連接的超時時間
- maxWait 從連接池獲取連接的最長等待時間
- socketTimeout 發(fā)送請求后等待響應(yīng)的超時時間
其中,connectTimeout 建議不要小于 1200ms。TCP 在建立連接時,SYN 包的超時重傳時間為 1s。connectTimeout 設(shè)置過短,很可能造成應(yīng)用發(fā)布時,初始化連接池過程中由于網(wǎng)絡(luò)抖動,或中間網(wǎng)絡(luò)設(shè)備需要初始化狀態(tài)發(fā)生丟包觸發(fā)超時,從而造成連接池初始化失敗而導(dǎo)致發(fā)布失敗。
socketTimeout 可以根據(jù)應(yīng)用最長的查詢返回時間設(shè)置。過長會造成生網(wǎng)絡(luò)問題,或數(shù)據(jù)庫服務(wù)有問題時雪崩;過短也會造成頻繁請求超時。不要短于 300ms。TCP 的最小 RTO 為 200ms,并根據(jù)延遲動態(tài)調(diào)整。過短的超時時間會造成單個丟包就造成請求超時。生產(chǎn)環(huán)境數(shù)據(jù)庫都配置有 SQL Killer,會自動殺死執(zhí)行時間過長的請求。因此,設(shè)置過長的 socketTimeout 也是沒有意義的。
maxWait 可以根據(jù)應(yīng)用期待的等待時間設(shè)置。為避免在發(fā)生網(wǎng)絡(luò)問題,或數(shù)據(jù)庫服務(wù)有問題時雪崩,這個時間設(shè)置不要過大。下面的默認(rèn)值 800ms 是個保守的設(shè)置。應(yīng)用可以設(shè)置一個更短的時間,如 300ms。過短的時間也會造成在連接池中連接數(shù)不足,需要新建連接時造成大量超時。建議不要低于 100ms。
2.3 如何設(shè)置連接保持時間
設(shè)置連接保持活躍的時間需要考慮是直連還是通過數(shù)據(jù)庫中間件proxy連接。一般現(xiàn)在的生產(chǎn)環(huán)境大多為:
- App -> LVS -> Proxy -> DB
其中應(yīng)用到 RDS 的訪問路徑為 App -> LVS -> Proxy 。
其中,LVS 空閑連接保留時間為 90s。Proxy 為了避免訪問到已被關(guān)閉的連接,自身的空閑連接保留時間為 [70, 85) s。因此,應(yīng)用程序為了避免從連接池獲取到已被關(guān)閉的連接,應(yīng)當(dāng)設(shè)置自身保留空閑連接時間不能超過70s。打開KeepAlive之后的效果
- 初始化連接池時會填充到minIdle數(shù)量。
- 連接池中的minIdle數(shù)量以內(nèi)的連接,空閑時間超過
- minEvictableIdleTimeMillis,則會執(zhí)行keepAlive操作。
- 當(dāng)網(wǎng)絡(luò)斷開等原因產(chǎn)生的由ExceptionSorter檢測出來的死連接被清除后,自動補(bǔ)充連接到minIdle數(shù)量。
- timeBetweenEvictionRunsMillis=10000,
- minEvictableIdleTimeMillis=44000,
- maxEvictableIdleTimeMillis=55000。
2.4 必選配置項
以下默認(rèn)配置可以根據(jù)實際情況調(diào)整。
- <bean id="cartDataSource" class="com.alibaba.druid.pool.DruidDataSource"
- init-method="init" destroy-method="close">
- <property name="url" value="${cluster.jdbc.url}"/>
- <property name="username" value="${cluster.jdbc.username}"/>
- <property name="password" value="${cluster.jdbc.password}"/>
- <property name="connectionInitSqls" value="set names utf8mb4"/>
- <!-- 連接池初始連接數(shù) -->
- <property name="initialSize" value="5" />
- <!-- 允許的最大同時使用中(在被業(yè)務(wù)線程持有,還沒有歸還給druid) 的連接數(shù) -->
- <property name="maxActive" value="20" />
- <!-- 允許的最小空閑連接數(shù),空閑連接超時踢除過程會最少保留的連接數(shù) -->
- <property name="minIdle" value="5" />
- <!-- 從連接池獲取連接的最大等待時間 800毫秒;業(yè)務(wù)方根據(jù)可以自行調(diào)整-->
- <property name="maxWait" value="800" />
- <!-- 一條物理連接的最大存活時間 120分鐘-->
- <property name="phyTimeoutMillis" value="7200000"/>
- <!-- 強(qiáng)行關(guān)閉從連接池獲取而長時間未歸還給druid的連接(認(rèn)為異常連接)-->
- <property name="removeAbandoned" value="true"/>
- <!-- 異常連接判斷條件,超過180 秒 則認(rèn)為是異常的,需要強(qiáng)行關(guān)閉 -->
- <property name="removeAbandonedTimeout" value="180"/>
- <!-- 從連接池獲取到連接后,如果超過被空閑剔除周期,是否做一次連接有效性檢查 -->
- <property name="testWhileIdle" value="true"/>
- <!-- 從連接池獲取連接后,是否馬上執(zhí)行一次檢查 -->
- <property name="testOnBorrow" value="false"/>
- <!-- 歸還連接到連接池時是否馬上做一次檢查 -->
- <property name="testOnReturn" value="false"/>
- <!-- 連接有效性檢查的SQL -->
- <property name="validationQuery" value="SELECT 1"/>
- <!-- 連接有效性檢查的超時時間 1 秒 -->
- <property name="validationQueryTimeout" value="1"/>
- <!-- 周期性剔除長時間呆在池子里未被使用的空閑連接, 10秒一次-->
- <property name="timeBetweenEvictionRunsMillis" value="10000"/>
- <!-- 空閑多久可以認(rèn)為是空閑太長而需要剔除 44 秒-->
- <property name="minEvictableIdleTimeMillis" value="44000"/>
- <!-- 如果空閑時間太長即使連接池所剩連接 < minIdle 也會被剔除 55 秒 -->
- <property name="maxEvictableIdleTimeMillis" value="55000"/>
- <!-- 是否設(shè)置自動提交,相當(dāng)于每個語句一個事務(wù) -->
- <property name="defaultAutoCommit" value="true"/>
- <!-- 記錄被判定為異常的連接 -->
- <property name="logAbandoned" value="true"/>
- <!-- 網(wǎng)絡(luò)讀取超時,網(wǎng)絡(luò)連接超時
- socketTimeout : 對于線上業(yè)務(wù)小于5s,對于BI等執(zhí)行時間較長的業(yè)務(wù)的SQL,需要設(shè)置大一點
- -->
- <property name="connectionProperties" value="socketTimeout=3000;connectTimeout=1200"/>
- <property name="proxyFilters">
- <list>
- <ref bean="log-filter"/>
- </list>
- </property>
- </bean>
1.0.28版本之后,新加入keepAlive配置,缺省關(guān)閉。使用keepAlive功能,建議使用1.1.16或者更高版本。一般業(yè)務(wù)無需打開,除非分鐘請求量在個位數(shù)或者啟動時間超長導(dǎo)致初始連接都過期。
2.5 druid版本
建議使用最新版本,不要使用太老的版本,以免遇到 bug。
e.g. Maven 配置:
- <dependency>
- <groupId>com.alibaba</groupId>
- <artifactId>druid</artifactId>
- <version>1.0.27</version>
- </dependency>
三 小結(jié)
本文算是數(shù)據(jù)庫連接池配置(案例及排查指南) 的一個補(bǔ)充,希望對需要關(guān)注數(shù)據(jù)庫連接配置的朋友有所幫助。