Linux塊層多隊(duì)列之引入內(nèi)核
本文轉(zhuǎn)載自微信公眾號「相遇Linux」,作者JeffXie。轉(zhuǎn)載本文請聯(lián)系相遇Linux公眾號。
Linux塊設(shè)備多隊(duì)列機(jī)制在Linux3.13中引入,剛開始引入多隊(duì)列時(shí)是多隊(duì)列和單隊(duì)列并存。
想研究多隊(duì)列,當(dāng)然還是以原始patch的方式研究最靠譜了。
patch原始代碼:
git://git.kernel.org/pub/scm/linux/kernel/git/axboe/linux-block.git
分支:linux-block/v3.10-blk-mq
首先過目一下多隊(duì)列架構(gòu):
以讀IO為例,單隊(duì)列和多隊(duì)列相同的執(zhí)行路徑:
- read_pages()
- {
- ...
- blk_start_plug() /* 進(jìn)程準(zhǔn)備蓄流 */
- mapping->a_ops->readpages() /* 蓄流 */
- blk_finish_plug() /* 進(jìn)程開始泄流 */
- ...
- }
- io_schedule() 進(jìn)程蓄流之后等待io完成
- (在blk_mq_make_request()函數(shù)中request的數(shù)目大于或者等于16
- request_count >= BLK_MAX_REQUEST_COUNT
- 不需要調(diào)用io_schedule(),直接泄流到塊設(shè)備驅(qū)動)
mapping->a_ops->readpages() 會一直調(diào)用q->make_request_fn()
- generic_make_request()
- q->make_request_fn() 調(diào)用blk_queue_bio()或者
- 多隊(duì)列blk_queue_make_request()
- __elv_add_request()
為什么引入多隊(duì)列:多隊(duì)列相對與單隊(duì)列來說,每個(gè)cpu上都有一個(gè)軟隊(duì)列(使用blk_mq_ctx結(jié)構(gòu)表示)避免插入request的時(shí)候使用spinlock鎖,而且如今的高速存儲設(shè)備,比如支持nvme的ssd(小弟剛買了一塊,速度確實(shí)快),訪問延遲非常小,而且本身硬件就支持多隊(duì)列,(引入的多隊(duì)列使用每個(gè)硬件隊(duì)列
單隊(duì)列插入request時(shí)會使用request_queue上的全局spinlock鎖
- blk_queue_bio()
- {
- ...
- spin_lock_irq(q->queue_lock);
- elv_merge()
- spin_lock_irq(q->queue_lock);
- ...
- }
單隊(duì)列泄流到塊設(shè)備驅(qū)動時(shí)也是使用request_queue上的全局spinlock鎖:
- struct request_queue *blk_alloc_queue_node()
- INIT_DELAYED_WORK(&q->delay_work, blk_delay_work);
- blk_delay_work()
- __blk_run_queue()
- q->request_fn(q);
__blk_run_queue()函數(shù)必須在隊(duì)列鎖中,也就是spin_lock_irq(q->queue_lock);
- 281 * __blk_run_queue - run a single device queue
- 282 * @q: The queue to run
- 283 *
- 284 * Description:
- 285 * See @blk_run_queue. This variant must be called with the queue lock
- 286 * held and interrupts disabled.
- 287 */
- 288 void __blk_run_queue(struct request_queue *q)
- 289 {
- 290 if (unlikely(blk_queue_stopped(q)))
- 291 return;
- 292
- 293 __blk_run_queue_uncond(q);
- 294 }
多隊(duì)列插入request時(shí)沒有使用spinlock鎖:
- blk_mq_insert_requests()
- __blk_mq_insert_request()
- struct blk_mq_ctx *ctx = rq->mq_ctx; (每cpu上的blk_mq_ctx)
- list_add_tail(&rq->queuelist, &ctx->rq_list)
多隊(duì)列泄流到塊設(shè)備驅(qū)動也沒有使用spinlock鎖:
- static int blk_mq_init_hw_queues()
- INIT_DELAYED_WORK(&hctx->delayed_work, blk_mq_work_fn);
- 708 static void blk_mq_work_fn(struct work_struct *work)
- 709 {
- 710 struct blk_mq_hw_ctx *hctx;
- 711
- 712 hctx = container_of(work, struct blk_mq_hw_ctx, delayed_work.work);
- 713 __blk_mq_run_hw_queue(hctx);
- 714 }
- __blk_mq_run_hw_queue()
- 沒有spinlock鎖
- q->mq_ops->queue_rq(hctx, rq); 執(zhí)行多隊(duì)列上的->queue_rq()回調(diào)函數(shù)
從下圖可以看出系統(tǒng)使用多隊(duì)列之后的性能提升:
(我自己沒測試過性能,憑客觀想象應(yīng)該與下列圖相符:) )