Linux 中斷虛擬化之一
中斷是計(jì)算機(jī)系統(tǒng)中非常重要的部分,計(jì)算機(jī)基礎(chǔ)理論書籍往往也會(huì)花上很多篇幅討論中斷,但是因?yàn)椴僮飨到y(tǒng)都替開發(fā)人員處理好中斷了,所以除非是系統(tǒng)工程師,否則一般開發(fā)人員對(duì)中斷很難有一個(gè)很直觀的認(rèn)識(shí),因此理解如何通過(guò)軟件的方式來(lái)模擬中斷更是一個(gè)挑戰(zhàn)。
因此,在本章中,我們簡(jiǎn)單介紹硬件中斷的基本原理,然后結(jié)合中斷的基本原理討論如何虛擬化中斷芯片。我們從起初IBM PC為單核系統(tǒng)設(shè)計(jì)的PIC(8259A)機(jī)制開始,討論到為多核系統(tǒng)設(shè)計(jì)的APIC,一直到繞開I/O APIC、從設(shè)備直接向LAPIC發(fā)送基于消息的MSI機(jī)制。
中斷芯片可以在用戶空間中模擬,也可以在內(nèi)核空間模擬,但是因?yàn)橹袛嘈酒枰芗睾虶uest以及內(nèi)核中的KVM模塊交互,顯然在內(nèi)核空間模擬更合理,所以KVM在內(nèi)核中實(shí)現(xiàn)中斷芯片的模擬。最后,我們討論了為了提高效率,Intel是如何從硬件層面對(duì)虛擬化中斷進(jìn)行支持的,以及KVM是如何使用他們的。
虛擬中斷
在探討Guest模式的CPU處理中斷前,我們首先回顧一下物理CPU是如何響應(yīng)中斷的。當(dāng)操作系統(tǒng)允許CPU響應(yīng)中斷后,每當(dāng)執(zhí)行完一條指令后,CPU都將檢查中斷引腳是否有效,一旦有效,CPU將處理中斷,然后再執(zhí)行下一條指令,如圖3-1所示。
圖1 CPU處理中斷
當(dāng)有中斷需要CPU處理時(shí),中斷芯片將有效連接CPU的INTR引腳,也就是說(shuō)如果INTR是高電平有效,那么中斷芯片拉高INTR引腳的電平。CPU在執(zhí)行完一條指令后,將檢查INTR引腳。類似的,虛擬中斷也效仿這種機(jī)制,虛擬中斷芯片負(fù)責(zé)將與CPU的INTR引腳相連的“引腳”有效,然后在每次VM entry時(shí),KVM將檢查虛擬中端芯片的INTR“引腳”是否有效。對(duì)于軟件虛擬的中斷芯片而言,“引腳”只是一個(gè)變量。如果KVM發(fā)現(xiàn)虛擬中斷芯片有中斷請(qǐng)求,則向VMCS中VM-entry control部分的VM-entry interruption-informationfield字段注入中斷信息,然后Guest模式下的CPU將執(zhí)行Guest系統(tǒng)IDT中對(duì)應(yīng)的中斷處理服務(wù),圖3-2為單核系統(tǒng)使用PIC中斷芯片下的虛擬中斷過(guò)程。
圖2 基于PIC的虛擬中斷過(guò)程
具體步驟如下:
1)虛擬設(shè)備向虛擬中斷芯片PIC發(fā)送中斷請(qǐng)求,虛擬PIC記錄下虛擬設(shè)備的中斷信息。與物理的中斷過(guò)程不同,此時(shí)并不會(huì)觸發(fā)虛擬PIC芯片的中斷評(píng)估邏輯,而是在VM entry時(shí)進(jìn)行。
2)如果虛擬CPU處于睡眠狀態(tài),則喚醒虛擬CPU,即使虛擬CPU對(duì)應(yīng)的線程進(jìn)入物理CPU的就緒任務(wù)隊(duì)列,隨時(shí)可以準(zhǔn)備得到運(yùn)行機(jī)會(huì)。
3)當(dāng)虛擬CPU開始運(yùn)行時(shí),在其切入Guest前一刻,KVM模塊將檢查虛擬PIC芯片,查看是否有中斷需要處理。此時(shí),KVM將觸發(fā)虛擬PIC芯片的中斷評(píng)估邏輯。
4)一旦虛擬中斷芯片計(jì)算出有需要Guest處理的中斷,則將中斷信息注入到VMCS中的字段VM-entry interruption-information。
5)進(jìn)入Guest模式后,CPU將調(diào)用Guest IDT中相應(yīng)的中斷服務(wù)處理中斷。
PIC只能支持單處理器系統(tǒng),對(duì)于多處理器系統(tǒng),需要APIC支持。對(duì)于虛擬化而言,顯然也需要虛擬相應(yīng)的APIC,但是其本質(zhì)上與PIC基本相同,如圖3-3所示。
圖3 基于APIC的虛擬中斷過(guò)程
與單處理器情況相比,多處理器的虛擬中斷主要有2點(diǎn)不同:
1)在多處理器系統(tǒng)下,不同CPU之間需要收發(fā)中斷,因此,每個(gè)CPU分別需要關(guān)聯(lián)一個(gè)獨(dú)立的中斷芯片,這個(gè)中斷芯片稱為L(zhǎng)APIC。LAPIC不僅需要接收CPU之間核間中斷IPI(Inter-Processor Interrupt),還需要接收來(lái)自外設(shè)的中斷。外設(shè)的中斷引腳不可能連接到每個(gè)LAPIC上,因此,有一個(gè)統(tǒng)一的I/O APIC芯片負(fù)責(zé)連接外設(shè),如果一個(gè)I/O APIC引腳不夠用,系統(tǒng)中可以使用多個(gè)I/O APIC。LAPIC和I/O APIC都接到中斷總線上,通過(guò)總線進(jìn)行通信。所以在虛擬化場(chǎng)景下,需要虛擬LAPIC和I/O APIC兩個(gè)組件。
2)在多處理器情況下,僅僅是喚醒可能在睡眠的虛擬CPU線程還不夠,如果虛擬CPU是在另外一顆物理CPU上運(yùn)行于Guest模式,此時(shí)還需要向其發(fā)送IPI中斷,使目的CPU從Guest模式退出到Host模式,然后下一次VM entry時(shí),進(jìn)行中斷注入。
Guest模式的CPU和虛擬中斷芯片處于兩個(gè)世界,所以處于Guest模式的CPU不能檢查虛擬中斷芯片的引腳,只能在VM entry時(shí)由KVM模塊代為檢查,然后寫入到VMCS。所以,一旦有中斷需要注入,那么處于Guest模式的CPU一定需要VM exit,退出到Host模式,這是一個(gè)很大的開銷。
為了去除VM exit這個(gè)開銷,Intel在硬件層面對(duì)中斷虛擬化進(jìn)行了支持。LAPIC使用一個(gè)頁(yè)面大小內(nèi)存存儲(chǔ)寄存器,我們知道,當(dāng)Guest訪問(wèn)LAPIC這些寄存器時(shí),將導(dǎo)致VM exit,但是事實(shí)上,某些訪問(wèn)LAPIC的這些寄存器,并不需要VMM介入,所以也就無(wú)需VM exit,所以Intel實(shí)現(xiàn)了一個(gè)處于Guest模式的這樣的一個(gè)頁(yè)面,稱之為virtual-APIC page。除次之外,Intel還在Guest模式下實(shí)現(xiàn)了部分中斷芯片的邏輯,比如中斷評(píng)估,我們將其稱之為虛擬中斷邏輯,如圖4所示。
圖4 硬件虛擬化支持下的中斷虛擬化過(guò)程
Intel從硬件層面對(duì)虛擬化進(jìn)行了支持,實(shí)現(xiàn)了一個(gè)處于Guest模式的用于存儲(chǔ)中斷相關(guān)寄存器的virtual-APIC page。除次之外,Intel還在Guest模式下實(shí)現(xiàn)了部分中斷芯片的邏輯,用于中斷評(píng)估和遞交。
在此情況下,只要LAPIC收到中斷,其不必再等待下一次VM entry時(shí),被動(dòng)執(zhí)行中斷評(píng)估,而是主動(dòng)向處于Guest模式的CPU告知信息,這個(gè)位置就是posted-interrupt descriptor。如果目標(biāo)CPU處于Guest模式,則通過(guò)一個(gè)特殊的核間中斷posted-interrupt notification通知目標(biāo)CPU,從而觸發(fā)虛擬的中斷邏輯,其會(huì)在Guest模式下進(jìn)行評(píng)估評(píng)估并且向虛擬CPU遞交中斷,而無(wú)須再通過(guò)VM exit/VM entry的方式注入中斷。
在硬件虛擬化的支持下,在Guest模式下有了狀態(tài)和邏輯,就可以模擬很多中斷的行為,比如訪問(wèn)中斷寄存器、跟蹤中斷的狀態(tài)以及向CPU遞交中斷等。因此,很多中斷行為就無(wú)須VMM介入了,從而大大的減少了VM exit的次數(shù)。當(dāng)然有些寫中斷寄存器的操作是具有副作用的,比如通過(guò)寫icr寄存器發(fā)送IPI中斷,這時(shí)就需要觸發(fā)VM exit,由本地LAPIC向目標(biāo)LAPIC發(fā)送IPI中斷。
王柏生 資深技術(shù)專家,先后就職于中科院軟件所、紅旗Linux和百度,現(xiàn)任百度主任架構(gòu)師。在操作系統(tǒng)、虛擬化技術(shù)、分布式系統(tǒng)、云計(jì)算、自動(dòng)駕駛等相關(guān)領(lǐng)域耕耘多年,有著豐富的實(shí)踐經(jīng)驗(yàn)。著有暢銷書《深度探索Linux操作系統(tǒng)》(2013年出版)。
謝廣軍 計(jì)算機(jī)專業(yè)博士,畢業(yè)于南開大學(xué)計(jì)算機(jī)系。資深技術(shù)專家,多年的IT行業(yè)工作經(jīng)驗(yàn)?,F(xiàn)擔(dān)任百度智能云副總經(jīng)理,負(fù)責(zé)云計(jì)算相關(guān)產(chǎn)品的研發(fā)。多年來(lái)一直從事操作系統(tǒng)、虛擬化技術(shù)、分布式系統(tǒng)、大數(shù)據(jù)、云計(jì)算等相關(guān)領(lǐng)域的研發(fā)工作,實(shí)踐經(jīng)驗(yàn)豐富。
本文轉(zhuǎn)載自微信公眾號(hào)「Linux閱碼場(chǎng)」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系Linux閱碼場(chǎng)公眾號(hào)。