用戶態(tài)進(jìn)程如何得到虛擬地址對(duì)應(yīng)的物理地址?
一般我們不需要從用戶態(tài)得到進(jìn)程虛擬地址對(duì)應(yīng)的物理地址,因?yàn)橐话銇?lái)說(shuō)用戶進(jìn)程是完全不關(guān)心物理地址的。
少數(shù)應(yīng)用場(chǎng)景下,用戶可能會(huì)關(guān)心,比如在用戶態(tài)做DMA的場(chǎng)景(如DPDK之類的)。還有一些場(chǎng)景,比如想調(diào)試剖析每一頁(yè)的內(nèi)存占用情況,是否swap出去了等。
從用戶態(tài)得到虛擬地址對(duì)應(yīng)的物理地址,我們不可能去walk進(jìn)程的page table,也沒(méi)有權(quán)限。不過(guò)還好內(nèi)核給我們提供了一個(gè)接口,叫pagemap,而且,這個(gè)接口與硬件的體系架構(gòu)無(wú)關(guān)。在/proc/pid/下面有個(gè)文件叫pagemap,它會(huì)每個(gè)page,生成了一個(gè)64bit的描述符,來(lái)描述虛擬地址這一頁(yè)對(duì)應(yīng)的物理頁(yè)幀號(hào)或者SWAP里面的便宜,詳見(jiàn)文檔:
linux/Documentation/admin-guide/mm/pagemap.rst
這64bit的描述如下:
不同的體系架構(gòu)的MMU不同,頁(yè)表格式也不同,但是pagemap這個(gè)接口與具體頁(yè)表的格式無(wú)關(guān),可以說(shuō)都被抽象化了。
下面我們忽略swap的影響(假設(shè)關(guān)閉了swap或者page一直是pin的狀態(tài)),從DPDK抄一段虛擬地址轉(zhuǎn)換為物理地址的代碼:
- #define phys_addr_t uint64_t
- #define PFN_MASK_SIZE 8
- phys_addr_t
- rte_mem_virt2phy(const void *virtaddr)
- {
- int fd, retval;
- uint64_t page, physaddr;
- unsigned long virt_pfn;
- int page_size;
- off_t offset;
- /* standard page size */
- page_size = getpagesize();
- fd = open("/proc/self/pagemap", O_RDONLY);
- if (fd < 0) {
- ...
- }
- virt_pfn = (unsigned long)virtaddr / page_size;
- offset = sizeof(uint64_t) * virt_pfn;
- if (lseek(fd, offset, SEEK_SET) == (off_t) -1) {
- ...
- return -1;
- }
- retval = read(fd, &page, PFN_MASK_SIZE);
- close(fd);
- ...
- /*
- * the pfn (page frame number) are bits 0-54 (see
- * pagemap.txt in linux Documentation)
- */
- if ((page & 0x7fffffffffffffULL) == 0)
- return -1;
- physaddr = ((page & 0x7fffffffffffffULL) * page_size)
- + ((unsigned long)virtaddr % page_size);
- return physaddr;
- }
最后的一步是關(guān)鍵的計(jì)算過(guò)程:
- physaddr = ((page & 0x7fffffffffffffULL) * page_size)
- + ((unsigned long)virtaddr % page_size);
page & 0x7fffffffffffffULL取得了頁(yè)幀號(hào)(PFN),乘以頁(yè)的size得到這頁(yè)起始的物理地址,之后加上virtaddr % page_size的頁(yè)內(nèi)偏移,得到最終的物理地址。
我們來(lái)實(shí)操一下調(diào)用上面的函數(shù)完成地址轉(zhuǎn)化:
- int main(int argc, char *argv[])
- {
- uint8_t *p = malloc(1024 * 1024);
- *(p + 4096) = 10;
- printf("virt:%p phys:%p\n", p + 4096, rte_mem_virt2phy(p + 4096));
- *(p + 2 * 4096) = 10;
- printf("virt:%p phys:%p\n", p + 2 * 4096, rte_mem_virt2phy(p + 2 * 4096));
- }
運(yùn)行結(jié)果如下:
- ~$ sudo ./a.out
- virt:0x7f81e402a010 phys:0x2b601010
- virt:0x7f81e402b010 phys:0x3ceec010
內(nèi)核態(tài)實(shí)現(xiàn)pagemap proc接口的代碼位于:
- fs/proc/task_mmu.c
其中比較核心的函數(shù)是把PTE轉(zhuǎn)換為pagemap_entry的過(guò)程,有興趣的童鞋可以仔細(xì)閱讀下:
特別留意畫(huà)紅線的位置,可以知道pagemap里面的那些flag是怎么被置上的。
本文轉(zhuǎn)載自微信公眾號(hào)「Linux閱碼場(chǎng)」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系Linux閱碼場(chǎng)公眾號(hào)。