自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="dneiw"></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

CMU15445 數據庫系統(tǒng)實驗一：Buffer Pool Manager

作者：穆尼奧 2021-02-19 22:18:11

運維數據庫運維

本篇是實驗一，管理文件系統(tǒng)的頁在內存中的緩存 —— buffer pool manager。實驗的目標系統(tǒng) BusTub 是一個面向磁盤的 DBMS，但磁盤上的數據不支持字節(jié)粒度的訪問。

本文轉載自微信公眾號「分布式點滴」，作者穆尼奧。轉載本文請聯系分布式點滴公眾號。

本篇是實驗一，管理文件系統(tǒng)的頁在內存中的緩存 —— buffer pool manager。

概覽

實驗的目標系統(tǒng) BusTub 是一個面向磁盤的 DBMS，但磁盤上的數據不支持字節(jié)粒度的訪問。這就需要一個管理頁的中間層，但 Andy Pavlo 教授堅持不使用 mmap 將頁管理權力讓渡給操作系統(tǒng)，因此實驗一的目標便在于主動管理磁盤中的頁(page)在內存中的緩存，從而，最小化磁盤訪問次數(時間上)、最大化相關數據連續(xù)(空間上)。

該實驗可以分解為相對獨立的兩個子任務：

維護替換策略的：LRU replacement policy
管理緩沖池的：buffer pool manager

兩個組件都要求線程安全。

本文首先從基本概念、核心數據流總體分析下實驗內容，然后分別對兩個子任務進行梳理。

作者：青藤木鳥 https://www.qtmuniao.com/2021/02/10/cmu15445-project1-buffer-pool/, 轉載請注明出處

實驗分析

剛開始寫實驗代碼的時候，感覺細節(jié)很多，實現時很容易丟三落四。但隨著實現和思考的深入，漸漸摸清了全貌，發(fā)現只要明確幾個基本概念和核心數據流，便能夠提綱挈領。

基本概念

buffer pool 的操作的基本單位為一段邏輯連續(xù)的字節(jié)數組，在磁盤上表現為頁(page)，有唯一的標識 page_id;在內存中表現為幀(frame)，有唯一的標識 frame_id。為了記下哪些 frame 存的哪些 page，需要使用一個頁表(page table)。

下邊行文可能會混用 page 和 frame，因為這兩個概念都是 buffer pool 管理數據的基本單位，一般為 4k，其區(qū)別如下：

page id 是這一段單位數據的全局標識，而 frame id 只是在內存池(frame 數組)中索引某個 page 下標

page 在文件系統(tǒng)中是一段邏輯連續(xù)的字節(jié)數組;在內存中，我們會給其附加一些元信息：pin_count_，is_dirty_

基本概念

而管理幀的內存池大小一般來說是遠小于磁盤的，因此在內存池滿了后，再從磁盤加載新的頁到內存池，需要某種替換策略(replacer)將一些不再使用的頁踢出內存池以騰出空間。

核心數據流

先說結論，buffer pool manager 的實現核心，在于對內存池中所有 frame 的狀態(tài)的管理。因此，如果我們能梳理出 frame 的狀態(tài)機，便可以把握好核心數據流。

buffer pool 維護了一個 frame 數組，每個 frame 有三種狀態(tài)：

free：初始狀態(tài)，沒有存放任何 page
pinned：存放了 thread 正在使用的 page
unpinned：存放了 page，但 page 已經不再為任何 thread 所使用

而待實現函數：

FetchPageImpl(page_id) 
NewPageImpl(page_id) 
UnpinPageImpl(page_id, is_dirty) 
DeletePageImpl(page_id)

便是驅動狀態(tài)機中上述狀態(tài)發(fā)生改變的動作(action)，狀態(tài)機如下：

frame 狀態(tài)機

對應到實現時數據結構上：

保存 page 數據的 frame 數組為 pages_
所有 free frame 的索引(frame_id)保存在 free_list_ 中
所有 unpinned frame 的索引保存在 replacer_ 中
所有 pinned frame 索引和 unpinned frame 的索引保存在 page_table_ 中，并通過 page 中 pin_count_ 字段來區(qū)分兩個狀態(tài)。

上圖中，NewPage1 和 NewPage2 表示在 NewPage 函數中，每次獲取空閑 frame 時，會先去空閑列表(freelist_)中取一個 free frame，如果取不到，才會去 replacer_ 中驅逐一個 unpinned 的 frame 后使用。這體現了 buffer pool manager 實現的一個目標：最小化磁盤訪問，原因后面分析。

實驗組件

把握了本實驗的基本概念和核心數據流后，再來分析兩個子任務。

TASK #1 - LRU REPLACEMENT POLICY

以前在 LeetCode 上寫過相關實現，因此很自然的帶入之前經驗，但隨后發(fā)現這兩個接口有一些不同。

LeetCode 上提供的是 kv store 接口，在 get/set 的時候完成新老順序的維護，并在內存池滿后自動替換最老的 KV。

但本實驗提供的是 replacer 接口，維護一個 unpinned 的 frame_id 列表，在調用 Unpin 時將 frame_id 加入列表并維護新老順序、在調用 Pin 時將 frame_id 從列表中摘除、在調用Victim 的時候將最老的 frame_id 返回。

當然，本質上還是一樣，因此本實驗我也是采用 unordered_map 和 doubly linked list 的數據結構，實現細節(jié)不再贅述。需要注意的是，如果 Unpin 時發(fā)現 frame_id 已經在 replacer 中，則直接返回，并不改變列表的新老順序。因為邏輯上來說，同一個 frame_id，并不能被 Unpin多次，因此我們只需要考慮 frame_id 第一次 Unpin。

放到更大的語境中，本質上，replacer 就是一個維護了回收順序的回收站，即我們將所有 pin_count_ = 0 的 page 不直接從內存中刪除，而是放入回收站中。根據數據訪問的時間局部性原理，剛剛被訪問的 page 很可能再次被訪問，因此當我們不得不從回收站中真刪(Victim)一個 frame 時，需要刪最老的 frame。當之后我們想訪問一個剛加入回收站的數據時，只需要將 page 從這個回收站中撈出來，從而省去一次磁盤訪問，這也就達到了最小化磁盤訪問的目標。

TASK #2 - BUFFER POOL MANAGER

在實驗分析部分已經把核心邏輯說的差不多了，這里簡單羅列一下我實現中遇到的問題。

page_table_ 的范圍。在最初實現時，畫出 frame 的狀態(tài)機之后，感覺 page_table_ 中只放 pinned frame id 很完美：可以使 frame id 按狀態(tài)互斥的分布在 free_list_ 、 replacer_ 和 page_table_ 中。但后來發(fā)現，如果不將 unpinned frame id 保存在 page_table_ 中，就不能很好地復用 pin_count_ = 0 的 page 了，replacer 也就沒有了意義。

dirty page 的刷盤時機。有兩種策略，一種是每次 Unpin 的時候都刷，這樣會刷比較頻繁，但能保證異常掉電重啟后內容不丟;一種是在 replacer victimized 的時候 lazily 的刷，這樣能保證刷的次數最少。這是性能和可靠性取舍，僅考慮本實驗，兩者肯定都能過。

NewPage 不要讀盤。這個就是我寫的 bug 了，畢竟 NewPage 的時候，磁盤上根本沒有對應 page 的內容，因此會報如下錯誤：

2021-02-18 16:53:47 [autograder/bustub/src/storage/disk/disk_manager.cpp:121:ReadPage] DEBUG - Read less than a page 
2021-02-18 16:53:47 [autograder/bustub/src/storage/disk/disk_manager.cpp:108:ReadPage] DEBUG - I/O error reading past end of file

復用 frame 時清空元信息。在復用一個從 replacer 中驅逐的 frame 時尤其要注意，使用前一定要將 pin_count_\is_dirty_ 這些字段清空。當然，在 DeletePage 的時候，也需要注意將 page_id_ 置為 INVALID_PAGE_ID 、清空上述字段。否則，再次使用時，如果 pin_count_ 在 Unpin 后，數值不為 0，會導致 DeletePage 時刪不掉該 page。

鎖的粒度。最粗暴的就是每個函數范圍粒度加鎖即可，后期如果需要優(yōu)化，再將鎖的粒度變細。

實驗代碼

以 FetchPageImpl 為例強調下一些實現的細節(jié)，注意到，實驗已經通過注釋給出了實現框架。

我使用中文注釋注出了一些我認為需要注意的點。

Page *BufferPoolManager::FetchPageImpl(page_id_t page_id) { 
  // a. 使用自動獲取和釋放鎖 
  std::scoped_lock<std::mutex> lock(latch_); 
   
  // 1.     Search the page table for the requested page (P). 
  // 1.1    If P exists, pin it and return it immediately. 
  auto target = page_table_.find(page_id); // b. 判斷存在與訪問數據只用一次查找 
  if (target != page_table_.end()) { 
    frame_id_t frame_id = target->second; 
    // c. 通過指針運算獲取 frame_id 處存放的 Page 結構體 
    Page *p = pages_ + frame_id;  
    p->pin_count_++; 
    replacer_->Pin(frame_id); // d. 將對應 page 從“回收站”中撈出 
    return p; 
  } 
 
  // 1.2    If P does not exist, find a replacement page (R) from either the free list or the replacer. 
  //        Note that pages are always found from the free list first. 
  frame_id_t frame_id = -1;  
  Page *p = nullptr; 
  if (!free_list_.empty()) { 
    frame_id = free_list_.back(); // e. 在結尾處操作效率高一點 
    free_list_.pop_back(); 
    assert(frame_id >= 0 && frame_id < static_cast<int>(pool_size_)); 
    p = pages_ + frame_id; 
     
    // f. 從 freelist 中獲取的 dirty page 已經在 delete 時寫回了 
  } else { 
    bool victimized = replacer_->Victim(&frame_id); 
    if (!victimized) { 
      return nullptr; 
    } 
    assert(frame_id >= 0 && frame_id < static_cast<int>(pool_size_)); 
    p = pages_ + frame_id; 
 
    // 2.     If R is dirty, write it back to the disk. 
    if (p->IsDirty()) { 
      disk_manager_->WritePage(p->GetPageId(), p->GetData()); 
      p->is_dirty_ = false; 
    } 
    p->pin_count_ = 0; // g. 將元信息 pin_count_ 清空 
  } 
 
  // 3.     Delete R from the page table and insert P. 
  page_table_.erase(p->GetPageId()); // h. 時刻注意區(qū)分 p->GetPageId() 與 page_id 是否相等，別混用 
  page_table_[page_id] = frame_id; 
 
  // 4.     Update P's metadata, read in the page content from disk, and then return a pointer to P. 
  p->page_id_ = page_id; 
  p->ResetMemory(); 
  disk_manager_->ReadPage(page_id, p->GetData()); 
  p->pin_count_++; 
  return p; 
}

實驗相關 autograder 可以在 FAQ 中找到注冊地址和邀請碼，提交代碼的時候最好不要提交 github 倉庫地址，會有很多格式問題?？梢悦看伟凑諏嶒烅撁娴闹甘?，將相關文件按目錄結構達成 zip 包提交即可。

提交事項

仔細閱讀實驗描述，提交前需要注意的事項：

在 build 目錄運行 make format ，自動格式化。
在 build 目錄運行 make check-lint，檢查一些語法問題。
自己針對每個函數在本地設計一些測試，寫到相關文件(本實驗 buffer_pool_manager_test.cpp )中，并且打開測試開關，在 build 文件夾下，編譯 make buffer_pool_manager_test，運行 ./test/buffer_pool_manager_test

貼一個 project1 autograder 的實驗結果：

autograder 結果

小結

這是 cmu15445 第一個實驗，實現了在磁盤和內存間按需搬運頁(page)的 buffer pool manager。本實驗的關鍵之處在于把握基本概念，梳理出核心數據流，在此基礎上注意一些實現的細節(jié)即可。

責任編輯：武曉燕來源：分布式點滴

數據庫系統(tǒng)管理

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="hyflb"></sub>

<sub id="hyflb"></sub>