如何在2周內交付85%以上需求?阿里工程師這么做
在 什么是真正的敏捷開發(fā)?文章里,我們講述了什么是真正意義的敏捷開發(fā),如何去衡量。今天,阿里資深技術專家何勉老師,繼續(xù)帶領我們探索,如何以流動效率為抓手,提升持續(xù)交付的能力。
提升持續(xù)交付能力
最近我們在阿里內部做團隊效能改進時,提出了稱之為“2-1-1”的愿景,得到了不少部門的認可。什么是211呢?“2”指的是交付周期2周——85%以上的需求可以在2周內交付;第一個“1”指的是開發(fā)周期1周——85%以上的需求可以在1周內開發(fā)完成;第二個“1”指的是發(fā)布前置時間1小時——提交代碼后可以在1小時內完成發(fā)布。
今天,很多團隊離“211”還是有距離的,特別是這個“2”,它涉及到整個組織各職能,和部門的協調一致,緊密協作。一小時的發(fā)布前置時間,則需要持續(xù)交付流水線,產品架構體系和自動化測試、部署等有力保障。達成“211”并不容易,但它體現了組織提升持續(xù)交付和快速響應能力的目標,樹立了持續(xù)改進的方向,因此我們才把它作為愿景。
注:以上理念也將落地到研發(fā)工具云效(阿里內部叫Aone),從交付流程、交付結果、交付質量等數據也可在云效的度量功能中查看。
問題是我們如何才能達成這一目標呢?讓我們先看一幅漫畫。
這是一個酒吧,路燈下醉漢在找什么東西,很長時間過去了,警察一直看著他,終于忍不住走上前,問道:“你在找啥?”醉漢說:“找我的鑰匙。”警察看了一下鑰匙好像不在這,就問:“鑰匙是丟在這嗎?”醉漢說:“不是。”警察奇怪地問道:“那你為什么在這找?”醉漢回答道:“只有這兒能看到啊 。”
鑰匙(key)英文也有關鍵的意思。光照亮的地方卻不是關鍵所在。我講這個故事,是為了說明研發(fā)中一個常見的問題——在光照亮的地方,而不是關鍵所在的地方尋找答案,當然不會有結果。那研發(fā)過程的關鍵所在究竟在哪里呢?
《The Principles of product development flow》一書的作者Don指出:“在產品開發(fā)中,問題的關鍵幾乎從來不是停滯的資源,而是停滯的需求。”這是什么意思呢?產品開發(fā)的最終目的是交付價值,那我們就必須讓價值交付的過程順暢起來,也就是讓價值流動順暢起來。計劃、管理、協調活動,以及資源的配置等等,都應該服務于價值的流動。價值流動是目的,資源忙起來不是。
現實中我們更多關注資源是否停滯,人是否閑著,但真正的問題并不在這兒。真正的問題是需求的停滯,需求在各個階段的積壓——如分析階段、測試階段、發(fā)布階段等等。需求不能順暢流動才是真正的問題所在,也就是我們所說的關鍵所在。
為什么我們往往對需求的積壓很少關注?因為它很難看到,不是光照亮的地方。我們很難覺察(至少很難即時察覺)需求的停滯、積壓和返工,而那才是改進價值交付的關鍵所在。
要改進端到端的流程,我們必須看到價值端到端的流動過程,在哪里出現了積壓和停滯。為此,改進的第一步,就是要讓光照亮關鍵所在——可視化端到端的價值流動過程,基于價值流發(fā)現流動過程中的問題。
看一個例子,它是來自某個產品團隊看板??窗逯兴{色卡片的是需求。讓光照亮關鍵所在,就是要讓需求流動的端到端過程可視化。需求從“選擇”開始,所謂選擇是指從眾多的市場機會中選擇這些需求開始開發(fā)。選擇之后是流程中的其他階段,比如需求的設計、開發(fā)、測試、驗收等,直至發(fā)布,這是一個端到端的過程。
我們單獨看“開發(fā)中”這個階段,在這里需求被分解成為任務——圖中黃色紙條。任務與其所屬于的需求處于同一行中,我們把這樣的行稱為泳道。泳道的首列(藍色紙條)是需求,下屬任務(黃色卡片)按模塊組織在一起,如前端、后端或其他依賴的外部模塊,其中任務的最后一列代表完成狀態(tài),所有任務完成后,需求進入下一階段——待測試。
端到端可視化需求的流動過程,從需求被選擇開始,直到發(fā)布結束。這讓我們能即時看到問題,如:需求是否順暢流動,是否發(fā)生了停滯和積壓,是否有瓶頸。這就是所謂:光照亮了問題所在。
除此之外,我們還要保障價值流動的過程質量,把交付質量內建到開發(fā)過程中,而不是依賴最后環(huán)節(jié)的測試。為了做到內建質量,我們需要明確定義需求流動的標準,上圖顯示了需求進入開發(fā)環(huán)節(jié)要滿足的輸入標準,在這個例子中,它被定義為:
1)需求的用戶使用流程和驗收規(guī)則清晰定義;
2)依賴方能夠被識別;
3)大的需求拆分成在兩周以內或者一周以內的小需求,等等。
我們還可以定義其它階段的規(guī)則,如開發(fā)輸出(也就是轉測試)的規(guī)則。這也是照亮關鍵所在一部分。
照亮關鍵所在,看到需求端到端流動的過程,以及流動中的問題和瓶頸是第一步。更關鍵是看到問題后要怎樣做?以可視化端到端的價值流動為基礎,我們希望價值能夠順暢流動,從左到右,不要發(fā)生停滯和積壓。如何做到呢?讓我們再看一個故事。
圖中這位叫潘季馴,他是明朝治理黃河的水利專家,被稱為“千古治黃第一人”,我們今天要講的就是他治理黃河的故事。治黃河難,難在泥沙不斷淤積。清淤是治理黃河的傳統辦法,問題是清了又會淤,年復一年。大批的河工聚集,又為造反提供條件,元朝的覆滅就與之關系甚大。不治則生靈涂炭,治則勞民傷財,這是擺在歷代統治者面前的兩難決定,明朝也不例外。
嘉靖到萬歷年間潘季馴四次臨危受命治理黃河,取得前所未有的成效,并總結了切實可行的方略,其中最為重要的思想就是“束水攻沙”。什么是“束水攻沙”呢?潘季馴在治理黃河時既沒有蠻力清淤,也不是一味地加高、加寬河堤。他反其道而行,收窄河堤——在大堤(稱為遙堤)內再修筑一道更窄的堤(稱為縷堤),遙堤用以防潰,縷堤用以束水。河堤收窄了,水流的速度就會加快,將沉積的泥沙帶走,這就是所謂"束水攻沙"。
“束水攻沙”與產品開發(fā)有什么關系呢?“束水”加快了水的流速,也帶走了泥沙。對應的,產品開發(fā)中我們也要限制并行需求的數量,同樣是為了縮短需求從開始到完成的平均交付周期——加快流速,并即時發(fā)現和處理交付過程中的問題——帶走泥沙。我們來看具體的例子。
在上圖中,泳道數約束了并行需求的數目。并行需求減少,需求流動的速度隨之加快,從而縮短開發(fā)和交付周期。更重要的是,限制并行能更快暴露問題。有限泳道中的需求發(fā)生阻塞,很容易被發(fā)現。團隊必須盡快解決阻塞的問題,才能開始新的需求。而即時解決問題又促進了價值的順暢流動。
基于端到端的價值流,團隊可以更好地管理價值流動。以站會為例,團隊在站會上,會去審視需求的狀態(tài)。這里面有兩個策略,一種是從左向右審視,還有一個從右往左審視,大家認為哪個合適?對,大家都說從右往左。為什么呢?因為我們應該聚焦于完成而不是開始,我們應該聚焦于盡快地交付,比如測試中的需求是不是有缺陷,并優(yōu)先解決這些缺陷,好讓需求盡快上線;開發(fā)中的需求,有沒有阻礙,并即時解決這些阻礙,完成它們。只有這樣,新的等待開發(fā)的需求才能夠開始。
站會的核心是通過審視價值流動,關注需求流動中的缺陷、阻礙、停滯、等待和瓶頸,即時發(fā)現和解決這些問題,促進需求更流暢流動。站會只是一個例子,圍繞看板的其他活動,比如說度量數據分析和改進行動的制定,都是為了促進價值流動,而價值的順暢流動是響應能力、質量和效率的保障。
(此電子看板截圖來自阿里云云效)
上面舉例用的都是物理看板,是為了讓大家更有體感?,F在絕大部分團隊,不管是阿里云,技術中臺還是閑魚,用的都是云效電子看板。經過持續(xù)的優(yōu)化,電子看板操作體驗已經與物理看板接近。并且具備物理看板不具備的優(yōu)勢,比如:前面講到的數據度量都可以自動生成,這對于發(fā)現問題和改進很有意義,還有就是與其他系統如文檔和發(fā)布工具的無縫集成。這是優(yōu)酷電子看板的截圖。
看板幫助團隊暴露問題,具體的改進行動還是要落實到不同方面的。我們可以用湖水巖石效應來描述這一過程。這是一個湖,湖里有一些石頭。湖水比較深時,石頭都隱藏在湖面之下,但其影響是在的;當湖面降低,石頭就會漸次暴露出來。
在產品開發(fā)中,石頭暗喻的是問題,而湖水的深度暗喻交付周期長短(或并行需求的數目)。當需求的交付周期長時,問題被隱藏,我們看到的是平整的水面。只有水位降低,問題才會暴露。
以某個中間件團隊的效能改進過程為例。他們原先采用小瀑布的模式,沒有持續(xù)集成和有效自動化,以月度為周期交付產品,需求在月初集中開始,在月底集中轉測試和發(fā)布,對外交付質量和效率一直不讓人滿意,內部的協作也有很多問題,每次發(fā)布都異常痛苦,延期的情況時有發(fā)生,但大家對問題根源和解決方案卻各執(zhí)一詞。
在精益和敏捷開發(fā)實施過程中,我們首先做的是可視化價值流動,并以此為基礎逐步減小并行需求的數目,力求需求的持續(xù)流動——持續(xù)小批量的輸入、開發(fā)、轉測試和交付。在減小批量的過程中,問題逐漸暴露。
在這個案例中,為了做到小批量的流動,首先暴露的是需求分析和拆分的問題,也就是如何將需求拆分成可以獨立測試、驗證和交付的小的單元。通過引入“實例化需求”(一種需求澄清、分析和拆分的方法)等方法,這一問題得到了解決,開發(fā)和測試移交的批量明顯減小了。
很快新的問題又出現了,測試環(huán)境或移交給測試的版本總是不可用,需求還是不能順暢流動,這時持續(xù)交付流水線的建設的重要性就凸顯出來。當然持續(xù)交付流水線的建設也并不是一步實現的,一開始我們只是打通了管道,并引入了最基本的自動驗證,保證測試隨時都有一個可用的環(huán)境和版本可用。接下來才是自動化對關鍵功能的覆蓋。在其后組織協調溝通,技術架構等問題也漸次暴露。
過程中,我們感受到最大的好處是,盡管解決問題的過程還是比較痛苦,但我們可以集中精力一個時間解決一個被暴露的真實問題,而解決它們也會帶來立即可感知的受益,這大大提升了團隊持續(xù)投入解決問題的動力。
這個團隊,多年未能解決的問題,在短短三、四個月內被一一解決,在沒有投入額外資源的情況下,研發(fā)效能得到根本改善,質量、響應能力都有了質的提升。我對此也深有感觸——研發(fā)效能改進實踐的技術難度,并不比我們平時做的業(yè)務系統難。但為什么總是得不到實施呢?這個團隊有做對了什么。
這里面的根本問題不是能力問題,也不是意識和態(tài)度問題。更重要的是:要讓團隊看見問題,并且提供合適的路徑,一個時間解決一個問題,并且解決問題后要能看到立即的想過。
核心有兩個:
第一:“看見”,它的關鍵是看見系統,看見價值的端到端流動,以此為基礎看到問題和改進機會;
第二:“路徑”,它的關鍵是小步快走,但每一步都要有可感知的成果。
圖中巖石的高低,從概念上反映了隨著并行的降低,問題逐漸暴露的大致順序。對不同的團隊,問題和次序會不同。但相同的是,通過水位的降低,問題被漸次暴露和解決,產品交付的響應能力、效率和質量也會得到提升。我們的目標并不是要把水位降到最低,而是要發(fā)現問題,讓需求能以較小的粒度順暢流動,實現順暢和高質量和持續(xù)的交付價值。
總結一下持續(xù)交付實踐。它關注從需求到開發(fā)、測試直至部署和運維這些環(huán)節(jié)。它的目標可以總結為兩個:
第一:讓價值順暢流動,這個我們已經講了很多。之前講的實踐都能促進價值的順暢流動,如:看板、反饋改進這些管理實踐,故事地圖、驗收測試驅動開發(fā)這類技術實踐。
第二:讓流動過程更加高效,這個我們前面沒有強調。補充一下,其核心是讓團隊成員只需要關注帶來真正價值的業(yè)務邏輯,而不需要在其他工作上花費過多時間。
我們看看除了業(yè)務邏輯,團隊還會被那些工作影響?又如何減少這些工作?這里我們列舉了其中的一些:
可靠的交付流水線:讓團隊不用擔心驗證和部署的環(huán)境,步驟及流程。
容器技術(如Docker):讓團隊不必過多考慮構建分發(fā)及運行環(huán)境的問題。
Kubernetes:讓團隊不用過多考慮容器應用的部署、運行、擴縮容等工作。
Sevice Mesh:讓團隊不用過多考慮分布式服務的通信。
Severless:讓團隊不用過多考慮服務器的實體資源。
…
持續(xù)交付價值的能力是互聯網時代研發(fā)效能的核心。我們介紹了提升持續(xù)交付能力的度量,以及以流動效率為抓手提升持續(xù)交付能力的實踐和路徑。
問題是,建立了持續(xù)交付能力就可以保證業(yè)務的成功嗎?顯然不是。持續(xù)交付能力是快速交付價值、獲取反饋并靈活調整的基礎。我們還必須以把持續(xù)交付能力轉化為有效的業(yè)務創(chuàng)新,帶來真正的業(yè)務成功。
【本文為51CTO專欄作者“阿里巴巴官方技術”原創(chuàng)稿件,轉載請聯系原作者】