自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里研究員:測試穩(wěn)定性三板斧,我怎么用?

開發(fā) 開發(fā)工具
如何治理測試穩(wěn)定性問題?很多人會說:環(huán)境、流程管控、監(jiān)控、工具化、加機器、專人負責、等等。

如何治理測試穩(wěn)定性問題?很多人會說:環(huán)境、流程管控、監(jiān)控、工具化、加機器、專人負責、等等。這些都是對的。不過這些都是解決方案層面的,而不是方法論和理論體系層面的。今天,阿里研究員鄭子穎來說說測試穩(wěn)定性的三板斧。據(jù)說,阿里同學們都非常認同這三板斧,看完文章感覺很多做的事情有了理論基礎。

1. 測試穩(wěn)定性問題

理想情況下,我們希望每一個失敗的測試用例[1]都是由真正的缺陷引起的。實際情況中,用例失敗的原因大多是一些其他的原因:

  • 某個服務的版本部署的不對
  • 測試執(zhí)行機的硬盤滿了,因為上次運行時寫的log沒清掉
  • 數(shù)據(jù)庫里有臟數(shù)據(jù)
  • 測試用例寫得有問題
  • 測試運行時有人手工執(zhí)行了一次定時任務,把流水撈走了
  • 消息串了
  • ...

每次排查都是一堆這種問題,時間久了,開發(fā)和測試同學也就疲了。有些同學對失敗的用例草草看一眼,就說這是一個“環(huán)境問題”,不再排查下去了。如此一來,很多真正的缺陷就被漏過了。

2. 測試穩(wěn)定性三板斧

如何治理測試穩(wěn)定性問題?很多人會說:環(huán)境、流程管控、監(jiān)控、工具化、加機器、專人負責、等等。這些都是對的。不過這些都是解決方案層面的,而不是方法論和理論體系層面的。

在方法論和理論體系層面,我們對安全生產(chǎn)有三板斧:可灰度、可監(jiān)控、可回滾。類似的,對于測試穩(wěn)定性,我也有三板斧:

  • 高頻(Frequency)
  • 隔離(Isolation)
  • 用完即拋(Disposable)

三板斧之一:高頻

"If it hurts, do it more often"是我說的最多的一句話之一。這句話從Martin Fowler那兒來的,有興趣的可以讀一下他的那篇“Frequency Reduces Difficulty”的原文。

高頻跑測試的好處是:

  • 縮短驗證的delay
  • 變主動驗證為“消極等待”
  • 識別intermittent的問題
  • 暴露各層面的不穩(wěn)定因素
  • 倒逼人肉環(huán)節(jié)的自動化
  • 提供更多的數(shù)據(jù)供分析
  • ...

高頻不單單是治理測試穩(wěn)定性的不二法門,也是治理其他工程問題的game changer:

  • 持續(xù)打包:以前只是在部署測試環(huán)境前才打包,經(jīng)常因為打包的問題導致部署花了很多時間,還影響了后面的測試進度。針對這個問題,我們做了持續(xù)打包,每個小時都會對master的HEAD打包,一旦遇到問題(例如:依賴的mvn包缺失、配置缺失、等等),馬上修復。
  • 天天上生產(chǎn):現(xiàn)在每周發(fā)一次生產(chǎn)環(huán)境,每次都費事費力。我提出能不能天天上生產(chǎn)。發(fā)布還是按照原來的節(jié)奏來,每周發(fā)一次新代碼,一周里的其余日子,就算沒有新代碼也要走一遍生產(chǎn)發(fā)布??辙D(zhuǎn)。不為別的,就是為了要用高頻來暴露問題、倒逼人肉環(huán)節(jié)的自動化、倒逼各種環(huán)節(jié)的優(yōu)化。
  • 分支合并很痛苦,那就頻繁合并,一天一次,一天多次。做到極致就變成了主干開發(fā),一直在rebase、一直在提交。

螞蟻的SRE團隊也是用的是高頻的思路。為了加強容災能力建設、提高容災演練的成功率,SRE團隊的一個主打思想就是要高頻演練,用高頻演練來充分暴露問題、倒逼能力建設。

高頻也不是那么容易做到的。

高頻需要基建保障。首先,高頻需要資源。高頻執(zhí)行還會給基建的各個方面造成前所未有的壓力。高頻還需要能力水平達到一定的基準。就拿SRE的高頻演練來說吧。如果每次演練還有很多問題,那是不可能搞高頻的。能高頻做演練的前提是我們的隔離機制、恢復能力已經(jīng)到一定的水平了。對于測試運行來說,高頻跑測試要收到效果,需要把隔離和用完即拋做好。

對于高頻跑測試,一個很常見的疑慮是:原來一天只跑一次,失敗的用例我已經(jīng)沒有時間一一排查了,現(xiàn)在高頻跑了,我豈不是更沒時間了?我的回答是:實際上,并不會這樣,因為開始高頻跑了以后,很快問題就會收斂的,所以總的需要排查的量可能是差不多的或者反而小了的。

 

三板斧之二:隔離

相比起三板斧里的其他兩個(高頻、用完即拋),隔離的重要性應該是比較被廣為接受的。隔離的好處包括:

  • 避免測試運行彼此影響,減少噪音。
  • 提高效率,執(zhí)行某些破壞性測試的時候不再需要相互協(xié)調(diào)

隔離無非是兩種:硬隔離、軟隔離。至于到底是走硬隔離路線,還是走軟隔離路線,要根據(jù)技術棧、架構、業(yè)務形態(tài)來具體分析。不過兩條道路都是能通往終局:

  • 硬隔離(全隔離環(huán)境、物理隔離)要成為終態(tài),關鍵是成本。要在不增加質(zhì)量盲區(qū)的前提下壓縮成本。例如,如果能把整個支付系統(tǒng)都壓縮在一臺服務器里面跑[2],而且所有的功能(包括中間件層面的,例如定時任務、消息訂閱、分庫分表規(guī)則等)都能很好的覆蓋,那是一個理想的終局。每個人都可以隨時搞幾套全量環(huán)境,那是很爽的。另外,對架構的拆分解耦(例如,我們做的按域獨立發(fā)布)是有助于降低硬隔離的成本的,可以把一整套被測系統(tǒng)部署的scope大大縮小。
  • 軟隔離(半共享環(huán)境,邏輯隔離,鏈路級別隔離)要成為終局,關鍵是隔離的效果。如果隔離做到完美了,就能把今天的聯(lián)調(diào)環(huán)境部署到生產(chǎn)環(huán)境里去跑。這樣,就不存在stable環(huán)境穩(wěn)定性的問題了。這樣,做到了真正的testing in production,也是個很理想的終局狀態(tài)。

這兩種終局狀態(tài),我在我以前的工作中都達到過。的確都能work的。這兩種隔離要通往終局,都是技術挑戰(zhàn)。壓縮成本是技術問題。邏輯隔離做徹底做牢靠也是技術問題。

對于我們今天的支付或電商系統(tǒng)來說,我們未來的終局是硬隔離還是軟隔離呢?現(xiàn)在還很難說。從技術可行性方面判斷,軟隔離更有可能成為我們的終局。硬隔離做到深水區(qū)以后就很難做了,因為會遇到架構的物理極限。突破架構的物理極限,有可能產(chǎn)生新的質(zhì)量盲區(qū)。但相當長的一段時間里,硬隔離會繼續(xù)對我們幫助很大。例如,我們要做各種非常規(guī)測試的時候,就需要硬隔離。軟隔離要做到能夠支持非常規(guī)測試,技術復雜度很高。從上個財年開始,我在我團隊搞一鍵拉全量測試環(huán)境(硬隔離)的原因就是:一鍵拉全量環(huán)境相對比較容易做,主要就是自動化,而基于路由的軟隔離方案一下子還不太ready,短期內(nèi)達到我們需要的隔離水平還很難。

硬隔離和軟隔離也不是對立的,是可以一起用的。例如,我們在拉起基于路由的隔離環(huán)境的時候,拉會新的數(shù)據(jù)庫。在數(shù)據(jù)庫層面是一種硬隔離,是對數(shù)據(jù)庫層面軟隔離能力欠缺的一種補充。

總之,隔離是必須的。采取何種隔離方案,要階段性的基于復雜度、成本、效果等因素的綜合考量。

 

三板斧之三:用完即拋

我最喜歡的另一句話是:Test environment is ephemeral。這句話是我原創(chuàng)的。Ephemeral的意思就是short-living,短暫的,短命的。我對我的QA團隊反復講這句話,希望同學們能在日常工作中時刻記得這個原則。

"Test environment is ephemeral"就意味著:

  1. 我們的test setup能力要很強。我們今天在搞的一鍵拉起環(huán)境,就是這種能力的一部分。而且setup起來以后,要能快速verify。
  2. 我們的test strategy、test plan、testability design和test automation,必須不依賴一個long living的測試環(huán)境。包括:不能依賴一個long living 的test environment里面的一些老數(shù)據(jù)。例如,Test automation必須能自己造數(shù)據(jù),造自己需要的所有的數(shù)據(jù)。

有了這些能力,能夠以零人力成本、非常快速且非常repeatable的從無到有建一套“開箱即用”的測試環(huán)境,能夠造出來測試需要的所有數(shù)據(jù),我們就能做到測試環(huán)境的用完即拋:要跑測試了就新建一個環(huán)境,測試跑完了就把環(huán)境銷毀掉。下次要用再建一個新的。而且,不單單是測試環(huán)境,測試執(zhí)行機也要用完即拋。

對于用完還需要保留一定時間的環(huán)境,也要設一個比較短的上限。例如,我以前采用過這樣的做法:

  • 聯(lián)調(diào)測試環(huán)境默認生命周期是7天。
  • 如果到時間還需要保留,可以延展有效期(expiration date)。每次展期最多可以展7天(相當于是 newExpDate = now + 7,而不是newExpDate = currentExpDate + 7)。
  • 最多可以展期到30天(從createDate開始算),需要30天以上的,需要特批(比如,事業(yè)群CTO)。
  • 這樣的好處就是倒逼。必須一刀切的倒逼,一開始會有點痛苦,但很快大家就會習慣的,自動化什么的很快就跟上了。不這么逼一逼,很多改進是不會發(fā)生的。

用完即拋的好處是:

  • 解決環(huán)境腐化問題,減少臟數(shù)據(jù)
  • 提高repeatability,確保每次測試運行的環(huán)境都是一致的
  • 倒逼各種優(yōu)化和自動化能力的建設(測試環(huán)境的準備、造數(shù)據(jù)、等等)
  • 提高資源使用的流動性。實際的物理資源不變的前提下,增加流動性就能增加實際容量。

測試環(huán)境用完即拋的確會引入一些新的質(zhì)量風險。如果有一套長期維護的環(huán)境,里面的數(shù)據(jù)是之前老版本的代碼生成的,部署了新版本代碼后,這些老數(shù)據(jù)是可以幫我們發(fā)現(xiàn)新代碼里面的數(shù)據(jù)兼容性問題的?,F(xiàn)在用完即拋,沒有老數(shù)據(jù)了,這些數(shù)據(jù)兼容性問題就可能無法發(fā)現(xiàn)。

這個風險的確是存在的。解決這個風向的思路是往前看,而不是往回退。我們要探索數(shù)據(jù)兼容性問題是否有其他的解法。有沒有其他的測試或者質(zhì)量保障手段。甚至要想一想,怎么做到“從測到不測”,把數(shù)據(jù)兼容性問題通過架構設計來消除掉,讓它不成為一個問題。

3. 落地

上面講的三板斧,高頻、隔離、用完即拋,的確是有點理想主義的。我們今天的基建、架構、自動化建設,離理想狀態(tài)還有不少差距的。

但我們就是要有那么一點的理想主義的。把這三板斧做好,技術上的挑戰(zhàn)是非常非常大的,但我們有樂觀主義,相信我們能夠達到目標。我們有現(xiàn)實主義,我們可以分解目標,結合實際情況,一步步的去做。

Note:[1] 這里的用例主要指的是功能性的測試用例,包括:unit test、單系統(tǒng)的接口測試、全鏈路/端到端的測試,等等。

[2] 這樣子做,實操層面的一個可能的負面影響是它可能會discourage微服務化治理(包括,域自治性,獨立測試、獨立發(fā)布能力等)。

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2024-12-04 11:09:10

2013-07-03 11:13:58

DevOps

2014-07-29 11:25:18

LinuxMySQL

2011-03-09 15:23:25

Windows Ser

2020-09-03 15:32:08

Wireshark數(shù)據(jù)包分析

2017-03-23 10:54:58

LINUXMYSQL優(yōu)化

2017-08-21 23:50:45

線上內(nèi)存OOM

2009-02-19 10:20:00

2012-11-08 16:05:23

2020-11-18 08:17:14

Java源碼Class

2020-03-09 13:37:49

Serverless無服務器騰訊云

2019-05-30 14:30:42

技術管理架構

2022-07-22 09:55:29

軟件工程師

2022-05-07 11:47:36

服務器架構

2023-10-09 07:24:58

數(shù)據(jù)穩(wěn)定性治理數(shù)據(jù)處理

2021-02-15 22:07:18

項目策略模式

2023-04-26 18:36:13

2019-08-13 16:23:19

JavaScript數(shù)組方法

2020-08-11 07:45:38

軟件測試

2020-08-10 09:14:50

軟件測試工具技術
點贊
收藏

51CTO技術棧公眾號