自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

4個月16起!GitHub崩潰不止!

原創(chuàng) 精選
開源
作為承載著無數(shù)良心代碼的平臺和社區(qū),Github成為全球開發(fā)者的開源圣地,然而此次的服務中斷問題似乎點燃了用戶們對于Github時不時就“玩中斷”的不滿情緒。

51CTO讀者成長計劃社群招募,咨詢小助手(微信號:CTOjishuzhan)

撰稿 | 言征

四個月,16次中斷。Github真的惹惱了用戶了。

微軟旗下的GitHub為版本控制和協(xié)作提供了一個代碼托管平臺,在過去三個月發(fā)生了13起此類事件后,而就在剛剛過去的上周,該公司就發(fā)生三次服務中斷。

5月16日,GitHub首席安全官Mike Hanley發(fā)表了一篇博文《解決Github最近的可用性問題》中表示:“上周,GitHub發(fā)生了幾起可用性事件,包括長時間和短時間的可用性事件。此后,我們已經(jīng)緩解了這些事件,所有系統(tǒng)現(xiàn)在都正常運行?!?/p>

圖片

Hanley補充道:“這些事件的根本原因并不相關(guān),但總的來說,它們對組織和開發(fā)人員信任GitHub提供的服務產(chǎn)生了負面影響。這既不可接受,也不符合我們的標準?!?/p>

一、三起事件回溯及原因

該公司表示,這三起事件分別發(fā)生在5月9日、5月10日和5月11日,影響了GitHub提供的大部分關(guān)鍵服務。事件導致關(guān)鍵的GitHub服務中斷如下:

1.5月9日Git數(shù)據(jù)庫事件

日期:2023 年 5 月 9 日

事件:Git 數(shù)據(jù)庫因配置更改而降級

影響:10 個主要服務中有 8 個降級

據(jù)該公司稱,5月9日發(fā)生的事件由于配置更改而中斷了GitHub的數(shù)據(jù)庫。

Hanley在博客文章中表示:“5月9日,我們發(fā)生了一起事件,導致狀態(tài)門戶網(wǎng)站上的10項服務中有8項受到重大(紅色狀態(tài))停機的影響。大部分停機時間僅持續(xù)了一個多小時。”

圖片

Git 推送錯誤率:在 11:30 左右,錯誤率從零上升到大約 30,000。匯率繼續(xù)在 25,000 和 35,000 之間波動,直到 12:30 左右,此時它回落到零。

Hanley解釋說,在中斷時,許多服務無法讀取新寫入的Git數(shù)據(jù),導致了大范圍的故障,并補充說,中斷后,一些拉取請求和推送數(shù)據(jù)的事件后恢復時間延長了。

Hanley表示,此次中斷是由提供Git數(shù)據(jù)的內(nèi)部服務的配置更改引發(fā)的。

“這一更改旨在防止連接飽和,之前曾在Git后端的其他地方成功引入。推出后不久,集群發(fā)生了故障切換。我們恢復了配置更改,并在幾分鐘內(nèi)嘗試回滾,但由于內(nèi)部基礎設施錯誤,回滾失敗了?!?/p>

2.5 月 10 日 GitHub App auth token 事件

日期:2023 年 5 月 10 日

事件:GitHub App 身份驗證令牌頒發(fā)因負載下降

影響:10 個主要服務中有 6 個下降

5月10日發(fā)生的這起事件是由于GitHub的應用程序身份驗證令牌發(fā)布能力下降,十分之六的關(guān)鍵GitHub服務也受到了影響。

Hanley在博客文章中表示:“5月10日,提供GitHub應用程序身份驗證令牌的數(shù)據(jù)庫集群發(fā)現(xiàn)GitHub App權(quán)限的寫入延遲增加了7倍(狀態(tài)為黃色)。在此次事件的大部分時間里,這些身份驗證令牌請求的失敗率為8-15%,但在短時間內(nèi)達到了76%的峰值?!?/p>

5 月 10 日,為 GitHub 應用程序授權(quán)令牌提供服務的數(shù)據(jù)庫集群發(fā)現(xiàn) GitHub 應用程序權(quán)限(狀態(tài)黃色)的寫入延遲增加了 7 倍。在這一事件的大部分時間里,這些授權(quán)令牌請求的失敗率為 8-15%,但在短時間內(nèi)確實達到了 76% 的峰值。         

圖片

延遲隨時間變化的線圖:顯示從 5 月 10 日星期三中午 12 點 30 分到 5 月 11 日星期四午夜從零跳到“3e14”附近波動。峰值延遲在此期間有 5 次接近“1e15”。

首席安全官解釋說,令牌頒發(fā)問題是由于管理GitHub應用程序權(quán)限的API“執(zhí)行效率低下”造成的,并補充說該公司正在更新API以檢查安裝狀態(tài)的變化。

3.5月11日Git數(shù)據(jù)庫事件

日期:2023 年 5 月 11 日

事件:Git 數(shù)據(jù)庫因只讀副本丟失而降級

影響:10 個主要服務中有 8 個降級

該公司表示,由于讀取副本丟失,GitHub的數(shù)據(jù)庫于5月11日再次遭到攻擊。Hanley在博客文章中表示:“在Git數(shù)據(jù)庫事件中,Git讀寫是許多GitHub場景的核心,因此延遲和故障的增加導致GitHub Actions工作流無法提取數(shù)據(jù)或提取不更新的請求。”

圖片

隨著時間的推移成功操作的線圖,顯示大約 250 萬的典型值。該圖顯示在 13:30 下降到大約 150 萬次操作,隨后穩(wěn)步增加回到 250 萬次,并在 14:00 恢復正常。

二、為什么這些事件會影響其他 GitHub 服務?

在博客中,Hanley表示:“我們希望我們的服務能夠盡可能地適應失敗。分布式系統(tǒng)中的故障是不可避免的,但不應導致多個服務嚴重中斷。在所有這三起事件中,我們都看到了普遍的退化。在 Git 數(shù)據(jù)庫事件中,Git 讀寫是很多 GitHub 場景的核心,因此延遲和故障增加導致 GitHub Actions 工作流無法拉取數(shù)據(jù)或拉取請求不更新?!?/p>

此外,在 GitHub Apps 事件中,對令牌發(fā)布的影響也影響了依賴令牌運行的 GitHub 功能。這是 GitHub Actions 中每個 GITHUB_TOKEN 的來源,以及用于授予 GitHub Codespaces 訪問存儲庫的令牌。它們也是保護私有 GitHub 頁面訪問的方式。當令牌發(fā)行失敗時,GitHub Actions 和 GitHub Codespaces 無法訪問它們運行所需的數(shù)據(jù),因此無法啟動。

三、GitHub正在采取行動來避免類似事件

Hanley 表示,為了避免未來發(fā)生類似事件,公司正在幾個方面開展工作,例如仔細審查其內(nèi)部流程,并進行調(diào)整,以確保變動始終得到更安全的部署。

“當然,并非所有這些事件都是由生產(chǎn)變化引起的,但我們認為這是一個需要改進的領(lǐng)域”。

此外,Hanley補充道:“除了標準的事件后分析和審查外,我們正在分析這些事件對各服務的影響范圍,以確定在哪里可以減少未來類似故障的影響。”

同時,GitHub正在努力提高“高成本、低容量查詢模式”的可觀測性、快速診斷和緩解此類問題的通用能力。其他措施包括解決數(shù)據(jù)庫故障轉(zhuǎn)移問題,以確保故障轉(zhuǎn)移始終在沒有干預的情況下完全恢復,并了解多個Git數(shù)據(jù)庫崩潰事件。

作為Github公司對透明度承諾的一部分,將會在月度可用性報告中發(fā)布了導致 GitHub 服務性能下降的所有事件的摘要。“鑒于最近這些事件的范圍和持續(xù)時間,我們認為現(xiàn)在與社區(qū)一起解決這些問題很重要?!?/p>

Hanley表示,5 月的可用性報告將包括這些事件和更多相關(guān)的進一步細節(jié),以及關(guān)于提高 GitHub 可用性的進展的一般更新。

四、四個月持續(xù)發(fā)生服務性能下降事件

盡管github聲稱正在努力解決停機問題,但GitHub在過去四個月里持續(xù)發(fā)生了不少中斷事件,4月發(fā)生了4起,3月發(fā)生了6起,2月發(fā)生了3起。

圖片

五、用戶炸鍋了

一位Reddit用戶表示,對于Github的可用性問題由來已久,不僅僅是最近才有。Github或者其中的某些服務經(jīng)常出現(xiàn)故障,并對該公司根本不屑于寫任何關(guān)于問題的東西剛到吃驚?!癆ctions經(jīng)常崩潰,而他們與Codespaces的不斷停機是讓我的團隊遠離它的一個很大的動力。”此外,他還對于Github的狀態(tài)頁面事件歷史更新表示不滿。

圖片

有另一位網(wǎng)友回應:某云不更改狀態(tài)頁面的原因是因為這會引發(fā)一堆SLA積分和對客戶的補償。

也有不少網(wǎng)友附議:“每次我遇到代碼空間問題時,狀態(tài)頁面肯定也沒有顯示問題”、“我很清楚某些服務降級的頻率,在我們Slack的第三方狀態(tài)頻道中被發(fā)送垃圾郵件”、“哇,3月發(fā)生了20起事件,幾乎每個工作日發(fā)生一次”。

六、寫在最后

作為承載著無數(shù)良心代碼的平臺和社區(qū),Github成為全球開發(fā)者的開源圣地,然而此次的服務中斷問題似乎點燃了用戶們對于Github時不時就“玩中斷”的不滿情緒。

正如Hanley所說,分布式系統(tǒng)中的故障是不可避免的。但給到用戶的可用性承諾卻是要遵守的。如果不能保障這一點,那SLA(service-level agreement)也就變成了空頭支票,有何意義?

參考鏈接:

https://www.infoworld.com/article/3696279/github-owns-up-to-service-issues-multiple-outages.html

https://github.blog/2023-05-16-addressing-githubs-recent-availability-issues/

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2022-01-03 07:19:47

Google漏洞Chrome

2021-01-29 15:21:02

AI 數(shù)據(jù)人工智能

2020-09-04 11:30:06

深度學習編程人工智能

2021-09-14 13:49:32

開發(fā)技能工具

2020-10-23 10:53:06

iPhone 12蘋果降價

2020-09-23 13:41:07

GitHub源代碼

2018-02-06 15:15:16

程序員年終獎

2015-09-21 08:45:00

2019-05-08 14:45:21

Github區(qū)塊鏈技術(shù)

2021-01-04 07:45:56

特斯拉電動車ERP

2024-08-05 09:25:00

AI測評

2009-12-14 09:29:24

聯(lián)發(fā)科員工獎金

2020-11-24 09:45:17

刪庫程序員代碼

2021-12-06 11:38:22

松下漏洞數(shù)據(jù)泄露

2020-05-06 07:30:01

開源項目Github開源

2017-06-22 13:46:38

2023-01-03 15:36:44

點贊
收藏

51CTO技術(shù)棧公眾號