Vibe Coding 來(lái)了——但你準(zhǔn)備好應(yīng)對(duì) Vibe 故障處理了嗎? 原創(chuàng)
想象一下,完全沉浸在編程氛圍中,甚至忘記了代碼的存在。不用敲鍵盤(pán),只需讓 ??Cursor??? 和 ??Sonnet??? 幫你搞定一切。遇到 bug 時(shí),你不去排查問(wèn)題,而是把錯(cuò)誤信息丟給大語(yǔ)言模型(LLM )然后復(fù)制粘貼修復(fù)方案。代碼已經(jīng)超出你的理解范圍,但它居然還能正常運(yùn)行。這就是 OpenAI 創(chuàng)始成員 Andrej Karpathy 所說(shuō)的??Vibe Coding(氛圍編程)??。
Karpathy 把這描述為周末小項(xiàng)目的有趣嘗試,但現(xiàn)實(shí)中,Vibe Coding——大量依賴(lài) LLM 編寫(xiě)代碼——已經(jīng)大范圍出現(xiàn)。谷歌報(bào)告 ??AI 生成了其 25% 的新代碼???,在行業(yè)的許多領(lǐng)域,這個(gè)比例可能更高。很多人??爆料??說(shuō),包括 HubSpot 在內(nèi)的公司里的軟件工程師已不能自己寫(xiě)代碼,只能通過(guò)提示詞指導(dǎo) LLM。我認(rèn)為,Vibe Coding 是構(gòu)建軟件的未來(lái)。
但當(dāng) AI 生成的代碼在生產(chǎn)環(huán)境中出 bug 導(dǎo)致服務(wù)中斷時(shí)會(huì)怎樣?接下來(lái),我來(lái)探討這個(gè)問(wèn)題,并分享一些讓你的工程團(tuán)隊(duì)做好準(zhǔn)備的想法。
Vibe Coding 很有趣,但遇到服務(wù)中斷就沒(méi)那么好玩了
擁有熟悉代碼庫(kù)的技術(shù)高手至關(guān)重要。強(qiáng)大的工程組織會(huì)通過(guò)在團(tuán)隊(duì)成員間共享知識(shí),確保沒(méi)有工程師成為單點(diǎn)故障。
故障發(fā)生時(shí),通常會(huì)找來(lái)了解受影響部分的工程師快速解決問(wèn)題。但隨著越來(lái)越多的代碼由 LLM 生成,深入理解代碼庫(kù)的工程師會(huì)越來(lái)越少,這會(huì)讓服務(wù)中斷更難診斷和修復(fù)。
加州大學(xué)伯克利分校的博士生 Shreya Shankar 在一條廣受關(guān)注、瀏覽量超過(guò) 3 億的??每分鐘 14,000 美元??,團(tuán)隊(duì)可不能在解讀 LLM 寫(xiě)的代碼上浪費(fèi)時(shí)間。
Vibe Coding 遇上Vibe 故障處理
AI 生成的代碼不會(huì)消失,有 ??61% 的工程團(tuán)隊(duì)正在使用生成式 AI??,這一趨勢(shì)只會(huì)更強(qiáng)。下面是如何為未來(lái)的故障管理做準(zhǔn)備。
先用 AI 驅(qū)動(dòng)的故障管理工具,比如 ??Rootly??? 或 ??PagerDuty Advanced??。這些工具負(fù)責(zé)處理故障的后勤工作——自動(dòng)創(chuàng)建溝通渠道、為不同相關(guān)方起草更新,并管理事后分析。它們也開(kāi)始用 AI 將當(dāng)前故障與歷史案例匹配,幫你快速找到類(lèi)似情況及解決人員,從而縮短平均解決時(shí)間。
接著,升級(jí)你的故障修復(fù)方式。如果能用一個(gè)工具精確找出根本原因并提出修復(fù)方案,會(huì)怎樣?這正是新一代 LLM 驅(qū)動(dòng)的故障解決工具,也就是 AI-SRE 助手,像 ??Sentry AI??? 和 ??Datadog Bits AI??正在做的事情。
這些工具處理 SRE 通常會(huì)處理的數(shù)據(jù)——錯(cuò)誤日志、指標(biāo)、應(yīng)用跟蹤...同時(shí)還攝取非結(jié)構(gòu)化的人工生成數(shù)據(jù),如 Slack 討論、操作手冊(cè)和事后分析。它們能快速自動(dòng)分析根本原因,突出顯示觸發(fā)問(wèn)題的提交,可視化其對(duì)系統(tǒng)指標(biāo)的影響,并追蹤導(dǎo)致服務(wù)中斷的故障鏈。這樣,當(dāng)值班人員接到通知打開(kāi)電腦時(shí),根本原因分析已經(jīng)擺在眼前了。
更厲害的工具不僅診斷問(wèn)題,還提出解決方案。你可以在部署前審查、討論和批準(zhǔn)修復(fù)方案,或者讓工具自動(dòng)處理一切??梢岳斫猓恍┻\(yùn)維工程師對(duì)此持懷疑態(tài)度。如果 LLM 出現(xiàn)幻覺(jué)給出一個(gè)讓情況變得更糟的修復(fù)方案怎么辦?如果沒(méi)有回滾功能怎么辦?灰度部署變更可以降低風(fēng)險(xiǎn),但這只是眾多考慮因素之一。AI 驅(qū)動(dòng)的故障解決方案很有前途,但也帶來(lái)了一系列新挑戰(zhàn)。
不過(guò),自愈工具并不新鮮:它們至少已存在十多年了。Facebook 在 2011 年引入了 ??FBAR??? 來(lái)自動(dòng)化機(jī)架維護(hù)。Dropbox 在 2016 年推出了 ??Naru?? 來(lái)處理服務(wù)器故障、警報(bào)和修復(fù)。但這些是基于預(yù)定義規(guī)則的確定性系統(tǒng),顯著降低了出錯(cuò)的可能性。
在 LinkedIn 擔(dān)任高級(jí) SRE 期間,我??共同設(shè)計(jì)了一個(gè)用于分布式基礎(chǔ)設(shè)施的自愈機(jī)制???,該機(jī)制用機(jī)器學(xué)習(xí)進(jìn)行根本原因分析和修復(fù),盡管它從未完全實(shí)施。隨著 LLM 的興起,這種方法正在成為現(xiàn)實(shí),我很興奮能親眼見(jiàn)證。這一領(lǐng)域的公司正在取得實(shí)質(zhì)性進(jìn)展。競(jìng)爭(zhēng)越來(lái)越激烈。市場(chǎng)上至少有 20 家參與者,風(fēng)投資金源源不斷??涌入??。進(jìn)入 Vibe 故障處理時(shí)代!沒(méi)錯(cuò),這個(gè)詞是我剛編的。
打不過(guò)就加入
隨著生成式 AI 給開(kāi)發(fā)人員的工作效率帶來(lái)??顯著提升??,這一趨勢(shì)還越發(fā)明顯。那么為何不擁抱 Vibe 故障處理呢?當(dāng)服務(wù)中斷發(fā)生時(shí),只需悠閑地喝杯咖啡... 讓你的 AI-SRE 助手想辦法修復(fù)你那些 "Vibe Coding" 同事的 bug 吧。
原文標(biāo)題:??Vibe Coding Is Here — But Are You Ready for Incident Vibing??? ,作者:Sylvain Kalache
