從Argo AI的倒下談起
?上星期發(fā)生了一件汽車圈里比較轟動的事情,那就是著名的獨角獸公司argo AI宣布關(guān)閉業(yè)務了。這家前些年紅得發(fā)紫的自動駕駛獨角獸企業(yè)有福特、大眾兩家汽車業(yè)巨頭的加持,最高時估值高安73億美金,而且其領(lǐng)頭大佬更是威名赫赫的Bryan Salesky和Peter Rander。從福田公司發(fā)布的公告上看,福田公司認為argo主要的業(yè)務方向是完全自主的自動駕駛,而從目前的情況來看,要再人流和車流涌動的現(xiàn)實世界實現(xiàn)完全自主的自動駕駛比登月還難。Argo實現(xiàn)營業(yè)目標遙遙無期,福田目前更需要的是能夠直接產(chǎn)生商用收益的L2/L3級別的智能輔助技術(shù),而不是完全自主的L4或者更高級別的自動駕駛。
Argo的倒閉有點突然,不過在IT圈里沒有太多人關(guān)注。實際上Argo的問題,會給IT圈里的創(chuàng)新領(lǐng)域一些警示。前些年AIOPS概念盛行的時候,IT圈里也有一些類似的狂熱,認為用AI解決運維中的難題的時代到來了。AI必然給運維領(lǐng)域帶來一些新的突破,自動駕駛將會在OPS領(lǐng)域更早的完成對傳統(tǒng)運維的替代。我也是在2017年,被AIOPS概念的沖擊下,決定從傳統(tǒng)運維領(lǐng)域向AIOPS轉(zhuǎn)型的。因為從2013年那次轟轟烈烈但是不甚成功的優(yōu)化項目開始,我就對傳統(tǒng)運維產(chǎn)生了一定的懷疑。
當時我負責一個大企業(yè)全國二十多個省的一個大型系統(tǒng)優(yōu)化項目,項目投資高達數(shù)千萬元。在此之前,我們在幾個試點省份都取得了不錯的效果。在一個省的核心業(yè)務系統(tǒng)優(yōu)化中,因為優(yōu)化效果十分明顯,該省在項目驗收會上認為原本計劃3500元升級硬件的項目不再需要了,優(yōu)化后的系統(tǒng)的原有硬件繼續(xù)用5年不成問題。
不過項目推廣開來之后,問題就層出不窮了。雖然我們事先針對前期的時點項目進行了深度的總結(jié),列出了一些最佳實踐,設(shè)計了數(shù)據(jù)采集、巡檢報告、診斷分析報告、優(yōu)化實施方案等的標準化文檔。但是為了按期完成項目,我們還是不得不在每個省都派出了工作小組。而這些小組中的人員的技術(shù)水平參差不齊,有些人甚至從來沒有做過優(yōu)化項目。雖然我們也將有經(jīng)驗的專家設(shè)置為區(qū)域支撐人員,不陷入某個具體項目,用于支持全局,但是效果依然不夠理想。
事后總結(jié)的時候,大家都認為項目做的不好的主要原因是專家不夠用,完全依靠人的能力的項目是很難大規(guī)模復制的。因此在2017年我們選擇進入AIOPS這個領(lǐng)域,實現(xiàn)未了的愿望。在技術(shù)選擇上,我們自然而然的選擇了完全自動駕駛這個技術(shù)路線。在2017年的一個活動上,我向來賓展示了我們系統(tǒng)的構(gòu)想模型。我們選擇了和高校合作的模式來解決在領(lǐng)域技術(shù)能力不足的問題,確實很快就找到了大致的發(fā)展方向。只不過做了一段時間后我們發(fā)現(xiàn)實驗室的理論效果在實際應用環(huán)境中總是脫節(jié)的。完全自動駕駛在實驗室似乎是行得通的,而實戰(zhàn)的效果往往不如人意。
在一個用戶那邊,領(lǐng)導看了我們的系統(tǒng)和我做了一次溝通。他的話讓我重新認識了我們目前在做的工作。他說我們目前的運維自動化水平還較低,實際上我們是需要自動化駕駛的,不過我覺得自動化駕駛不是一下子就能搞成的,因為任何一次誤判都是災難性的,無法承受的。既然如此,我們?yōu)槭裁床幌雀阋恍┌胱詣踊?,輔助性的工具呢?有些判斷做的不準,那么也沒關(guān)系,不是有你們這些老專家嗎?大不了我現(xiàn)場生成一份報告,讓你們的專家?guī)臀覀兎治霾痪托辛?,為什么非死磕自動駕駛呢?再說你們公司的優(yōu)勢是有那么強的專家隊伍,而不是搞算法的人,現(xiàn)在這個搞法,把你們的優(yōu)勢就完全丟了。
那位領(lǐng)導雖然不是DBA出身,不過他看問題看得很透測。以目前的技術(shù)能力,要想絕對準確的預測或者定位一個復雜的問題,技術(shù)能力的覆蓋還很不全面。我們目前做的所有的分析,診斷和預測僅僅是利用數(shù)學計算發(fā)現(xiàn)了一個異常而已。這個異常在ITOM里僅僅算是一個事件,而是不是一個確定的問題。事件上升為問題,要么依靠準確的模型計算,要么就要依靠人工確認。
實際上現(xiàn)在能夠通過模型和算法完全確認的事件還比較少,特別是想要做成一個通用產(chǎn)品,難度還是很大。哪怕是一個IO延時過高的問題,這到底會引發(fā)什么樣的問題?會不會引發(fā)問題?為什么同一個系統(tǒng),有時候IO延時高達100ms了,系統(tǒng)啥事沒有,有時候50ms系統(tǒng)就掛了?當模型和算法的能力還沒有達到一定水平的時候,我們還無法向用戶保證,你可以先睡一會,AIOPS來開車,保證不出車禍。那么我們完全可以通過算法和模型來降低人工分析的工作量,用AIOPS來輔助提高運維的生產(chǎn)力。
前陣子我們的系統(tǒng)在一個客戶那里做POC,跑了一段時間后,對接入的近30套系統(tǒng)做了一個自動化巡檢。把巡檢報告下載下來后,專家在遠程花了近一天時間幫用戶查看了這些巡檢報告,發(fā)現(xiàn)各類問題200多個,其中有二十幾個還是高風險的問題,在分析問題時,完全依靠的就是遠程生成的報告,并沒有再去系統(tǒng)上做任何采集和確認。用戶看到分析報告后也覺得這種模式可以大大提高運維分析的生產(chǎn)效率,讓巡檢工作從一個不得不做的雞肋變成真正的能夠幫助自己實現(xiàn)常態(tài)化優(yōu)化的生產(chǎn)力工具。
遠程巡檢讓我們看到了把巡檢工作實用化的希望,不過通過這次遠程巡檢分析,我們也發(fā)現(xiàn)了目前巡檢報告中的一些不足,很多時候,我們看到的是結(jié)論,而缺失了數(shù)據(jù)的羅列和數(shù)據(jù)的對比分析。這些診斷報告中的結(jié)論是否準確,是否合理,還是要打一些問號的。在全面自動化駕駛的技術(shù)條件還不具備的時候,輔助駕駛還是需要向使用者提供更多的反饋現(xiàn)實狀態(tài)的界面。在開車時,我不太喜歡使用自動輔助停車就是這個原因,雖然每次車停的都比我好,但是停車過程中那種人無法把控車輛的感覺十分的令人不爽。
回到Argo AI的倒下這個事件,我覺得福特做出了一個正確的決定。在未來5年內(nèi)看不到自動駕駛能獲得實際成功的情況下,把重點放在已經(jīng)能夠為用戶帶來更好駕駛體驗的輔助駕駛領(lǐng)域,是比較現(xiàn)實的做法。在AIOPS領(lǐng)域是不是也應該做一些思考,當真正實用的全自動化無法實現(xiàn)的時候,先幫助運維人員降低采集、分析、匯總數(shù)據(jù)的工作量,做好智能輔助,是不是更有價值呢??