自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="cvhts"></sub>}

<sub id="cvhts"><rt id="cvhts"></rt></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

算法工程師福利：超實用技術路線圖

作者：字節(jié) 2020-08-24 09:01:07

新聞前端算法

這是一份寫給公司算法組同事們的技術路線圖，其目的主要是為大家在技術路線的成長方面提供一些方向指引，配套一些自我考核項，可以帶著實踐進行學習，加深理解和掌握。

這是一份寫給公司算法組同事們的技術路線圖，其目的主要是為大家在技術路線的成長方面提供一些方向指引，配套一些自我考核項，可以帶著實踐進行學習，加深理解和掌握。

內容上有一定的通用性，所以也分享到知乎上。歡迎大家給出建議，如有錯誤紕漏，還望不吝指正 :)

工程師能力層級概覽

對于不同級別的算法工程師技能要求，我們大致可以分成以下幾個層級：

初級：可以在一些指導和協(xié)助下獨立完成開發(fā)任務。具體到算法方面，需要你對于工具框架，建模技術，業(yè)務特性等方面有一定的了解，可以獨立實現(xiàn)一些算法項目上的需求。
中級：可以基本獨立完成一個項目的開發(fā)與交付。在初級工程師的基礎上，對于深入了解技術原理的要求會更高，并且能夠應對項目中各種復雜多變的挑戰(zhàn)，對于已有技術和工具進行改造適配。在整體工程化交付方面，對于代碼質量，架構設計，甚至項目管理方面的要求會開始顯現(xiàn)。另外從業(yè)務出發(fā)來評估技術選型和方案也變得尤為重要。
高級：可以獨立負責一條產(chǎn)品線的運作。在中級工程師的基礎上，需要更廣闊的技術視野與開拓創(chuàng)新能力，定義整個產(chǎn)品線的前進方向。解決問題已經(jīng)不是關鍵，更重要的是提出和定義問題，能夠打造出在業(yè)界具有領先性和差異性的產(chǎn)品，為公司創(chuàng)造更大的價值。

事實上對于不同層級的工程師，非技術部分的要求都有一定占比。本文主要聚焦在技術路線圖上，對于其他方面的學習進階路線不會做覆蓋。

閱讀建議

以下內容分工程基礎，算法基礎，算法工程交叉，工程深入方向，算法深入方向幾個部分，在各個部分內部會進一步區(qū)分一些主題。在各個主題內部，也是有深入程度的區(qū)別的，不過限于篇幅沒有進行詳細的說明。建議學習路線可以先把兩個基礎部分與工作中較為相關的內容做一個整體基礎的夯實，然后可以在后續(xù)交叉和深入方向的主題中選擇感興趣的進行深入了解和學習，過程中發(fā)現(xiàn)基礎部分欠缺的，可以再回到基礎部分查漏補缺，迭代前行。

工程基礎

編程語言

Python

Python 是算法工程師日常工作中最常用的語言，應該作為必須掌握的一門技術。大致的學習路線如下：

學習掌握 Python 的基本語法，可以通過各類入門教程來看，個人推薦《Learn Python the Hard Way》。
自我考核：能夠讀懂大多數(shù)的內部項目及一些開源項目代碼的基本模塊，例如 pandas, sklearn 等。
學習 Python 的編程風格，建議學習觀遠內部的 Python 代碼規(guī)范。
自我考核：編寫的代碼符合編碼規(guī)范，能夠通過各類 lint 檢查。
Python 進階，這方面有一本非常著名的書《Fluent Python》，深入介紹了 Python 內部的很多工作原理，讀完之后對于各類疑難問題的理解排查，以及語言高級特性的應用方面會很有幫助。另外動態(tài)語言元編程這塊，《Ruby 元編程》也是一本非常值得推薦的書。
自我考核：能夠讀懂一些復雜的 Python 項目，例如 sqlalchemy 中就大量使用了元編程技巧。在實際工程項目中，能夠找到一些應用高級技巧的點進行實踐，例如基于 Cython 的性能優(yōu)化等。
領域應用，Python 的應用相當廣泛，在各個領域深入下去都有很多可以學習的內容，比如 Web 開發(fā)，爬蟲，運維工具，數(shù)據(jù)處理，機器學習等。這塊主要就看大家各自的興趣來做自由選擇了，個人推薦熟悉了解一下 Python web 開發(fā)，測試開發(fā)相關的內容，開拓視野。
自我考核：以 Web 開發(fā)和測試開發(fā)為例，嘗試寫一個簡單的 model serving http 服務，并編寫相應的自動化測試。

Scala/Java

Java 目前是企業(yè)級開發(fā)中最常用的軟件，包括在大數(shù)據(jù)領域，也是應用最廣泛的語言，例如當年的 Hadoop 生態(tài)基本都是基于 Java 開發(fā)的。Scala 由于其函數(shù)式編程的特性，在做數(shù)據(jù)處理方面提供了非常方便的 API，也因為 Spark 等項目的火熱，形成了一定的流行度。在進行企業(yè)級的軟件開發(fā)，高性能，大規(guī)模數(shù)據(jù)處理等方面，JVM 上的這兩門語言有很大的實用價值，值得學習。

順帶一提，Scala 本身是一門非常有意思的語言，其中函數(shù)式編程的思想與設計模式又是非常大的一塊內容，對于拓寬視野，陶冶情操都是挺不錯的選擇。

考慮到算法工程師的工作內容屬性，這邊給出一個 Scala 的學習路線：

學習掌握 Scala 的基本語法，開發(fā)環(huán)境配置，項目編譯運行等基礎知識。這里推薦 Coursera 上 Martin Odersky 的課程，《快學 Scala》或《Programming in Scala》兩本書也可以搭配著瀏覽參考。
自我考核：能使用 Scala 來實現(xiàn)一些簡單算法問題，例如 DFS/BFS?；蛘呤褂?Scala 來處理一些日常數(shù)據(jù)工作，例如讀取日志文件，提取一些關鍵信息等。
學習使用 Scala 來開發(fā) Spark 應用，推薦 edX 上的《Big Data Analytics Using Spark》或者 Coursera 上的《Big Data Analytics with Scala and Spark》，另外有些相關書籍也可以參考，比如《Spark 快速大數(shù)據(jù)分析》等。
自我考核：能夠使用 Spark 的 Scala API 來進行大規(guī)模的數(shù)據(jù)分析及處理，完成 lag feature 之類的特征工程處理。
JVM 的原理學習，Scala/Java 都是 JVM 上運行的優(yōu)秀語言，其背后是一個非常大的生態(tài)，包括在 Web，Android，數(shù)據(jù)基礎架構等方面有廣泛的應用。JVM 相比 Python 虛擬機，發(fā)展更加成熟，有一套非常完善的 JDK 工具鏈及衍生的各類項目，便于開發(fā)者 debug，調優(yōu)應用。這方面推薦學習周志明的《深入理解 Java 虛擬機》。
自我考核：理解 JVM GC 原理，能通過 JDK 中相關工具或者優(yōu)秀的第三方工具如 arthas 等，排查分析 Spark 數(shù)據(jù)應用的資源使用情況，GC profiling，hot method profiling 等，進而進行參數(shù)優(yōu)化。
計算機語言理論。Programming Language 作為計算機科學的一個重要分支，包含了很多值得深入研究的主題，例如類型論，程序分析，泛型，元編程，DSL，編譯原理等。這方面的很多話題，在機器學習方面也有很多實際應用，比如 TVM 這類工作，涉及到大量編譯原理的應用，知乎大佬 “藍色” 也作為這個領域的專家在從事深度學習框架相關的工作。llvm, clang 作者 Chris Lattner 也加入 Google 主導了 Swift for Tensorflow 等工作。Scala 作為一門學術范非常強的語言，擁有極佳的 FP，元編程等能力支持，強大的類型系統(tǒng)包括自動推理，泛型等等高級語言特性，相對來說是一門非常 “值得” 學習的新語言，也是一個進入 PL 領域深入學習的 "gateway drug" :) 對這個方面有興趣的同學，可以考慮閱讀《Scala 函數(shù)式編程》，《冒號課堂》，以及 Coursera 上《Programming Languages》也是一門非常好的課程。另外只想做科普級了解的同學，也可以讀一讀著名的《黑客與畫家》感受一下。

C/C++/Rust

當前流行的算法框架，例如 TensorFlow, PyTorch, LightGBM 等，底層都是基于 C++ 為主要語言進行實現(xiàn)的。但是 C++ 本身過于復雜，使用場景也比較有限制，建議只需要達到能夠讀懂一些基礎的 C++ 代碼邏輯即可。在系統(tǒng)級開發(fā)領域，目前有一門新語言逐漸崛起，連續(xù)幾年被 StackOverflow 投票評選為程序員最喜愛的語言：Rust。從設計理念和一些業(yè)界應用（例如 TiKV）來看還是非常不錯的，但是我也沒有深入學習了解過，就不做具體推薦了。這方面建議的學習內容包括經(jīng)典的《The C Programming Language》以及 Rust 官方的：https://github.com/rust-lang/rustlings

自我考核：能夠讀懂 LightGBM 里對于 tweedie loss 的相關定義代碼。

操作系統(tǒng)

基本概念

我們所編寫的算法應用，都是通過操作系統(tǒng)的環(huán)境運行在物理硬件之上的。在實際運作過程中，會碰到不少相關的問題，例如為什么程序報了資源不足的錯誤，為什么 notebook 在瀏覽器里打不開，為什么進程 hang 住了沒有響應等等，都需要一些操作系統(tǒng)的知識來幫助理解和分析問題，最終排查解決。操作系統(tǒng)涵蓋的內容比較多，建議一開始只需要了解一些主要概念（例如硬件結構，CPU 調度，進程，線程，內存管理，文件系統(tǒng)，IO，網(wǎng)絡等），對于整體圖景有一些感覺即可。后續(xù)碰到了實際問題，可以再在各個部分深入學習展開。優(yōu)秀的學習資料也有很多，基本都是大部頭，重點推薦《深入理解計算機系統(tǒng)》，《Operating Systems: Three Easy Pieces》，以及《現(xiàn)代操作系統(tǒng)》。

自我考核：能夠基本明確運行一個模型訓練任務過程中，底層使用到的硬件，操作系統(tǒng)組件，及其交互運作的方式是如何的。

Linux 基礎

平時工作中最常用的兩個操作系統(tǒng) CentOS 和 macOS，都是 Unix/Linux 系的，因此學習掌握相關的基礎知識非常重要。一些必須掌握的知識點包括：Shell 與命令行工具，軟件包管理，用戶及權限，系統(tǒng)進程管理，文件系統(tǒng)基礎等。這方面的入門學習資料推薦《鳥哥的 Linux 私房菜》，基本涵蓋了 Linux 系統(tǒng)管理員需要掌握知識的方方面面。進階可以閱讀《Unix 環(huán)境高級編程》，對于各種系統(tǒng)調用的講解非常深入，可以為后續(xù)性能調優(yōu)等高級應用打下基礎。

自我考核：開發(fā)一個 shell 小工具，實現(xiàn)一些日常工作需求，例如定時自動清理數(shù)據(jù)文件夾中超過一定年齡的數(shù)據(jù)文件，自動清理內存占用較大且運行時間較久的 jupyter notebook 進程等。

深入應用

工作中碰到的疑難問題排查，性能分析與優(yōu)化，系統(tǒng)運維及穩(wěn)定性工程等方面，都需要較為深入的計算機體系和操作系統(tǒng)知識，感興趣的同學可以針對性的進行深入學習。以性能優(yōu)化為例，可以學習經(jīng)典的《性能之巔》，了解其中的原理及高級工具鏈。像其中的系統(tǒng)調用追蹤 (strace)，動態(tài)追蹤(systemtap, DTrace, perf, eBPF) 等技術，對于操作系統(tǒng)相關的問題排查都會很有幫助。

自我考核：能夠分析定位出 LightGBM 訓練過程中的性能瓶頸，精確到函數(shù)調用甚至代碼行號的級別。

軟件工程

算法與數(shù)據(jù)結構

暫時先把這塊放到軟件工程模塊下。這里指的算法是計算機科學中的經(jīng)典算法，例如遞歸，排序，搜索，動態(tài)規(guī)劃等，有別于我們常說的機器學習算法。這塊的學習資料網(wǎng)上有非常多，個人當年是通過普林斯頓的算法課 (需要有 Java 基礎) 入門，后來又上了斯坦福的算法分析與設計，開拓了一些視野。書籍方面推薦新手從《算法圖解》入門，然后可以考慮閱讀 Jeff Erickson 的《Algorithms》，或者選擇上面提到的網(wǎng)課。另外像《編程珠璣》，《編程之美》等也可以參閱，里面有不少問題的巧妙解法。除了從書本中學習，還可以直接去 LeetCode 等網(wǎng)站進行實戰(zhàn)操作進行練習提高。

自我考核：能夠設計相關的數(shù)據(jù)結構，實現(xiàn)一個類似 airflow 中點擊任意節(jié)點向后運行的功能。

代碼規(guī)范

從初級程序員到中高級程序員，其中比較大的一個差異就是代碼編寫習慣上，從一開始寫計算機能理解，能夠運行成功的代碼，逐漸演化到寫人能夠理解，易于修改與維護的代碼。在這條學習路徑上，首先需要建立起這方面的意識，然后需要在實戰(zhàn)中反復思考和打磨自己的代碼，評判和學習其它優(yōu)秀的項目代碼，才能逐漸精進。推薦的學習書籍有《編寫可讀代碼的藝術》，一本非常短小精悍的入門書籍，后續(xù)可以再慢慢閱讀那些經(jīng)典大部頭，例如《Clean Code》，《Code Complete》，《The Pragmatic Programmer》等。這方面 Python 也有一本比較針對性的書籍《Effective Python》，值得一讀。

自我考核：審視自己寫的項目代碼，能發(fā)現(xiàn)并修正至少三處不符合最佳編碼實踐的問題。

設計模式

在代碼架構方面，設計模式是一個重要的話題，對于日常工作中出現(xiàn)的許多典型場景，給出了一些解決方案的“套路”。這方面最著名的書當屬 GoF 的《設計模式》，不過個人并不十分推薦，尤其是以 Python 作為主要工作語言的話，其中很大部分的設計模式可能并不需要。入門可以瀏覽一下這個網(wǎng)站掌握一些基本概念：https://refactoringguru.cn/design-patterns/python ，后續(xù)可以考慮閱讀《Clean Architecture》，《重構》等相關數(shù)據(jù)，理解掌握在優(yōu)化代碼架構過程中思考的核心點，并加以運用。Python 相關的設計模式應用，還可以參考《Python in Practice》。

自我考核：在項目中，找到一處可以應用設計模式的地方，進行重構改進。

質量保障

對于需要實際上線運行的軟件工程，質量保障是非常重要的一個環(huán)節(jié)，能夠確保整個產(chǎn)品按照期望的方式進行運作。在機器學習項目中，由于引入了數(shù)據(jù)這個因素，相比傳統(tǒng)的軟件測試會有更高的難度，也是業(yè)界還在摸索前進的方向。建議可以先閱讀《單元測試的藝術》或《Google 軟件測試之道》，大致理解軟件測試的一些基本概念和運作方式，在此基礎上可以進一步閱讀 Martin Fowler 對于機器學習領域提出的 CD4ML 中相關的測試環(huán)節(jié)，學習 sklearn，LightGBM 等開源庫的測試開發(fā)方式，掌握機器學習相關的質量保障技術能力。

自我考核：在項目中，實現(xiàn)基礎的數(shù)據(jù)輸入測試，預測輸出測試。

項目管理

軟件工程推進過程中，項目管理相關的技能方法與工具運用也非常的關鍵。其中各種研發(fā)流程與規(guī)范，例如敏捷開發(fā)，設計評審，代碼評審，版本管控，任務看板管理等，都是實際項目推進中非常重要的知識技能點。這方面推薦學習一本經(jīng)典的軟件工程教材《構建之法》，了解軟件項目管理的方方面面。進一步來說廣義的項目管理上的很多知識點也是后續(xù)深入學習的方向，可以參考極客時間上的課程《項目管理實戰(zhàn) 20 講》。

自我考核：在某個負責項目中運用項目管理方法，完成一個實際的需求評估，項目規(guī)劃，設計與評審，開發(fā)執(zhí)行，項目上線，監(jiān)控維護流程，并對整個過程做復盤總結。

高級話題

軟件工程師在技能方向成長的一條路線就是成為軟件架構師，在這個方向上對于技能點會有非常高的綜合性要求，其中也有不少高級話題需要深入學習和了解，例如技術選型與系統(tǒng)架構設計，架構設計原則與模式，寬廣的研發(fā)知識視野，高性能，高可用，可擴展性，安全性等等。有興趣的同學可以了解一下極客時間的《從 0 開始學架構》這門課，逐漸培養(yǎng)這方面的視野與能力。另外如《微服務架構設計模式》還有領域驅動設計方面的一系列書籍也值得參考學習。

自我考核：設計一個算法項目 Docker 鏡像自動打包系統(tǒng)。

算法基礎

數(shù)據(jù)分析

數(shù)學基礎

在進行算法建模時，深入了解數(shù)據(jù)情況，做各類探索性分析，統(tǒng)計建模等工作非常重要，這方面對一些數(shù)學基礎知識有一定的要求，例如概率論，統(tǒng)計學等。這方面除了經(jīng)典的數(shù)學教材，也可以參考更程序員向的《統(tǒng)計思維》，《貝葉斯方法》，《程序員的數(shù)學 2》等書籍。

自我考核：理解實際項目中的數(shù)據(jù)分布情況，并使用統(tǒng)計建模手段，推斷預測值的置信區(qū)間。

可視化

在進行數(shù)據(jù)分析時，可視化是一個非常重要的手段，有助于我們快速理解數(shù)據(jù)情況，發(fā)掘數(shù)據(jù)規(guī)律，并排查異常點。對于各種不同類型的數(shù)據(jù)，會對應不同的可視化最佳實踐，如選擇不同的圖表類型，板式設計，分析思路編排，人機交互方式等等。另一方面，可視化與數(shù)據(jù)報告也是我們與不同角色人群溝通數(shù)據(jù) insights 的一個重要途徑，需要從業(yè)務角度出發(fā)去思考可視化與溝通方式。這方面可以參考《Storytelling with Data》，《The Visual Display of Quantitative Information》等經(jīng)典數(shù)據(jù)，同時也需要培養(yǎng)自己的商業(yè)背景 sense，提升溝通能力。

自我考核：對內溝通方面，能使用可視化技術，分析模型的 bad case 情況，并確定優(yōu)化改進方向。對外溝通方面，能獨立完成項目的數(shù)據(jù)分析溝通報告。

誤差分析與調優(yōu)

在做算法模型調優(yōu)改進中，需要從數(shù)據(jù)分析的基礎上出發(fā)來決定實驗方向，這么做有幾個好處：

從分析出發(fā)指導調優(yōu)更有方向性，而不是憑經(jīng)驗加個特征，改個參數(shù)碰運氣。哪怕是業(yè)務方提供的信息，也最好是有數(shù)據(jù)分析為前提再做嘗試，而不是當成一個既定事實。
由分析發(fā)現(xiàn)的根源問題，對于結果驗證也更有幫助。尤其在預測的數(shù)據(jù)量極大情況下，加一個單一特征很可能總體只有千分位準確率的提升，無法確定是天然波動還是真實的提升。但如果有分析的前提，那么我們可以有針對性的看對于這個已知問題，我們的調優(yōu)策略是否生效，而不是只看一個總體準確率。
對于問題的徹底排查解決也更有幫助，有時候結果沒有提升，不一定是特征沒用，也可能是特征代碼有 bug 之類的問題。帶著數(shù)據(jù)分析的目標去看為什么這個特征沒有效果，是模型沒學到還是特征沒有區(qū)分度等，有沒有改進方案，對于我們評判調優(yōu)嘗試是否成功的原因也更能徹查到底。
數(shù)據(jù)分析會幫助我們發(fā)現(xiàn)一些額外的問題點，比如銷量數(shù)據(jù)清洗處理是不是有問題，是不是業(yè)務本身有異常，需要剔除數(shù)據(jù)等。

這方面在業(yè)界有一些關于誤差分析的探索研究，不過大多數(shù)都是基于分類問題的，例如《Identifying Unknown Unknowns in the Open World》，《A Characterization of Prediction Errors》等。可以在了解這些研究的基礎上，結合具體的業(yè)務情況，深入思考總結誤差分析的思路與方法論。

自我考核：在項目中形成一套可以重復使用的誤差分析方案，能夠快速從預測輸出中定位到目前模型最重要的誤差類別，并一定程度上尋找到根本原因。

機器學習基礎

傳統(tǒng)機器學習

這塊大家應該都非常熟悉了，初階的學習路線可以參考周志華老師的《機器學習》，涵蓋了機器學習基礎，常用機器學習方法，和一些進階話題如學習理論，強化學習等。如果希望深化理論基礎，可以參考經(jīng)典的《PRML》，《ESL》和《統(tǒng)計學習方法》。在實戰(zhàn)中，需要綜合業(yè)務知識，算法原理，及數(shù)據(jù)分析等手段，逐漸積累形成建模調優(yōu)的方法論，提高整體實驗迭代的效率和成功率。

自我考核：結合實際業(yè)務和機器學習理論知識，挖掘項目中算法表現(xiàn)不夠好的問題，并通過算法改造進行提升或解決。

深度學習

近些年興起的深度學習，已經(jīng)成為機器學習領域一個非常重要的分支，在各個應用方向發(fā)揮了很大的作用。相對于傳統(tǒng)機器學習，對于特征工程要求的降低成了其核心優(yōu)勢。另一方面，深度學習對于大數(shù)據(jù)量，大規(guī)模算力的應用能力很強，也一定程度上提升了整體的產(chǎn)出效果。由于理論方面的研究稍顯落后，深度學習在實際應用中對于使用者的經(jīng)驗技能要求相對比較高，需要有大量的實戰(zhàn)經(jīng)驗才能達到比較理想的效果。這方面的學習資料推薦 Keras 作者的《Deep Learning with Python》，以及《Hands-on Machine Learning with Scikit-Learn and TensorFlow》，而在理論方面推薦著名的“花書”《Deep Learning》。在學習理論原理的基礎上，尤其要注意在實際算法應用中，能夠通過觀察各種指標與數(shù)據(jù)分析，找到提升模型的操作改進方向。

自我考核：能夠在實際項目中，使用深度學習模型，達到接近甚至超過傳統(tǒng) GBDT 模型的精確度效果，或者通過 ensemble，embedding 特征方式，提升已有模型的精度。

領域建模

目前我們的業(yè)務領域在時間序列預測，自然語言處理，推薦等方面，其它類似圖像，搜索，廣告等領域也都有各自的一些領域建模方法。在時間序列領域，包括了傳統(tǒng)時序模型，如 ARIMA, Prophet，機器學習模型，如劃動窗口特征構建方法結合 LightGBM，及深度學習模型，例如 LSTM，seq2seq，transformer 等。這方面可以參考 Kaggle 上相關比賽的方案分享，以及 Amazon，Uber，天貓等有類似業(yè)務場景公司的分享資料。其它領域也是類似，通過了解歷史技術演進，相關比賽，業(yè)界的方案分享與開源項目，會議論文來逐漸掌握學習建模方法，結合實際業(yè)務進行實踐嘗試，積累起更加體系性的個人知識技能。

自我考核：在項目中復現(xiàn)一個 Kaggle 獲勝方案，檢驗其效果，分析模型表現(xiàn)背后的原因，并嘗試進行改進。

算法框架

數(shù)據(jù)處理框架

在項目實施過程中，會需要各類復雜的數(shù)據(jù)處理操作，因此熟練掌握此類框架就顯得尤為重要。目前行業(yè)的標準基本上會參照 Pandas DataFrame 的定義，在數(shù)據(jù)量較大的情況下，也有許多類似的框架，如 Spark，Dask，Modin，Mars 等支持分布式運行的 DataFrame，以及 cuDF，Vaex 等提升單機性能的改進實現(xiàn)。這方面經(jīng)典的書籍可以參考 Wes McKinney 的《Python for Data Analysis》，在掌握基礎數(shù)據(jù)操作的基礎上，可以進而了解窗口函數(shù)，向量化性能優(yōu)化等高級話題。另外 SQL 也可以做非常復雜的數(shù)據(jù)處理工作，有不少公司例如阿里會以 SQL 為主來構建數(shù)據(jù)處理流程，感興趣的同學也可以學習一下 SQL 中各種高級計算的使用及優(yōu)化方法。

自我考核：在已有項目中，能把至少三個使用 apply 方法的 pandas 處理修改成向量化運行，并測試性能提升。使用 window function 或其它方案來實現(xiàn) lag 特征，減少 join 次數(shù)。

機器學習框架

機器學習方面的新框架層出不窮，一方面我們需要掌握經(jīng)典框架的使用方式，理解其模塊構成，接口規(guī)范的設計，一定程度上來說其它新框架也都需要遵循這些業(yè)界標準框架的模塊與接口定義。另一方面對于新框架或特定領域框架，我們需要掌握快速評估，上手使用，并且做一定改造適配的能力。一些比較經(jīng)典的框架有：

通用機器學習：scikit-learn，Spark ML，LightGBM
通用深度學習：Keras/TensorFlow，PyTorch
特征工程：tsfresh, Featuretools，F(xiàn)east
AutoML：hyperopt，SMAC3，nni，autogluon
可解釋機器學習：shap，aix360，eli5，interpret
異常檢測：pyod，egads
可視化：pyecharts，seaborn
數(shù)據(jù)質量：cerberus，pandas_profiling，Deequ
時間序列：fbprophet，sktime，pyts
大規(guī)模機器學習：Horovod，BigDL，mmlspark
Pipeline：MLflow, metaflow，KubeFlow，Hopsworks

一般的學習路徑主要是閱讀這些框架的官方文檔和 tutorial，在自己的項目中進行嘗試使用。對于一些核心接口，也可以閱讀一下相關的源代碼，深入理解其背后的原理。

自我考核：在 LightGBM 框架下，實現(xiàn)一個自定義的損失函數(shù)，并跑通訓練與預測流程。

其它框架

其它比較常見且與算法工程師日常工作會有一些聯(lián)系的有 Web 框架，爬蟲框架等，最具有代表性的當屬 Flask 和 scrapy。這兩者背后各自又是很大一塊領域，尤其 web 開發(fā)更是保羅萬象。感興趣的同學還可以了解一下一些新興的基于 Python3 的框架，例如 FastAPI，其背后借鑒的許多現(xiàn)代框架的思想設計，包括數(shù)據(jù)驗證，序列化，自動文檔，異步高性能等，開拓一下知識面。

自我考核：實現(xiàn)一個簡單的 model serving http 服務。

算法工程交叉

大規(guī)模算法運行

分布式訓練

在很多項目中，數(shù)據(jù)量達到十億級以上的情況下，單機訓練會難以支撐。因此分布式訓練也是實際工程落地中非常重要的一個主題。分布式訓練涉及到多機的通訊協(xié)同方式，優(yōu)化算法的改造，數(shù)據(jù)及模型的并行與聚合，以及框架的選擇和運維等話題，具體可以參考《分布式機器學習》。另外對于分布式系統(tǒng)，也可以參閱《數(shù)據(jù)密集型應用系統(tǒng)設計》這本神作，了解其背后原理。

自我考核：能夠在多機上進行億級數(shù)據(jù)的 GBDT 模型訓練與預測。

高性能計算

在做大規(guī)模的數(shù)據(jù)訓練與推理時，近些年涌現(xiàn)出許多高性能計算優(yōu)化的方法，例如從硬件方面，有各種超線程技術，向量化指令集，GPGPU，TPU 的應用等，從軟件方面，有針對數(shù)值計算場景的 OpenBLAS，有自動并行化的 OpenMP，有各種 codegen，JIT 技術下的運行時優(yōu)化等。這方面可以學習的方向也很多，從基礎的并行編程，編譯原理及優(yōu)化的知識開始，到 CUDA，OpenMP 的應用（例如 Nvidia 的 cuDNN，還有 LightGBM 中也用到了 OpenMP），Codegen，JIT 等技術在 Spark，TVM 等項目中的使用等，建議有深度性能優(yōu)化需求時可以往這些方向做調研和學習。

自我考核：能夠通過 LLVM JIT 來優(yōu)化實現(xiàn) Spark window function 的執(zhí)行性能。

模型加速領域

這個方向分兩個部分，一塊是模型訓練方面，能夠做到加速，例如使用大 batch size，遷移學習，持續(xù)的在線 / 增量學習等手段，另一塊在模型預測方面，也有很多加速需求，比如模型參數(shù)量優(yōu)化，模型壓縮，混合精度，知識蒸餾等技術手段，都是為了做到更高性能，更低資源消耗的模型預測推理。這方面業(yè)界有各個方向的文章和技術實現(xiàn)可以參考，比如經(jīng)典的《Training ImageNet in 1 Hour》，MobileNet，TensorRT，二值網(wǎng)絡等。

自我考核：在典型的銷量預測場景中實現(xiàn)增量訓練與預測。

MLOps

編排調度

包含各類 pipeline 的編排與調度能力的支持，包括數(shù)據(jù) pipeline，訓練 pipeline 和 serving pipeline 等。這方面比較常用的框架工具有 Airflow，DolphinScheduler，Cadence 等，需要掌握其基本的工作原理和使用方式，并能夠應用于離線實驗與線上運行。

自我考核：使用 Airflow 完成一個標準的項目 pipeline 搭建與運行。

數(shù)據(jù)集成

相對于傳統(tǒng)的 DevOps，機器學習項目最大的區(qū)別在于數(shù)據(jù)方面的依賴會更加顯著與重要。這方面的話題包括數(shù)據(jù)血緣，數(shù)據(jù)質量保障，數(shù)據(jù)版本控制等，有各類工具可以借鑒使用，例如數(shù)據(jù)版本管理方面的 DVC，數(shù)據(jù)質量方面的 TFX Data Validation，Cerberus，Deequ 等。在方法論層面，《The ML Test Score》中給出了不少數(shù)據(jù)相關的具體測試方法，值得參考學習。

自我考核：在項目中實現(xiàn)輸入數(shù)據(jù)的分布測試，特征工程測試及特征重要性準入測試。

實驗管理

這部分也是 ML 項目的獨特之處，在開發(fā)過程中有大量的實驗及相應的結果輸出需要記錄，以指導后續(xù)調整優(yōu)化的方向，并選擇最優(yōu)結果來進行上線部署。這方面可以參考的項目有 MLflow，fitlog，wandb 等。當然對于單獨的項目來說，可能 online Excel 就能滿足需求了 :)

自我考核：在實際項目中實行一套標準的實驗記錄手段，并能從中找出各類實驗嘗試帶來的精度提升的 top 5 分別是哪些操作。

Serving

目前我們的 serving 大多數(shù)是離線 batch 預計算的形式，所以主要依賴的技術手段是各類離線 inference 的方法，例如直接使用 model predict 接口，使用 mmlspark 等做大規(guī)模并行 inference 等。如果涉及到在線 serving，情況會更加復雜，例如在線 pipeline 的運行，實時特征獲取，low latency/high throughput 的 serving 服務等，可以參考 TF Serving，MLeap，H2O，PredictionIO，PMML/PFA/ONNX 等開發(fā)標準模型格式等。

自我考核：部署一個實時預測服務，能夠根據(jù)用戶輸入產(chǎn)生相應的預測結果。

CI/CD

軟件工程中的持續(xù)集成，持續(xù)部署已經(jīng)成為一種標準實踐，在算法項目中，額外引入了數(shù)據(jù)這個維度的復雜性，帶來了一些新的挑戰(zhàn)。在這個方向上，幾個主要話題包括自動化測試，pipeline 打包部署，持續(xù)監(jiān)控運維等，可以參考 Martin Fowler 關于 CD4ML 的文章。工具系統(tǒng)層面，可以學習傳統(tǒng)的 Jenkins，也有一些新選擇例如 CircleCI，GoCD，VerCD（Uber）等。

自我考核：通過 Jenkins 實現(xiàn) pipeline 自動測試，打包，上線流程。

系統(tǒng)監(jiān)控

在整個項目上線后，需要對系統(tǒng)的各個環(huán)節(jié)進行監(jiān)控，并對各種異常情況作出響應。例如輸入數(shù)據(jù)的監(jiān)控，判別測試數(shù)據(jù)與訓練數(shù)據(jù)的分布是否有偏移，整個運行 pipeline 的監(jiān)控，判別是否有運行失敗拋出異常的情況，對于預測輸出的監(jiān)控，確保沒有異常的預測輸出值，也包括對于系統(tǒng)計算資源等方面的監(jiān)控，確保不會因為資源不足導致業(yè)務受到影響等。在監(jiān)控信息收集，基礎上，還需要配套一系列的自動告警通知，日志追蹤排查等。這方面的工具框架包括 TF data validation 這類專門針對算法項目的新產(chǎn)品，也有 elasicsearch + kibana 這類傳統(tǒng)產(chǎn)品。

自我考核：將三個項目中做過的問題排查改造成常規(guī)監(jiān)控手段，支持自動的問題發(fā)現(xiàn)，告警通知，如有可能，提供自動化或半自動化的問題排查解決方案。

MLOps 系統(tǒng)

MLOps 整體是一個比較大的話題，在這方面有很多產(chǎn)品和系統(tǒng)設計方面的實踐可以參考學習。例如 Uber 的 Michelangelo 系列文章，F(xiàn)acebook 的 FBLearner，neptune.ai，dataiku，domino 等，雖然沒有開源，但是其背后的很多設計理念，演進思考，白皮書等都非常值得我們學習。在開源界也有很多可以參考的項目，例如 MLflow，Kubeflow，Metaflow，TFX 等，可以學習他們的設計理念，Roadmap，以及實現(xiàn)細節(jié)等。

自我考核：總結各個 MLOps 產(chǎn)品的功能模塊矩陣對比，能夠根據(jù)項目需求來進行產(chǎn)品選型與使用。

工程深入方向

數(shù)據(jù)庫

數(shù)據(jù)庫原理

在平時工作中，我們有大量的場景需要用到數(shù)據(jù)庫。從客戶數(shù)據(jù)的對接，數(shù)據(jù)集的管理和使用，到各種業(yè)務系統(tǒng)的數(shù)據(jù)表設計及優(yōu)化等，都需要對數(shù)據(jù)庫的運作原理，適用場景，運維使用，性能優(yōu)化等方面有一定的了解。常見的需要掌握的概念有 OLTP vs OLAP，事務，索引，隔離級別，ACID 與 CAP 理論，數(shù)據(jù)同步，數(shù)據(jù)分片，SQL 語法，ORM 等。從底層原理看，會涉及到數(shù)據(jù)，索引，及日志等存儲引擎方面，以及各種計算查詢引擎，包括分布式系統(tǒng)的設計與實現(xiàn)。這方面推薦的學習資料有《數(shù)據(jù)庫系統(tǒng)內幕》及《數(shù)據(jù)密集型應用系統(tǒng)設計》。

自我考核：能夠理解 SQL 執(zhí)行計劃，并能夠根據(jù)執(zhí)行計劃來做索引或查詢調優(yōu)。

關系型數(shù)據(jù)庫

目前常用的關系型數(shù)據(jù)庫主要是 MySQL 和 PostgreSQL，主要需要掌握的是日常的一些 SQL 操作，例如 DML（增刪改查），DDL（創(chuàng)建表，修改索引等），DCL（權限相關）。在此基礎上還可以進一步了解一些如數(shù)據(jù)類型，高級計算，存儲引擎，部署運維，范式概念與表結構設計等方面的話題。對于高級話題這塊，推薦《高性能 MySQL》與《高可用 MySQL》。

自我考核：在 MySQL 中設計相關表結構，存儲實際項目中的一系列中間數(shù)據(jù)集。

NoSQL 數(shù)據(jù)庫

常用的 NoSQL 數(shù)據(jù)庫有幾類，KV 存儲（Redis），文檔數(shù)據(jù)庫（MongoDB），Wide-column 存儲（Cassandra，HBase）以及圖數(shù)據(jù)庫（Neo4j）。在目前我們的算法項目中，比較有可能會用到的主要是 Redis 這類 KV 存儲（也可能把 Cassandra 之類當泛 KV 來用），或者更新一點的類似 Delta Lake 的存儲系統(tǒng)。建議學習了解一下這類 KV 存儲，以及分布式數(shù)據(jù)庫的常見操作方式，以及基礎的運維排查，性能優(yōu)化方法。

自我考核：考慮一個線上模型服務的場景，用戶輸入作為基礎特征，使用類似 Redis 的 KV 系統(tǒng)，實現(xiàn)實時獲取其它特征，并進行模型預測。

云計算

基礎架構

IT 系統(tǒng)總體的發(fā)展趨勢在往云計算方向演進，即使是自建的基礎設施，也會采用云計算的一套構建方式，讓開發(fā)者不用過多的關注底層計算存儲資源的部署運維。對于應用開發(fā)者來說，需要了解一些基礎架構方面的知識，例如各類虛擬化及容器技術，配置管理，容器編排等，便于在日常工作中使用相關技術來管理和發(fā)布應用。從工具層面看，Docker 與 k8s 等技術發(fā)展速度較快，主要還是根據(jù)官方文檔來學習為主。浙大之前出版的《Docker - 容器與容器云》一書中有一些更深入的話題的探討，另外《Kubernetes in Action》中也值得一讀。從方法論層面看，《Infrastructure as Code》和《Site Reiliability Engineering》是兩本非常不錯的學習資料。與算法應用結合的虛擬化，運維，持續(xù)集成等都是比較新的領域，需要我們探索出一條可行路線。

自我考核：對于已有的算法項目，總結制定一套開發(fā)，測試，發(fā)布，運維的標準流程，且盡可能自動化執(zhí)行。

分布式存儲

前些年最流行的分布式存儲是脫胎于 Google 經(jīng)典的 GFS 論文實現(xiàn)的 HDFS，不過隨著硬件技術的發(fā)展，計算存儲分離思想的逐漸興起，不但靈活性更高，成本更低，且各自架構的復雜度也大大降低了。因此目前更建議學習簡單的 object store 形式的分布式存儲，例如 s3，minio 等。在此基礎上的一些存儲系統(tǒng)，例如 Delta Lake，提供了事務，高效的 upsert，time travel 等功能，也值得關注與學習。原理方面，還是推薦《數(shù)據(jù)密集型應用設計》這本。

自我考核：在項目中實現(xiàn)不同機器能夠訪問同一個 s3 路徑的文件，并進行正常的數(shù)據(jù)讀寫，模型文件讀寫等功能。

分布式計算

大數(shù)據(jù)時代的分布式計算的鼻祖來自于 Google 經(jīng)典的 MapReduce 論文，后續(xù)在 Hadoop 系統(tǒng)中做了開源實現(xiàn)，在前幾年是非?；馃岬囊豁椉夹g。目前業(yè)界的主流是 Spark 和 Flink，前者在批處理計算中處于霸者地位，后者是流處理領域的領先者。目前我們的業(yè)務應用中，Spark 是比較常用的分布式計算引擎，其基本操作相關內容比較簡單，參考官方文檔或者《Spark 快速大數(shù)據(jù)分析》即可。后續(xù)的主要難點會有大數(shù)據(jù)量下的問題排查與性能調優(yōu)，執(zhí)行復雜計算或與 Python 相關 UDF 的交互配合方式等。這方面需要對 Spark 的系統(tǒng)架構，內部原理有一定了解，例如 master，worker，driver，executor 等之間的關系，lazy evaluation，DAG 的 lineage 與 stage 概念，shuffle 優(yōu)化，wholestage codegen 等技術細節(jié)。這方面暫時沒有找到比較好的資料，主要還是依賴實際問題解決的經(jīng)驗積累。

自我考核：用 Spark 來實現(xiàn)項目中的特征工程，并在一定數(shù)據(jù)量情況下取得比單機 Pandas 更好的性能效果。

其它話題

其它云服務基礎設施還包括分布式數(shù)據(jù)庫，消息隊列，zk/raft 分布式協(xié)作系統(tǒng)，虛擬網(wǎng)絡，負載均衡等。這些話題離算法應用方面會比較遠一些，基本上達到遇到需求時會使用的能力即可，在這里不做展開。

算法深入方向

AutoML

超參優(yōu)化

自動化機器學習中比較傳統(tǒng)的一塊是超參數(shù)優(yōu)化，進而可以推廣到整個 pipeline 的超參優(yōu)化，包括數(shù)據(jù)預處理，特征工程，特征選擇，模型選擇，模型調優(yōu)，后處理等部分。目前業(yè)界應用比較廣泛的技術手段主要是隨機搜索，貝葉斯優(yōu)化，進化算法，Hyperband/BOHB 等，在特征工程方面有 Featuretools，tsfresh，AutoCrossing 等自動化特征工程工具。學術界有一些進一步的探索研究，包括 multi-fidelity 優(yōu)化，多任務優(yōu)化，HPO 結合 ensemble learning，pipeline planning，data diff 自動數(shù)據(jù)分布探測等方面?？梢詤⒖?http://automl.org 上的各類參考資料與書籍進行學習了解。主要難點包括 automl 算法的泛化能力，scalability，整體 pipeline 組合的搜索與生成，針對不同學習算法的自動優(yōu)化手段等。

自我考核：了解超參優(yōu)化的基礎概念，能夠在項目中應用框架工具來實現(xiàn)模型超參的貝葉斯優(yōu)化流程。

元學習

Meta learning 是近年來非?；钴S的一個新興領域，其主要思路是希望能通過元學習模型方法，去積累建模調優(yōu)的先驗知識，跨任務推斷模型效果并 warm start 新的訓練任務，或者指導學習算法來進行更高效的具體任務的訓練過程。這方面在工業(yè)界的主要應用基本上集中在建模調優(yōu)先驗知識的積累方面，比如通過一系列公開數(shù)據(jù)集搜索尋找出表現(xiàn)較好的起始參數(shù)，用于指導在新任務上做超參優(yōu)化的起始搜索點。學術研究中除了 configuration space 的研究，還包括從 learning curve 中進行學習推斷，元特征提取與建模，HTN planning 在 pipeline 構建中的應用，以及 MAML 等 few-shot learning 方向的探索。這方面推薦 Lilian Weng 的一系列文章（https://lilianweng.github.io/lil-log/2018/11/30/meta-learning.html），以及 http://automl.org 網(wǎng)站上的資料。

自我考核：設計一系列 meta feature 與 meta learning 手段，實現(xiàn)對新任務的參數(shù)選擇的初始化。

NAS

AutoML 領域比較火，但也是比較特別的一個方向，目前需要大量的計算資源投入才能做這方面的研究與嘗試，因此主要建議了解一下這個方向的一些工作即可，不做深入探索學習。

AutoML 系統(tǒng)

自動化機器學習相關的框架工具也非常多，比較有代表性的框架有 auto-sklearn(來自 http://automl.org 團隊)，nni(microsoft)，auto-gluon(amazon)，H2O，ray tune 等，在工具級別也有如 hyperopt，SMAC3，featuretools 等?？梢酝ㄟ^學習這些工具框架，了解 AutoML 系統(tǒng)的架構與實現(xiàn)方式，并應用到實際項目中。

自我考核：使用一種 AutoML 系統(tǒng)來進行項目的模型自動優(yōu)化，并與手工優(yōu)化的結果進行比較，看是否有所提升，及尋找背后的原因。

模型解釋

模型解釋技術

主要有三個方面，一是模型本身的解釋性，例如線性回歸，決策樹等，模型結構簡單，根據(jù)其原理，可以直接對預測結果，特征使用等方面給出解釋。另外一些復雜模型，例如 EBM，神經(jīng)網(wǎng)絡，Bayesian rule lists，SLIMs 等，也可以利用一些本身的特性給出一些解釋，例如 GradCAM 方法等。二是模型無關的解釋方法，包括經(jīng)典的 PDP，ICE 等特征圖，LIME 等 surrogate model 方法，以及基于博弈論的 Shapley 方法。三是基于 sample 的解釋方法，例如 conterfactual explanations，adversarial examples，prototypes，influential instances，kNN 等，不過看起來這類方法對于計算的開銷一般都會比較大，不太容易在工程中實現(xiàn)落地。這方面的資料可以學習《Interpretable Machine Learning》和《Explainable AI》（關于深度學習的內容會更多）。另外學術界也有很多前沿探索，比如針對模型解釋的降維工作，自動的時間序列分析及報告生成，因果模型，模型公平性及社會影響等方面，可以保持關注。

自我考核：理解 LIME，Shapley 的運作原理，并分析其局限性，嘗試提出改進方案。

模型解釋應用

從工具框架方面，有許多可以使用的開源項目，例如微軟的 interpret，eli5，shap，AIX360 等。另外也有一些非傳統(tǒng)意義上的模型解釋，例如 manifold，tensorboard 這類模型 debugging 工具，自動化的誤差分析與模型改進方案，因果模型框架，模型公平性評估與糾正工具等，都可以涵蓋在廣義的模型解釋領域中。在工具基礎上，如何結合業(yè)務領域知識，給出更有針對性的解釋方案，也是值得思考深挖的方向。

自我考核：使用 shap，eli5 等工具來進行模型解釋，并在此基礎上形成面向開發(fā)者的模型 debug，誤差分析及改進方案，或形成面向業(yè)務的 what-if 分析看板。

總結

目前機器學習應用領域還在高速發(fā)展與演進過程中，除了上述提到的技能方向，后續(xù)很可能會不斷有新的主題引入進來，需要練就快速學習并應用落地的能力。在掌握前面編程，軟件工程，機器學習的基礎上，后半部分的研究方向，大家可以根據(jù)個人興趣，選擇幾個進行深入探索與實踐。僅閱讀相關書籍和文章，只能對知識內容有一個初步的認識，必須要通過深入的動手實踐，反復試錯思考和修正，才能逐漸內化為自己的技能，并構建起較為堅實的知識體系。

作者介紹

周遠（花名：字節(jié)），觀遠數(shù)據(jù)聯(lián)合創(chuàng)始人與首席數(shù)據(jù)科學家。致力于算法前沿技術在泛零售消費領域的應用落地，深度參與主導了多個 AI 項目在行業(yè)頭部，世界五百強客戶的應用和上線，也和團隊一起多次斬獲智能零售方向的 Hackathon 冠軍。曾就職于微策略，阿里云從事商業(yè)智能產(chǎn)品與云計算系統(tǒng)研發(fā)工作，擁有十多年的行業(yè)經(jīng)驗。目前研究興趣主要包括可解釋機器學習，AutoML 和大規(guī)模機器學習系統(tǒng)方向。

責任編輯：張燕妮來源：機器之心

算法開源技術

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<blockquote id="tjsmr"></blockquote>}

<cite id="tjsmr"><track id="tjsmr"></track></cite>

<sub id="tjsmr"><p id="tjsmr"></p></sub>

<style id="tjsmr"></style>