自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一日千星的「機器學習系統(tǒng)設計指南」,這個英偉達小姐姐的項目火了

新聞 機器學習
今年 8 月份,畢業(yè)于斯坦福、現(xiàn)就職于英偉達人工智能應用團隊的一位小姐姐在推特上列出了十大優(yōu)質的免費機器學習課程資源,并將它們串成了一條高效的學習路線。

今年 8 月份,畢業(yè)于斯坦福、現(xiàn)就職于英偉達人工智能應用團隊的一位小姐姐在推特上列出了十大優(yōu)質的免費機器學習課程資源,并將它們串成了一條高效的學習路線。該課程資源現(xiàn)已獲得 8000 多贊。近日,她又為讀者帶來了新的福利,這次是深度學習系統(tǒng)的設計教程。
將機器學習模型變?yōu)榭梢蕴峁┓蘸?AI 能力的系統(tǒng)是近來備受關注的話題。Chip Huyen 此次公開的深度學習系統(tǒng)設計教程是一篇 8000 字的長文,得到了廣泛的關注。目前其推特已有 5000 贊,而 GitHub 項目也在一天內獲得了 1000 多星。

教程地址:https://github.com/chiphuyen/machine-learning-systems-design/blob/master/build/build1/consolidated.pdf

項目地址:https://github.com/chiphuyen/machine-learning-systems-design 

一日千星的「机器学习系统设计指南」,这个英伟达小姐姐的项目火了

從理論到實踐,八千字教程解讀 ML 系統(tǒng)設計

該教程共包含四個部分:引言、機器學習系統(tǒng)的設計、案例教學和習題。其中,案例教學和習題部分分別包含 10 個生產(chǎn)環(huán)境經(jīng)典案例和 27 個面試中可能遇到的問題。

全書主要以方法論為主,重點在于提供相應的指導原則,幫助讀者思考構建系統(tǒng)的必要步驟。

一日千星的「机器学习系统设计指南」,这个英伟达小姐姐的项目火了

引言

在第一部分,作者介紹了機器學習研究和生產(chǎn)的主要區(qū)別。這些區(qū)別體現(xiàn)在兩個方面:性能需求和計算需求。

在性能需求方面,對于機器學習研究者而言,SOTA 就是一切。他們會不惜使用各種復雜的技術及其組合來追求百分之一的性能提升,但這種提升在生產(chǎn)環(huán)境中可能并不適用,而且會因為過于復雜而消耗更多計算資源。

在計算需求方面,由于目前流行的大模型需要昂貴的計算資源,因此如果想把這些模型應用到生產(chǎn)環(huán)境中,還需要社區(qū)去探索模型壓縮、預訓練等技術,使得模型更小、更快。生產(chǎn)領域的開發(fā)者應該時刻牢記以生產(chǎn)為目標進行機器學習系統(tǒng)的設計。

機器學習系統(tǒng)設計四部曲

第二部分是這本書的核心內容,即如何設計一個機器學習系統(tǒng)。作者將這一設計過程分為四步:項目設置、數(shù)據(jù) pipeline、建模(選擇、訓練和調試模型)和服務(測試、部署和維護模型)。

一日千星的「机器学习系统设计指南」,这个英伟达小姐姐的项目火了

作者提出的深度學習系統(tǒng)構建流程。

項目設置即對項目進行評估、設計的環(huán)節(jié)。這一環(huán)節(jié)的目標在于定義深度學習所需要解決的實際問題(產(chǎn)品的意義)、性能限制、項目限制、評估方法和個性化等。只有定義清楚項目的目標和實現(xiàn)方法,才能夠確保構建的系統(tǒng)能夠滿足要求,解決實際問題。

數(shù)據(jù)是深度學習最不可或缺的部分,盡管研究領域的大部分模型都有著充足、平衡且干凈的數(shù)據(jù)集,但是生產(chǎn)條件下則不一定。因此,系統(tǒng)設計中也需要考慮到數(shù)據(jù)的問題,包括如何獲得可靠、充足、大量的數(shù)據(jù),同時需要面對隱私保護、數(shù)據(jù)安全、數(shù)據(jù)存儲和數(shù)據(jù)平衡方面的問題,并提供可行的解決方案。

在建模過程中,需要經(jīng)過模型選型、訓練、調試和評估幾個環(huán)節(jié)。其中,在模型選擇時需要考慮找到最合適的基準,如隨機基準、人類基準或啟發(fā)式基準。采用的模型則應當從簡單到復雜,訓練的過程也應當是從少量的數(shù)據(jù)開始,如果行得通就擴大模型規(guī)模,增加投入的數(shù)據(jù)批的大小,并進行調參工作。如果模型的推理性能不佳,則需要考慮是否是數(shù)據(jù)問題、錯誤的假設和模型/數(shù)據(jù)擬合,超參選擇錯誤等。

在服務階段,設計者需要考慮模型怎樣根據(jù)接收到的輸入提供合適的結果,用戶怎樣收到這些結果,怎樣能夠讓他們的反饋更好地改進現(xiàn)有的模型。同時,模型也不是一成不變的,它需要不斷地訓練。從現(xiàn)有數(shù)據(jù)進行訓練使其變得更精準與給模型增加一個新標簽進行訓練是不同的。前者只需要在現(xiàn)有模型上進行訓練,而后者則需要從頭開始訓練。

10 個經(jīng)典案例

為了避免理論上的「紙上談兵」,在全書的第三部分,作者提供了 10 個案例教學,用于幫助讀者理解理論,學習實踐。

閱讀這些案例可以學到如何在生產(chǎn)環(huán)境中克服種種部署要求和約束。Airbnb、Lyft、Uber、Netflix 等很多公司都開設了博客來介紹自己使用機器學習改進產(chǎn)品或生產(chǎn)流程的經(jīng)驗。需要面試的小伙伴可以經(jīng)常瀏覽這些博客。本教程介紹了其中的一些精華案例,包括:

1. 利用機器學習預測 Airbnb 上的房屋價值。

鏈接:https://medium.com/airbnb-engineering/using-machine-learning-to-predict-value-of-homes-on-airbnb-9272d3d4739d 

2. 利用機器學習提高 Netflix 上的數(shù)據(jù)流質量。

鏈接:https://medium.com/netflix-techblog/using-machine-learning-to-improve-streaming-quality-at-netflix-9651263ef09f 

3. 繽客網(wǎng) 150 個成功的機器學習模型:從中學到的 6 個經(jīng)驗教訓 。

鏈接:https://blog.acolyer.org/2019/10/07/150-successful-machine-learning-models/ 

4. 從零到 400 萬女性用戶的時尚 APP——Chicisimo。

鏈接:https://medium.com/hackernoon/how-we-grew-from-0-to-4-million-women-on-our-fashion-app-with-a-vertical-machine-learning-approach-f8b7fc0a89d7 

5. 用機器學習驅動 Airbnb 搜索體驗。

鏈接:https://medium.com/airbnb-engineering/machine-learning-powered-search-ranking-of-airbnb-experiences-110b4b1a0789 

6. Lyft 公司的反欺詐機器學習系統(tǒng)。

鏈接:https://eng.lyft.com/from-shallow-to-deep-learning-in-fraud-9dafcbcef743 

7. Instacart 外送服務中的路徑優(yōu)化。

鏈接:https://tech.instacart.com/space-time-and-groceries-a315925acf3a 

8. Uber 的大數(shù)據(jù)平臺:具有分鐘級延遲的 100+Petabytes。

鏈接:https://eng.uber.com/uber-big-data-platform/ 

9. 利用計算機視覺和深度學習來創(chuàng)建現(xiàn)代化的 OCR 管道。

鏈接:https://blogs.dropbox.com/tech/2017/04/creating-a-modern-ocr-pipeline-using-computer-vision-and-deep-learning/ 

10. 利用 Uber 推出的 Michelangelo 機器學習平臺來擴展機器學習。

鏈接:https://eng.uber.com/scaling-michelangelo/ 

27 個練習題

最后,還有 27 個練習題可供上手嘗試。習題的答案將在《Machine Learning Interviews》一書中給出。

想貢獻答案的同學可以戳:https://github.com/chiphuyen/machine-learning-systems-design/tree/master/answers

一日千星的「机器学习系统设计指南」,这个英伟达小姐姐的项目火了

一日千星的「机器学习系统设计指南」,这个英伟达小姐姐的项目火了

一日千星的「机器学习系统设计指南」,这个英伟达小姐姐的项目火了

此外,作者提醒大家注意,這里的問題有些是模棱兩可的。如果在面試中遇到這些問題,你需要引導面試官把問題描述清楚、縮小范圍。 

 

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-02-23 14:21:20

Chrome插件瀏覽器

2019-10-24 11:00:05

Python 開發(fā)編程語言

2019-07-08 10:08:35

人工智能AI自動化

2023-07-07 08:24:53

Python爬蟲Flask

2024-02-19 08:56:00

AI模型

2021-10-05 21:03:54

BeautifulSo 爬蟲

2024-05-24 09:07:06

JSONprint字符串

2024-08-29 10:47:27

2019-07-05 15:42:58

GitHub代碼開發(fā)者

2021-04-12 21:19:01

PythonMakefile項目

2020-09-17 06:53:38

項目規(guī)范流程

2017-11-03 09:10:48

2020-11-24 10:21:14

人工智能機器學習技術

2020-02-25 16:58:40

機器人人工智能系統(tǒng)

2019-10-21 10:01:58

Python素描技術

2020-01-18 15:10:57

機器人人工智能系統(tǒng)

2021-04-27 22:15:02

Selenium瀏覽器爬蟲

2023-12-05 13:49:00

AI模型

2020-11-11 09:00:00

機器學習技術人工智能

2022-06-28 09:31:44

LinuxmacOS系統(tǒng)
點贊
收藏

51CTO技術棧公眾號