自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

轉(zhuǎn)行AI和機器學(xué)習(xí),你最需要掌握這五大技能

人工智能 機器學(xué)習(xí)
機器學(xué)習(xí)比一個新的框架更難掌握。要成為一名高效的實踐者,你需要深入理解該領(lǐng)域相關(guān)的理論,廣泛了解這個行業(yè)的現(xiàn)狀,以及具備以非確定性的方式構(gòu)建問題的能力。

一、把機器學(xué)習(xí)當(dāng)做一種技能

作為一名軟件工程師,我們應(yīng)該活到老學(xué)到老,時刻與不斷發(fā)展的框架、標(biāo)準(zhǔn)和范式保持同步。同時,還要能活學(xué)活用,在工作中使用最合適的工具,以提高工作效率。隨著機器學(xué)習(xí)在越來越多的應(yīng)用程序中尋得了一席之地,它成為了廣大工程師迫切希望掌握的一門課題。

機器學(xué)習(xí)比一個新的框架更難掌握。要成為一名高效的實踐者,你需要深入理解該領(lǐng)域相關(guān)的理論,廣泛了解這個行業(yè)的現(xiàn)狀,以及具備以非確定性的方式構(gòu)建問題的能力。

你可以在網(wǎng)上找到很多教程來教你如何在一個精心挑選過的數(shù)據(jù)集上訓(xùn)練一個現(xiàn)成的模型,并使之達(dá)到不錯的準(zhǔn)確性。事實上,具備更多的相關(guān)技能是成為一個高效機器學(xué)習(xí)工程師的關(guān)鍵。

以下是我們與50多個頂尖機器學(xué)習(xí)團(tuán)隊的一些對話,他們來自海灣地區(qū)和紐約,這次是為了探求人工智能從業(yè)者需要共同面對的問題,并希望能夠加快自己融入應(yīng)用人工智能領(lǐng)域的步伐 。

[[208335]]

二、為什么機器學(xué)習(xí)“并不僅僅是另一種工具”

部署機器學(xué)習(xí)解決方案不僅僅是用數(shù)據(jù)對任意一個模型進(jìn)行訓(xùn)練。你還需要了解:

  • 你所擁有的**數(shù)據(jù)的類型**、**數(shù)據(jù)集在統(tǒng)計上如何分布**,以及數(shù)據(jù)集存在怎樣的偏差。
  • 適用于特定數(shù)據(jù)集的**統(tǒng)計模型**,以及這些模型成功的概率。
  • 模型**優(yōu)化**的相關(guān)指標(biāo),以及模型輸出的含義。

換句話說,要對模型進(jìn)行集成、部署和調(diào)試,除了要具備工程上的能力之外,你還需要了解統(tǒng)計的基本原理、線性代數(shù)和優(yōu)化理論。

要針對某個問題構(gòu)建一個定制化的機器學(xué)習(xí)解決方案,需要考慮的東西涵蓋了從數(shù)據(jù)的獲取、標(biāo)記和預(yù)處理到模型的構(gòu)建、更新和服務(wù),以及這個過程中的所有一切。

最后,我們認(rèn)為,為標(biāo)準(zhǔn)Web應(yīng)用程序構(gòu)建一套REST API是一個可以提前完成的任務(wù)。另一方面,機器學(xué)習(xí)模型不總是能保證收斂或者產(chǎn)生可用的輸出。學(xué)習(xí)如何審視和交付有影響力的機器學(xué)習(xí)產(chǎn)品的最佳方法是了解其理論基礎(chǔ)是如何與數(shù)據(jù)分類學(xué)相關(guān)聯(lián)的。

三、轉(zhuǎn)行到應(yīng)用AI之前最需要掌握的5個技能

1. 統(tǒng)計學(xué)

要深入理解機器學(xué)習(xí),必須要有扎實的統(tǒng)計學(xué)基礎(chǔ)知識,這涉及到幾個方面:

  • 度量模型是否成功的各種方法(精確度、召回率、ROC曲線下面積等)。損失函數(shù)和評估指標(biāo)的選擇是如何**偏離模型的輸出**的。
  • 如何理解**過擬合**和**欠擬合**,以及**偏差/方差折衷**。
  • 你對模型的結(jié)果有什么樣的**信心**。

2. 機器學(xué)習(xí)理論

在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候,實際上發(fā)生了什么?是什么使得某些任務(wù)可行,而其他任務(wù)不可行?要弄清楚這些問題,最好的方法不是深入研究理論知識,而是試著通過圖形和示例來了解機器學(xué)習(xí)。

需要理解的概念范圍包括:不同的損失函數(shù)的工作原理是什么、為什么反向傳播是有用的、計算圖是什么。而對于如何建立一個功能模型,以及如何跟團(tuán)隊里的其他人員進(jìn)行有效地交流,這些都需要深入地理解。下面我給出了一些參考資料:

  • 谷歌的深度學(xué)習(xí)課程對深度學(xué)習(xí)做了一般性地介紹。
  • Fei-Fei Li的計算機視覺課程,以及Richard Socher的NLP課程,則提供了更為專業(yè)的介紹。
  • Goodfellow編寫的深度學(xué)習(xí)書籍相當(dāng)不錯,可用于全面了解深度學(xué)習(xí)方面的基礎(chǔ)知識。

另一個基本技能是閱讀、理解和實施論文的能力。這個一開始做起來可能會感覺比較困難,所以最好的方法就是閱讀附帶代碼的論文(例如,研究GitXiv上的論文),并試著去理解它是如何實現(xiàn)的。

3. 數(shù)據(jù)處理

如果你去問任何一個數(shù)據(jù)科學(xué)家他們的主要工作是什么,他們會告訴你,90%的工作是數(shù)據(jù)處理。這與應(yīng)用AI同樣重要,因為模型的成功與否與數(shù)據(jù)的質(zhì)量(和數(shù)量)強相關(guān)。數(shù)據(jù)工作包含多個方面,但可歸納為下面幾類:

  • 數(shù)據(jù)采集(包括:找到好的數(shù)據(jù)源、準(zhǔn)確度量數(shù)據(jù)的**質(zhì)量**和**分類**、獲取和推斷標(biāo)簽)
  • 數(shù)據(jù)預(yù)處理(**缺失數(shù)據(jù)**填補、**特征工程**、數(shù)據(jù)**增強**、數(shù)據(jù)**規(guī)范化**、交叉驗證分割)
  • 數(shù)據(jù)后處理(使模型的輸出可用、清理工作、處理**特殊情況**和**異常值**)

熟悉數(shù)據(jù)處理工作最好的方法是獲取一個數(shù)據(jù)集并試著使用它。有很多在線數(shù)據(jù)集,以及很多提供API的社交媒體和新聞媒體網(wǎng)站?;谏厦嫣岬降膸讉€步驟,我們可以這樣進(jìn)行學(xué)習(xí):

  • 獲取一個開源的數(shù)據(jù)集,并對其進(jìn)行檢查。它有多大(點和特征的數(shù)量)?數(shù)據(jù)如何分布?是否存在缺失值或異常值?
  • 構(gòu)建一個將原始數(shù)據(jù)轉(zhuǎn)換為可用數(shù)據(jù)的轉(zhuǎn)換流程。如何填補缺失值?如何正確處理異常值?如何規(guī)范化數(shù)據(jù)?能創(chuàng)造出更多的表現(xiàn)特征嗎?
  • 檢查轉(zhuǎn)換過的數(shù)據(jù)集。如果看起來一起正常,請繼續(xù)下一章節(jié)!

4. 對模型進(jìn)行調(diào)試或調(diào)優(yōu)

調(diào)試機器學(xué)習(xí)算法(無法收斂,或者得到的結(jié)果不合理)與調(diào)試普通代碼有著很大的區(qū)別。同時,要找出合適的架構(gòu)和超參數(shù)則需要具備扎實的理論基礎(chǔ)和完備的基礎(chǔ)架構(gòu),以便對不同的配置進(jìn)行徹底的測試。

由于目前機器學(xué)習(xí)領(lǐng)域發(fā)展迅猛,而調(diào)試模型的方法也在不斷地發(fā)展。以下是從我們部署模型的討論和經(jīng)驗中總結(jié)出來的“合理性檢查”列表,這些條目也以某種方式反映了許多軟件工程師熟悉的KISS原理。

從一個已經(jīng)被證明可以使用類似數(shù)據(jù)集的簡單模型開始,以盡快獲得基線版本。經(jīng)典的統(tǒng)計學(xué)習(xí)模型(線性回歸、最近鄰居等)或者簡單的啟發(fā)式算法或規(guī)則通常能幫你解決80%的問題,并且能更快地實現(xiàn)需求。剛開始的時候,要用最簡單的方式來解決問題(請參閱谷歌的機器學(xué)習(xí)規(guī)則的前幾點)。

如果你決定訓(xùn)練一個更復(fù)雜的模型以改進(jìn)基線版本,那么可以用數(shù)據(jù)集的一個很小的子集來進(jìn)行訓(xùn)練并達(dá)到過擬合。這能夠確保這個模型至少還有學(xué)習(xí)的能力。不斷地對模型進(jìn)行迭代,直到對5%的數(shù)據(jù)量過擬合。

一旦開始用更多的數(shù)據(jù)進(jìn)行訓(xùn)練,那么超參數(shù)就開始發(fā)揮更大的作用了。你需要理解這些參數(shù)涉及到的理論,這樣才能找到合理的值。

請采用有針對性的方法對模型進(jìn)行調(diào)優(yōu)。簡要地記錄下你曾經(jīng)使用的所有配置及其結(jié)果。在理想情況下,可以使用自動超參數(shù)搜索策略。最開始的時候,使用隨機搜索就足夠了。

你的開發(fā)能力越強,則這些步驟實現(xiàn)起來就越快,反之亦然。

5. 軟件工程

許多的應(yīng)用機器學(xué)習(xí)允許你充分發(fā)揮自己在軟件工程方面的技能,雖然有時也會有一點小改變。這些技能包括:

  • 測試流水線的各個方面(數(shù)據(jù)的預(yù)處理和增強、輸入輸出的整理、模型推理時間)。
  • 基于**模塊化**和可重用的原則來構(gòu)建代碼。
  • 在訓(xùn)練過程中的不同點對模型進(jìn)行備份(**設(shè)置檢查點**)。
  • 配置一個**分布式的基礎(chǔ)架構(gòu)**,這樣能更加有效地進(jìn)行訓(xùn)練、超參數(shù)搜索或者推演。

四、工作中的小竅門

以上那些資源能幫你處理和解決實際的機器學(xué)習(xí)問題。但是,應(yīng)用AI這個領(lǐng)域的變化非??欤虼?,最好的學(xué)習(xí)方式是親身實踐,嘗試構(gòu)建一個端到端的方案來解決一個真正的問題。

行動項:

尋找一個可能會比較有趣的產(chǎn)品來構(gòu)建。什么能使你的生活更有效率?什么工具可以改進(jìn)使用數(shù)據(jù)完成某些工作的方法?什么是以數(shù)據(jù)驅(qū)動的方式來解決一個有趣的問題?

搜索與問題相關(guān)的數(shù)據(jù)集。對于大多數(shù)比較容易處理的問題來說,已經(jīng)打過標(biāo)記的數(shù)據(jù)也許就是你正在尋找的。如果你的問題沒有對應(yīng)的標(biāo)記過的數(shù)據(jù)集,那么現(xiàn)在就來做這件事吧。你可以通過哪些方法來找到類似的數(shù)據(jù),或者高效地標(biāo)記數(shù)據(jù),或者以其他方式來加速完成這個工作?

在動手之前,先看看你手頭的數(shù)據(jù)是否在數(shù)量和質(zhì)量上能滿足當(dāng)前任務(wù)的要求。在使用TensorFlow之前,最好先在網(wǎng)上找找其他人解決類似問題的方法。有哪些相關(guān)的博客帖子和論文能夠加快完成工作?

尋找一些靈感,然后深入研究!雖然你探索得到的模式和范例可能后來會被證明是錯誤的,但這對你也有好處,因為它能讓你更深入地了解問題的復(fù)雜性。

五、最后的建議

人工智能是一個令人興奮、不斷發(fā)展的領(lǐng)域。機器學(xué)習(xí)工程師對于獲取相關(guān)知識的需求非常強烈,但這很容易被相關(guān)的新聞所淹沒。我們建議你只跟蹤少量的信息來源和新聞信札,以便能夠?qū)⒐P(guān)和抽象研究與該領(lǐng)域的創(chuàng)新分離。這里有一些資料也許對你有所幫助:

黑客新聞(Hacker News):黑客新聞是一個專注于計算機科學(xué)、數(shù)據(jù)科學(xué)和企業(yè)家精神的社會新聞網(wǎng)站。它由著名的創(chuàng)業(yè)孵化器Y Combinator運營。不要因為網(wǎng)站的名字而拋棄這個網(wǎng)站! “黑客”這個詞的原始含義與網(wǎng)絡(luò)罪犯無關(guān),它指的是那些依靠自己高超的編程技能來提出完美解決方案的人。

引入AI(Import AI):Jack Clark負(fù)責(zé)的有關(guān)人工智能的新聞信札,它始終與該領(lǐng)域最先進(jìn)最重要的發(fā)展保持同步。

Insight博客:我們保持著相當(dāng)活躍的步伐。在AI博客 中的一些帖子談?wù)摰搅艘恍┻^去的項目,這些可以觸發(fā)一些靈感來解決有趣的問題。我們還定期發(fā)送一些有關(guān)AI的內(nèi)容到郵件列表。

責(zé)任編輯:趙寧寧 來源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2020-11-03 10:09:46

機器學(xué)習(xí)論文代碼

2017-08-01 20:50:45

大數(shù)據(jù)數(shù)據(jù)分析技能

2025-01-10 08:00:00

2019-03-07 09:49:03

數(shù)據(jù)中心IT運維管理

2024-05-29 10:08:40

2016-03-28 17:00:32

互聯(lián)網(wǎng)運維體系運維

2020-10-13 07:00:00

機器學(xué)習(xí)人工智能

2017-07-05 15:03:48

混合云

2023-02-07 07:16:54

人工智能機器學(xué)習(xí)方法

2020-11-02 00:27:31

云端云計算機器學(xué)習(xí)

2020-08-01 16:40:09

代碼語言Python

2017-07-31 10:31:13

2018-01-31 22:30:05

數(shù)據(jù)科學(xué)家數(shù)據(jù)專家工程師

2023-04-10 10:28:33

ChatGPTAI風(fēng)險管理計劃

2019-07-03 08:00:00

技能IT開發(fā)者

2017-10-13 11:13:16

微信隱藏功能視頻編輯

2019-02-20 17:55:45

數(shù)據(jù)分析師技能管理

2022-04-22 08:00:00

TEE安卓手機

2021-08-11 09:28:40

AI 數(shù)據(jù)機器學(xué)習(xí)

2018-05-17 15:55:07

AI機器學(xué)習(xí)圖像
點贊
收藏

51CTO技術(shù)棧公眾號