有關擴大機器學習規(guī)模的五個啟發(fā)
臉書可以教會我們很多和高效的人工智能有關的東西。
Gartner最近的一項調查顯示,很多公司才剛剛開始機器學習之旅,而37%的組織已經實施了人工智能。如果你已經準備好接受機器學習,你可能先要評估十個問題或評估人工智能、機器學習和深度學習的完整指南,然后才能對機器學習進行概念驗證。
機器學習正在不斷發(fā)展,新的商業(yè)突破、科學進步、框架改進和實踐常常見諸各大媒體。
我們可以從實施了大規(guī)模機器學習計劃并將人工智能視為業(yè)務核心的組織中學到很多東西。在紐約召開的O'Reilly人工智能會議上,我看到了臉書機器學習計劃之間的幾股常見趨勢。
了解業(yè)務需求和競爭因素
臉書將機器學習用于很多領域。在臉書主頁上,機器學習可以搜索內容,翻譯語言,掃描動態(tài)消息并識別用戶上傳的照片中的面孔,以及查廣告展示的內容。在幕后,機器學習則用于內容理解、語音識別、內容完整性、情感分析、檢測令人反感的內容和欺詐性賬戶。
同樣,推文排名、廣告選擇、搜索功能和用戶推薦等一系列活動證實機器學習正在發(fā)揮作用。機器學習還用來標記有污言穢語的推文、垃圾郵件和不適合在工作中使用的圖片。
每次機器學習操作的規(guī)模有多大,這兩家公司以什么方式投資于差異化能力,這不太明顯。
臉書每天為26億用戶執(zhí)行200多萬億次預測。它的用戶遍布全球(這些用戶在帶寬上受到一定的限制),而且大量的互動是由手機完成的。
這帶來了一些難題,因為全球有61%的用戶還在用六年前的手機,甚至更老;只有不到10%的用戶使用先進的智能手機。臉書的戰(zhàn)略的一部分是將更多的神經網絡計算轉移到邊緣設備,以擴大規(guī)模,降低延遲并提供更個性化的機器學習模型。臉書的機器學習技術棧體現(xiàn)了這樣的目標,即可以輕松地研究新模型,同時大規(guī)模提供推理結果并將一些計算轉移到邊緣設備。
根據(jù)規(guī)模和延遲方面的要求對模型進行優(yōu)化。它每秒執(zhí)行數(shù)千萬次預測,每天以數(shù)十太字節(jié)的數(shù)據(jù)來訓練模型。它專注于優(yōu)化延遲(模型做出響應所需的時間)并明確了預測延遲方面的預算,即預測延遲數(shù)十毫秒所需要的預算。
為了擴大規(guī)模而將平臺標準化
臉書很早就開展了機器學習計劃。它們從非結構化方法開始,但它們現(xiàn)在正在采取措施將平臺,框架和管道標準化。臉書正在解決各種痛點,即可靠性、可擴展性、運行模型的效率以及科學家和工程師的開發(fā)體驗方面的痛點。
這兩家公司的平臺都根據(jù)類似的數(shù)據(jù)管道處理原則得到了優(yōu)化,它們都有處理數(shù)據(jù),提取特征,訓練模型以及將模型部署到生產環(huán)境的平臺。
兩大社交媒體巨頭正在采取措施對選定的機器學習框架進行標準化。臉書正在使用PyTorch使研究變得更輕松,使用Caffe2大規(guī)模運行生產推理模型。它已將Caffe2整合到PyTorch 1.0中,PyTorch 1.0結合了這兩種功能,并使用Caffe2Go來運行移動神經網絡。
使科學家、開發(fā)人員和工程師能夠進行協(xié)作
臉書勾勒了各種不同的工作,以實現(xiàn)生產力,知識共享,以及數(shù)據(jù)科學家、開發(fā)人員和工程師之間的代碼可重用性。
許多數(shù)據(jù)團隊將數(shù)據(jù)目錄和詞典作為其數(shù)據(jù)治理計劃的一部分。這些工具使每個人在使用數(shù)據(jù)進行分析或機器學習實驗時更容易理解基礎數(shù)據(jù)模型,字段定義和質量約束。
臉書還對自身的功能進行編目和標準化,將訓練自動化并開發(fā)用于管理和部署模型的工具。FBLearner是支持這些功能的標準平臺。
此外,臉書正在對自身所使用的機器學習類型進行標準化。例如,動態(tài)消息、廣告、搜索和異常檢測的排名使用了多層感知器。臉書還利用卷積神經網絡和支持向量機(support vector machine)進行面部識別,并利用循環(huán)神經網絡進行語言翻譯。
將機器學習模型的持續(xù)訓練自動化
和軟件應用程序一樣,機器學習模型必須持續(xù)得到培訓和修改。臉書對這種培訓進行了自動化,以便模型根據(jù)新數(shù)據(jù)進行重新調整。
臉書專注于其戰(zhàn)略。經常改變的模型(例如新聞源)每小時或更少地重新訓練,而語言翻譯和面部識別模型在數(shù)周至數(shù)月的循環(huán)中訓練。
計算成本的高低和計算資源的多少也決定了模型重新接受訓練的頻率。臉書也許具備戰(zhàn)略計算優(yōu)勢,因為它開發(fā)了各種硬件棧,這些硬件棧對不同的機器學習工作負載進行優(yōu)化。因為全球的計算資源并未得到充分利用。
制定長期規(guī)劃
從小事做起,對模型進行培訓并在使其在生產中運行,從而證明其商業(yè)價值,然后努力擴大實踐規(guī)模并使其更成熟。要使實踐成熟,與應用程序開發(fā)類似的規(guī)則是必不可少的,包括將框架標準化、定義體系結構、選擇維護周期、優(yōu)化性能以及將部署管道自動化。
你會發(fā)現(xiàn),機器學習帶來了重要價值,但它也需要根據(jù)性能和投資展開持續(xù)研究,以進行改進。各種模型經過培訓、部署、優(yōu)化,然后被更好的模型替代。機器學習是一種新的工具和技能,但對于必須改善用戶體驗或必須通過數(shù)據(jù)提高競爭價值的組織來說,它們將變得越來越重要。