自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為什么基于機器學習的產品很難見到?

大數據
那些漫天飛的所謂大數據分析報告,不是數據挖掘,更不是機器學習。類似本文所配題圖是不是經常出現在大部分機器學習的文章中?事實是,完成這樣的工作,不需要機器學習,只需要簡單計數器,青鳥集訓幾個月的分分鐘搞定。

大數據甚囂塵上了三四年,如今創(chuàng)業(yè)不講機器學習和數據挖掘都不好意思跟投資人介紹。但現實情況是,你在市面上見過多少套已經產品化的基于機器學習的軟件?鳳毛麟角。恐怕很多滿嘴術語的從業(yè)者都不明白,作不到預測的機器學習都是在忽悠。而能實現預測的產品,說難不難,可是門檻不低,能做出來的創(chuàng)業(yè)團隊不多見。

機器學習

【本文中人稱指代純粹為修辭手法,部分文字有嘲諷含義,夸張更是必不可少,不喜勿入?!?/p>

那些漫天飛的所謂大數據分析報告,不是數據挖掘,更不是機器學習。類似本文所配題圖是不是經常出現在大部分機器學習的文章中?事實是,完成這樣的工作,不需要機器學習,只需要簡單計數器,青鳥集訓幾個月的分分鐘搞定。

你覺得深度學習很牛啊,連圖片和聲音識別都搞得很好了,搞些文本識別有啥意思??珊苌儆腥颂拱赘嬖V你,到目前為止,深度學習尚未在自然語言處理中有突破進展,NLP比圖像和語言識別實際上更難。圖像和語音識別出來是啥?還是文本?,F在企業(yè)里至少95%以上的重要數據還是文本,做產品的能不去覆蓋?

現在做數據挖掘和機器學習的人員供不應求,BAT3四處高薪挖角,用過幾個開源庫的就號稱是熟手,價碼高得離譜。一提機器學習不就是聚類分類嘛。“聚類我懂啊,k-means天天用。”還不說讓你改進算法,你真嘗試過用它做個產品出來嗎?拿個開源的模塊攢出一個Demo,到客戶那里實測。一個相同的測試數據集,產品跑三遍,聚類結果沒有相同的。用戶當時就蒙了,相同的數據還能有不同結果?你振振有詞地解釋:“k-means算法就這樣啊,運算前要猜分類的個數,干脆就給個隨機數,另外,也得給幾個隨機初始中心點,這樣下來,每次跑聚類結果不一樣太正常不過了。這是你不懂。我在哪哪哪就是這么用的!”用戶合情合理的對產品常見的基本要求一下就被你歸到無理那類去了。

互聯網公司自己使用的機器學習引擎,都尚未產品化,甚至連產品化預期都沒有。隔段時間修修補補,換一個訓練和測試集,改兩個算法細節(jié),調三個參數,這些在產品研發(fā)里十分忌諱的行為司空見慣。反正系統(tǒng)也不會拿出去用,一般用戶都只能接觸到一點點運算結果,學術界也還在摸著石頭過河,是不是有穩(wěn)定結果也無所謂,財大氣粗的deep learning隨隨便便搞上千個計算節(jié)點,只要召回率有改善就是極大的勝利。在這樣氛圍里工作的工程師出來自己創(chuàng)業(yè)能做出產品來嗎?

那個知乎上得票第一的回復說,看完公開課的水平已經足夠應付灣區(qū)的工作了。是,完全同意,如果你只想當一輩子底層碼農,只想當大公司大項目里一顆可有可無的螺絲釘,不想有機會主持一個產品的設計和實現。要知道,那些大公司里也有很多研究統(tǒng)計和AI科班出身的。

想做機器學習的產品,不會調算法那是不可能的,基礎的數學不過關根本理解不了算法還談什么調整。很少有人能告訴你在某個特定場景下針對特定數據集用哪個算法更合適,這是個全新的領域,需要你自己去理解業(yè)務特征并選擇試驗不同算法以獲得最優(yōu)結果。如果想開發(fā)一個優(yōu)秀的機器學習產品,你需要一個優(yōu)秀的產品+設計+科研+工程師團隊來解決各方面的細節(jié)問題:從機器學習理論、到系統(tǒng)構建、到專業(yè)領域知識、到宏觀產品思路、到技術細節(jié)實現、到圖形界面設計等等。

是,更多的數據勝過更好的算法。你要做網絡行為異常分析用以偵測攻擊,覺得采集了大數據就已經勝利在望??墒呛懿恍业?,你手里的大數據基本全是正常行為,異常只是很少數。然后,你意識到正統(tǒng)的分類算法對類別平均分布的訓練數據學習效果好,對這種不平衡的訓練集很容易出現偏差(能意識到這點已經不容易了,常見的都是直接調開源庫硬上)。這時候不懂理論怎么搞?還有,海量數據的特征維度太多,你到底應該選哪些特征用以計算?接下來讓你構建一個分類器實時預測網絡攻擊,只能拿到一個時間窗口里的數據,這跟大數據有啥關聯?到這里,你就會發(fā)現扎實的基本功是做機器學習產品的必要基礎。

Gartner說數據分類是以數據為中心的安全的基礎,最近拿了那么多融資的Digital Guardian也把數據分類一直掛在口頭,可它做出來了基于機器學習的分類器嗎?用戶手里拿著上億條數據使用的日志,完全不知道哪些才是關鍵數據,必須借助分類器才可以發(fā)現風險。根據實際的大客戶案例,基于自然語言處理和機器學習的產品,才能真正有效實現數據分類。

其實還有很多可以寫,限于篇幅,以后再聊。

 

責任編輯:李英杰 來源: DJ的札記
相關推薦

2021-03-23 10:08:02

編程互聯網數據科學

2020-07-29 07:05:00

DevSecOps

2012-03-07 13:43:59

Objective-C

2022-09-19 00:08:22

人工智能機器交通管制

2016-12-13 19:47:31

大數據

2016-12-16 12:54:44

數據挖掘大數據

2010-08-06 10:29:56

蘋果

2023-05-15 14:02:24

2021-04-25 10:26:34

Python機器學習人工智能

2017-05-25 12:04:58

云計算安全云數據

2014-07-14 09:58:18

Objective-CiOS學習

2021-07-26 14:50:03

人工智能算法云計算

2024-04-29 11:50:01

軟件

2022-06-09 16:48:10

TensorFlow機器學習

2021-03-08 11:11:00

機器學習人工智能AI

2019-07-19 19:16:51

物聯網人工智能傳感器

2017-04-05 13:30:16

機器學習開源行業(yè)發(fā)展

2019-08-28 11:51:12

云計算人工智能機器學習

2021-12-15 16:35:59

數字化轉型IT技術

2021-04-12 10:28:51

機器學習人工智能AI
點贊
收藏

51CTO技術棧公眾號