自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機器學習競爭其實是一場數(shù)據(jù)上的競爭

大數(shù)據(jù) 數(shù)據(jù)分析
數(shù)據(jù)已逐漸成為了機器學習競爭中最關(guān)鍵的區(qū)分點。一個原因是高質(zhì)量數(shù)據(jù)并不常見;另一原因是數(shù)據(jù)尚未商品化,公司企業(yè)之間存在著信息不對稱。

[[255222]]

大數(shù)據(jù)文摘出品

編譯:張秋玥、狗小白、蔣寶尚

人工智能的三大發(fā)展要素已經(jīng)是老生常談了。算法、算力和數(shù)據(jù)對機器學習的重要性和聲望不亞于“謙哥”的喝酒、燙頭和抽煙。

[[255223]]

那些熱衷競爭實施機器學習的公司現(xiàn)在驚訝地發(fā)現(xiàn),其實,實施一些算法使機器變得對某一數(shù)據(jù)或問題更加智能并不困難。畢竟,這年頭“即插即用”又很穩(wěn)健的算法編程解決方案簡直“爛大街了”。例如,從開源機器學習框架谷歌TensorFlow,到微軟Azure Machine Learning以及亞馬遜SageMaker,應(yīng)有盡有。

所以,數(shù)據(jù)已逐漸成為了機器學習競爭中最關(guān)鍵的區(qū)分點。一個原因是高質(zhì)量數(shù)據(jù)并不常見;另一原因是數(shù)據(jù)尚未商品化,公司企業(yè)之間存在著信息不對稱。

希望借助AI一臂之力的企業(yè)需要尋求外部數(shù)據(jù)源,甚至這樣的數(shù)據(jù)甚至可能需要他們自己創(chuàng)建。

有用的數(shù)據(jù):有價值、又很***

數(shù)據(jù)

數(shù)據(jù)逐漸變成競爭中的區(qū)分點是因為許多公司根本沒有他們需要的數(shù)據(jù)。盡管幾十年來,公司都在使用通用的會計準則這樣的系統(tǒng)化方法來評估自己,但是這種評估方法一直關(guān)注于實體資產(chǎn)與金融資產(chǎn),也就是實物和錢。2013年甚至給資產(chǎn)定價理論頒了一個諾貝爾獎,強化了已有的對實體或金融資產(chǎn)重要性的認知。

但是,今天最有價值的那些公司貿(mào)易對象是軟件或網(wǎng)絡(luò),而不僅僅是實體或金融資產(chǎn)。在過去的40年內(nèi),資產(chǎn)類型的重心有了很大的變化:1975年,83%的有形資產(chǎn)占整個市場絕大部分份額;而2015年時市場中84%的資產(chǎn)是無形資產(chǎn)。今天的公司巨頭們不再生產(chǎn)咖啡壺也不再售賣洗衣機,他們轉(zhuǎn)而提供應(yīng)用程序,軟件等等。這樣的轉(zhuǎn)變造成了會計記賬的對象和實際產(chǎn)生價值的對象極其不匹配。

結(jié)果就是有用數(shù)據(jù)的缺少已經(jīng)成為了一個問題。市面價值與賬面價值的差別越來越大。公司們正在試圖利用機器學習輔助重要的商業(yè)決策來改善這一差別。有時,機器學習甚至會取代一些昂貴的咨詢顧問們,而***他們經(jīng)常會意識到算法所需的數(shù)據(jù)壓根不存在。所以實際上,那些閃瞎人眼的先進AI系統(tǒng)***依舊只是在同樣老舊的數(shù)據(jù)上試圖實施新技術(shù)。

和人類一樣,除非有人教,機器學習系統(tǒng)并不會精通任何領(lǐng)域。不過比起人類,機器會需要更多的信息來進行學習,并且它們確實比人類讀取數(shù)據(jù)的速度更快。因此,表面上公司間會互相競爭誰擁有更好的機器學習程序員以及誰先啟動AI項目,在幕后其實是對于數(shù)據(jù)新穎度和廣泛度的競爭。

[[255224]]

比如說在金融領(lǐng)域,可供選擇的數(shù)據(jù)來源遠遠超過了傳統(tǒng)證券交易報告以及投資者展示等。數(shù)據(jù)還可以來源于社交網(wǎng)絡(luò)情感分析或者獲批專利數(shù)量等。

這些數(shù)據(jù)源的重要性主要基于兩點原因。首先,傳統(tǒng)數(shù)據(jù)局限于傳統(tǒng)資產(chǎn),在當今無形資產(chǎn)當?shù)赖臅r代,覆蓋面上遠遠不夠。第二,并沒有任何必要在市場上所有人都在分析的數(shù)據(jù)上使用機器學習方法。所有對此感興趣的人都早已經(jīng)嘗試過分析產(chǎn)業(yè)趨勢、利潤率、增長率、息稅前利潤、資產(chǎn)周轉(zhuǎn)率以及資產(chǎn)回報率和其它上千個常見的變量與股東回報率之間的相關(guān)性。

在所有人都在分析的數(shù)據(jù)上試圖發(fā)現(xiàn)相關(guān)性并不會幫助公司取勝。相反,希望使用AI取勝的公司需要尋找新數(shù)據(jù)集之間的聯(lián)系,因此他們可能必須自己創(chuàng)建那些新數(shù)據(jù)集來評估無形資產(chǎn)。

謹慎思考:你想知道什么?

[[255225]]

創(chuàng)建數(shù)據(jù)比僅僅把銷售點與顧客信息兩個表聚合到一起然后丟進數(shù)據(jù)庫復雜得多。大多數(shù)企業(yè)錯誤地相信通過這樣一種權(quán)宜的方法能夠預測或區(qū)分出他們關(guān)心的信息:把所有能找到的數(shù)據(jù)都大費周章地聚合到一起然后指望能夠找到一絲希望之光。

盡管機器學習有時會突然發(fā)現(xiàn)某些從未有人意識到的事物從而使所有人都大吃一驚,但它并不能夠持續(xù)穩(wěn)定提供這樣的洞察。這并不意味著這項工具很垃圾,這意味著我們需要更明智地使用它。但說起來容易做起來難:比如,在我們研究外部數(shù)據(jù)市場時,我們發(fā)現(xiàn)大多數(shù)新數(shù)據(jù)提供者依舊在關(guān)注實體與金融資產(chǎn)。

許多企業(yè)遺漏的一步是提出一項真正重要的假設(shè)。機器學習真正體現(xiàn)優(yōu)越性之處在于,它們能夠通過采用人類已經(jīng)擁有的見解,這可以來自于經(jīng)驗法則、廣泛認知或者幾乎完全不被理解的相關(guān)性,來建設(shè)一種速度更快、更易于理解、更易于擴展且更低錯誤率的方法。

為了這樣使用機器學習方法,不應(yīng)向系統(tǒng)塞進任何你能找到的數(shù)據(jù)。你僅僅輸入被謹慎思考過的一組信息,希望它能夠?qū)W習并拓展,得到比人類掌握的更多的信息。

有意義的機器學習來自于不同的數(shù)據(jù)

[[255226]]

以下是為希望搭建有影響力、有價值的機器學習應(yīng)用的公司提出的三點建議:

  • 成功的AI在于與眾不同的數(shù)據(jù)。在你的競爭對手都已經(jīng)掌握的數(shù)據(jù)上你是得不出什么新穎信息的。審視企業(yè)內(nèi)部,找出只有你們知道并理解的信息并以此創(chuàng)建一個獨特的數(shù)據(jù)集。機器學習算法確實需要大量的數(shù)據(jù)支持,但這并不意味著模型需要考慮大量變量。你應(yīng)當把關(guān)注點放在企業(yè)已經(jīng)具有獨特之處的數(shù)據(jù)上。
  • 有意義的數(shù)據(jù)比全面的數(shù)據(jù)好。你可能就某問題上擁有大量詳盡數(shù)據(jù),但它們可能壓根沒什么用。如果你的公司根本不會在決策過程中隨時使用這些信息,那這樣的數(shù)據(jù)八成對機器學習也沒有什么價值。專業(yè)的機器學習工程師會詢問許多困難的問題來找出什么才是真正重要的領(lǐng)域,以及那些領(lǐng)域?qū)⑷绾螌υ搼?yīng)用程序輸出結(jié)果產(chǎn)生影響。如果這些問題對你太難了,那么你并沒有為得到實際價值而仔細思考。
  • 應(yīng)當從你已知的信息出發(fā)。最善于利用機器學習的公司會從一個獨特的視角出發(fā),來找到與他們重要決策最為相關(guān)的因素。這將會指導他們?nèi)ナ占畏N數(shù)據(jù)以及使用何種技術(shù)。就基于你們團隊已經(jīng)擁有的一部分知識之上進行拓展這個問題來著手是比較簡單的,這也將為你企業(yè)創(chuàng)造更多價值。

很明顯這個時代已經(jīng)是“軟件吃掉了整個世界”了(這個形容來源于軟件工程師Marc Andreessen)。但它們依然很饑餓!軟件們需要一份包含嶄新數(shù)據(jù)與科技的食譜來持續(xù)創(chuàng)造價值。

沒有人希望落后于這樣的洞察、機器與外部數(shù)據(jù)的轉(zhuǎn)變。那么,請從內(nèi)部審視企業(yè)開始,去發(fā)掘你獨特的見解以及你可以而且應(yīng)該得到的有價值的外部數(shù)據(jù)來源。通過這些步驟,你才能夠發(fā)現(xiàn)保持企業(yè)競爭力的相關(guān)洞見。

相關(guān)報道:

https://sloanreview.mit.edu/article/the-machine-learning-race-is-really-a-data-race/

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2014-06-12 09:20:31

大數(shù)據(jù)醫(yī)療

2020-11-29 18:53:15

Google 麒麟應(yīng)用

2012-12-07 09:50:29

安全分析大數(shù)據(jù)

2013-07-05 14:33:19

IoCDIP

2020-01-18 15:10:57

機器人人工智能系統(tǒng)

2019-05-28 16:25:34

MySQL刪除操作數(shù)據(jù)庫

2022-04-29 09:18:33

sprint測試開發(fā)

2013-03-15 13:33:06

2016-08-22 13:22:11

混合云云計算

2017-04-07 08:46:30

數(shù)據(jù)庫云計算青云

2021-08-03 09:58:06

量子計算芯片超算

2009-03-13 11:34:56

2013-08-08 10:52:38

App平臺化超級App開放平臺

2015-09-06 08:51:10

2015-05-08 10:52:39

2019-11-04 05:10:15

Wi-Fi網(wǎng)絡(luò)網(wǎng)速

2015-07-02 14:58:55

云存儲Gartner

2015-03-17 09:41:57

2015-05-20 14:01:27

程序程序會做飯

2019-04-11 15:00:11

區(qū)塊鏈比特幣加密貨幣
點贊
收藏

51CTO技術(shù)棧公眾號