自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

高質(zhì)量數(shù)據(jù)集哪里來?機(jī)器學(xué)習(xí)公司的十大數(shù)據(jù)搜集策略

開發(fā) 開發(fā)工具
數(shù)據(jù)戰(zhàn)略/資源的選擇通常與商業(yè)模式的選擇、創(chuàng)業(yè)公司的關(guān)注重點(diǎn)(消費(fèi)者或企業(yè)、橫向或縱向的)以及融資情況密切相關(guān)。以下簡(jiǎn)單列出幾種并不互斥的策略,為廣泛的可用方法提供了一種大體框架。

 

[[194347]]

 

 

原作者 | Moritz Mueller-Freitag

 

編譯 | 笪潔瓊 萬如苑 一針

長(zhǎng)期以來,在機(jī)器學(xué)習(xí)中不合理的數(shù)據(jù)利用效率一直是引起廣泛討論的話題。也有人認(rèn)為,曾經(jīng)阻礙人工智能領(lǐng)域取得各種重大突破的,并不是什么高深的算法,而是缺乏高質(zhì)量的數(shù)據(jù)集。然而討論的共同中心是,在當(dāng)下最前沿的機(jī)器學(xué)習(xí)方面,數(shù)據(jù)是一個(gè)相當(dāng)關(guān)鍵的組成部分。

獲取高質(zhì)量的初始數(shù)據(jù)對(duì)于那些運(yùn)用機(jī)器學(xué)習(xí)作為他們業(yè)務(wù)核心技術(shù)的創(chuàng)業(yè)公司來說是十分重要的。雖然許多算法和軟件工具都是開源和共享的,但是好的數(shù)據(jù)通常是私人專有而且難以創(chuàng)建的。因此,擁有一個(gè)大型的、特定領(lǐng)域的數(shù)據(jù)集可以成為競(jìng)爭(zhēng)優(yōu)勢(shì)的重要來源,尤其是如果初創(chuàng)公司能夠啟動(dòng)數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)(在這種情況下,更多的用戶→更多的數(shù)據(jù)→更智能的算法→更好的產(chǎn)品→繼續(xù)帶來更多的用戶)。

因此,對(duì)于機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司必須做出的一個(gè)關(guān)鍵戰(zhàn)略決策是如何建立高質(zhì)量的數(shù)據(jù)集來訓(xùn)練他們學(xué)習(xí)算法。不幸的是,初創(chuàng)公司往往在一開始只有有限的或沒有標(biāo)簽的數(shù)據(jù),這一情況會(huì)阻礙創(chuàng)始人在構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品方面取得重大進(jìn)展。因此,在雇傭數(shù)據(jù)科學(xué)團(tuán)隊(duì)或建立昂貴的核心基礎(chǔ)設(shè)施之前,從一開始就值得探索一套數(shù)據(jù)收集策略。

創(chuàng)業(yè)公司可以通過多種方式克服剛開始進(jìn)行數(shù)據(jù)采集時(shí)遇到的棘手的問題。數(shù)據(jù)戰(zhàn)略/資源的選擇通常與商業(yè)模式的選擇、創(chuàng)業(yè)公司的關(guān)注重點(diǎn)(消費(fèi)者或企業(yè)、橫向或縱向的)以及融資情況密切相關(guān)。以下簡(jiǎn)單列出幾種并不互斥的策略,為廣泛的可用方法提供了一種大體框架。

策略#1:手動(dòng)工作

從頭構(gòu)建一個(gè)良好的專有數(shù)據(jù)集基本意味著要將大量的前期工作和人力資源投入到數(shù)據(jù)獲取上,還要完成大量無法批量完成的的手動(dòng)工作。在初期借助人力的創(chuàng)業(yè)公司的例子很多。例如,許多聊天機(jī)器人初創(chuàng)公司(通過改變對(duì)成功的定義和高職工流動(dòng)率吸引求職者)雇傭真人來做“人工智能培訓(xùn)師”,讓他們手動(dòng)創(chuàng)建或驗(yàn)證機(jī)器人所說的話。就連科技巨頭也采取了這種策略:Facebook M(一個(gè)最新內(nèi)置在Facebook Messenger中人工智能驅(qū)動(dòng)的數(shù)字助理)的所有回應(yīng)都是由一個(gè)承包商團(tuán)隊(duì)審查和編輯的。

使用人力來手動(dòng)標(biāo)記數(shù)據(jù)點(diǎn)可以是一個(gè)成功的策略,只要數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)在某個(gè)時(shí)間點(diǎn)生效,這樣所需要的人力就不再以與用戶增長(zhǎng)相同的速度增加。只要人工智能系統(tǒng)進(jìn)步的速度足夠快,未指明錯(cuò)誤就會(huì)出現(xiàn)地不那么頻繁,相應(yīng)地,執(zhí)行手工標(biāo)記的人的數(shù)量也將會(huì)減少或保持不變。

適用對(duì)象:幾乎每一家機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司

例子:

  • 一些聊天機(jī)器人創(chuàng)業(yè)公司(包括Magic、GoButler、x.AI和Clara)
  • MetaMind(用于食品分類的手工收集和標(biāo)記數(shù)據(jù)集)
  • Building Radar(員工/實(shí)習(xí)生手動(dòng)標(biāo)記建筑物的圖片)

策略#2:縮小問題范圍

大多數(shù)創(chuàng)業(yè)公司都會(huì)嘗試直接從用戶那里收集數(shù)據(jù)。

挑戰(zhàn)在于說服早期用戶在機(jī)器學(xué)習(xí)的好處完全發(fā)揮作用之前保持使用該產(chǎn)品(因?yàn)槭紫刃枰獢?shù)據(jù)來訓(xùn)練和微調(diào)算法)。

解決這個(gè)自相矛盾的問題的方法之一,是徹底縮小問題范圍(如果需要的話,可以在之后再擴(kuò)大)。正如Chris Dixon所說:“你所需要的數(shù)據(jù)量與你試圖解決的問題的廣度有關(guān)。”

Source: x.ai

Source: x.ai(來源于X.AI)

這樣縮小問題范圍的好處再一次體現(xiàn)在聊天機(jī)器人上。這一領(lǐng)域的創(chuàng)業(yè)公司可以在兩種市場(chǎng)策略之間做出選擇:他們可以建立水平助手——可以幫助解決大量問題和回應(yīng)即時(shí)請(qǐng)求的機(jī)器人(比如Viv、Magic、Awesome、Maluuba和Jam)?;蛘?,他們也可以創(chuàng)建垂直助手——能出色完成一項(xiàng)具體、明確的任務(wù)的機(jī)器人(例如x.ai, Clara, DigitalGenius, Kasisto, Meekan以及最近的GoButler/Angel.ai)。這兩種方法都是有效的,不管如何選擇,只要縮小了問題的范圍,數(shù)據(jù)收集對(duì)創(chuàng)業(yè)公司來說都要容易得多。

適用對(duì)象:經(jīng)營垂直整合業(yè)務(wù)的公司

例子:

  • 高度專業(yè)化的垂直聊天機(jī)器人(如 x.ai, Clara or GoButler)
  • Deep Genomics(利用深度學(xué)習(xí)來分類/解釋基因變異)
  • Quantified Skin(使用客戶自拍照來分析一個(gè)人的皮膚)

策略#3:眾包/外包

除了讓員工(或?qū)嵙?xí)生)來手動(dòng)收集或標(biāo)注數(shù)據(jù),創(chuàng)業(yè)公司也可以通過眾包來達(dá)到目的。像Amazon Mechanical Turk 或CrowdFlower 的平臺(tái)提供了一種方法,可以利用數(shù)百萬人的在線勞動(dòng)力來清理混亂和不完整的數(shù)據(jù)。例如,VocalIQ(2015年被蘋果收購)使用亞馬遜土耳其機(jī)器人為其數(shù)字助手提供數(shù)千個(gè)用戶提出的問題。員工也可以通過雇傭其他獨(dú)立的承包商來外包(就像Clara 或Facebook M所做的那樣)。使用這種方法的必要條件是可以清楚地解釋這個(gè)任務(wù),而且它不至于太長(zhǎng)或者很無聊。

另一種策略是鼓勵(lì)公眾自愿提供數(shù)據(jù)。一家總部位于巴黎的人工智能創(chuàng)業(yè)公司Snips就是一個(gè)例子,該公司利用這種方法獲得特定類型的數(shù)據(jù)(餐廳、酒店和航空公司的電子確認(rèn)信)。和其他創(chuàng)業(yè)公司一樣,Snips使用的是一種游戲化的系統(tǒng),用戶可以在排行榜上進(jìn)行排名。

適用對(duì)象:可以很容易地執(zhí)行質(zhì)量控制的情況

例子:

  • DeepMind, Maluuba, AlchemyAPI,和其他很多人(見這里see here)
  • VocalIQ(用土耳其機(jī)器人幫助系統(tǒng)學(xué)習(xí)人們?nèi)绾握f話)
  • Snips (要求人們無償為研究提供數(shù)據(jù))

策略# 4:引導(dǎo)用戶自發(fā)參與

有一種能夠自成一類的眾包策略,是通過恰當(dāng)?shù)姆绞揭龑?dǎo)用戶自發(fā)地產(chǎn)生數(shù)據(jù)。這種方法中很重要的一步是設(shè)計(jì)能夠?yàn)橛脩籼峁┣‘?dāng)激勵(lì),使其主動(dòng)將數(shù)據(jù)結(jié)果反饋給系統(tǒng)的產(chǎn)品。

那些在自家許多產(chǎn)品中都使用了這種方法的公司里,有兩個(gè)十分典型的例子:谷歌(搜索引擎、谷歌翻譯、垃圾郵件過濾器等等)和Facebook(用戶可在照片中給朋友加標(biāo)簽)。用戶通常不知道他們的行為在為這些公司提供免費(fèi)的標(biāo)簽數(shù)據(jù)。

[[194350]]

機(jī)器學(xué)習(xí)領(lǐng)域的許多初創(chuàng)公司都從谷歌和Facebook中汲取了靈感,他們創(chuàng)建了具有糾錯(cuò)功能的產(chǎn)品,明確地鼓勵(lì)用戶糾正機(jī)器錯(cuò)誤。這方面特別出名的是reCAPTCHA 驗(yàn)證碼和Duolingo(都是由路易斯馮創(chuàng)立的)。其他的例子包括Unbabel,Wit.ai 和 Mapillary.

適用對(duì)象:以消費(fèi)者為中心并且有穩(wěn)定用戶交互的創(chuàng)業(yè)公司

例子:

  • Unbabel(用戶糾正機(jī)器翻譯的社區(qū))
  • Wit.ai (為用戶提供了用于糾正翻譯錯(cuò)誤的面板/api)
  • Mapillary (用戶可以糾正機(jī)器生成的交通標(biāo)志檢測(cè))

策略# 5:開發(fā)副業(yè)務(wù)

一個(gè)似乎特別受計(jì)算機(jī)視覺創(chuàng)業(yè)公司歡迎的策略是有針對(duì)性地向用戶提供一個(gè)免費(fèi)的、特定領(lǐng)域的手機(jī)app。

Clarifai、HyperVerge和Madbits(2014年被Twitter收購)都采取了這一策略,它們向用戶提供能夠?yàn)樽约旱暮诵臉I(yè)務(wù)收集額外圖像數(shù)據(jù)的照片應(yīng)用。

Source: Clarifai

Source: Clarifai(來源于Clarifai)

這個(gè)策略并不是完全沒有風(fēng)險(xiǎn)(畢竟,成功開發(fā)和推廣一個(gè)app是要花費(fèi)時(shí)間和金錢的)。 創(chuàng)業(yè)公司還必須確保他們創(chuàng)建了一個(gè)足夠強(qiáng)大的使用案例,能讓用戶乖乖交出他們的使用數(shù)據(jù),即使在開始時(shí)缺少數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)的優(yōu)勢(shì)。

適用對(duì)象:初創(chuàng)企業(yè)/橫向平臺(tái)

例子:

  • Clarifai(Forevery,可用來發(fā)現(xiàn)新照片的應(yīng)用程序)
  • HyperVerge(Silver,可用來組織照片的應(yīng)用程序)
  • Madbits(Momentsia,可用來拼貼照片的應(yīng)用程序)

策略#6:數(shù)據(jù)陷阱

另一種收集有效數(shù)據(jù)排放的方法是構(gòu)建Matt Turck所謂的“數(shù)據(jù)陷阱”(Leo Polovets已經(jīng)給了這個(gè)策略一個(gè)不太可愛的名字:“特洛伊木馬收集數(shù)據(jù)法”)。 目標(biāo)是創(chuàng)造一些即使在沒有機(jī)器學(xué)習(xí)的情況下也有價(jià)值的東西,然后以收集數(shù)據(jù)的成本出售(即使其中的邊際效益很小)。 與之前的策略形成對(duì)比的是,構(gòu)建數(shù)據(jù)陷阱是創(chuàng)業(yè)公司商業(yè)模型的核心部分(而不僅僅是一個(gè)副業(yè)務(wù))。

數(shù)據(jù)陷阱

一個(gè)相關(guān)的例子是Recombine,一家臨床基因檢測(cè)公司,通過提供生殖力測(cè)試服務(wù)來收集DNA數(shù)據(jù),然后可以將DNA數(shù)據(jù)用機(jī)器學(xué)習(xí)進(jìn)行分析。 另一個(gè)例子是BillGuard(被Prosper于2015年收購),一家提供了一個(gè)幫助信用卡用戶爭(zhēng)取“灰色費(fèi)用”的移動(dòng)端app的創(chuàng)業(yè)公司。該應(yīng)用程序幫助BillGuard獲得大量之后還可以用于其他目的欺詐數(shù)據(jù)。 另一邊Telsla也正在使用這個(gè)策略。作為擁有超過10萬輛(配有傳感器的)車輛正被用于行駛的公司,Tesla目前正在建造最大的自動(dòng)駕駛訓(xùn)練數(shù)據(jù)集(每天可以收集比Google更多的自動(dòng)駕駛里程)。

適用對(duì)象:經(jīng)營垂直整合業(yè)務(wù)的企業(yè)

例子:

  • Recombine(提供生育力測(cè)試來收集DNA數(shù)據(jù))
  • BillGuard(提供移動(dòng)應(yīng)用程序來收集欺詐數(shù)據(jù))
  • Tesla(當(dāng)駕駛員使用自動(dòng)駕駛功能時(shí)收集數(shù)據(jù))

策略#7:公開可用的數(shù)據(jù)集

一個(gè)許多創(chuàng)業(yè)公司都屢試不爽的策略是在公開來源中挖掘數(shù)據(jù)。像“普通抓取”這樣的網(wǎng)絡(luò)存檔包含多年網(wǎng)絡(luò)爬蟲收集的免費(fèi)原始數(shù)據(jù)。另外,像Yahoo或Criteo這樣的公司已經(jīng)向研究界發(fā)布過了大量數(shù)據(jù)集(雅虎發(fā)布了13.5 TB的未壓縮數(shù)據(jù)!)。隨著最近政府公開數(shù)據(jù)庫的蓬勃發(fā)展(由奧巴馬政府引領(lǐng)),越來越多的數(shù)據(jù)來源正在免費(fèi)公開。

幾家機(jī)器學(xué)習(xí)初創(chuàng)公司已經(jīng)在利用公共數(shù)據(jù)了。當(dāng)Oren Etzioni開始Farecast(由Microsoft于2008年收購)時(shí),他使用了在旅游網(wǎng)站抓取信息而獲得的12,000個(gè)價(jià)格觀察樣本。同樣,SwiftKey(由Microsoft于2016年收購)在早期收集并分析了數(shù)十億網(wǎng)頁爬蟲數(shù)據(jù),來創(chuàng)建它的語言模型。

適用對(duì)象:可以識(shí)別相關(guān)公共數(shù)據(jù)集的初創(chuàng)公司

例子:

  • Farecast(第一版從旅游網(wǎng)站爬取的信息)
  • SwiftKey(抓取網(wǎng)頁文字來創(chuàng)建語言模型)
  • The Echo Nest(每天爬取數(shù)百萬個(gè)音樂相關(guān)網(wǎng)站)
  • Jetpac(將公共Instagram數(shù)據(jù)用于其移動(dòng)應(yīng)用程序)

策略#8:第三方數(shù)據(jù)許可

訪問第三方數(shù)據(jù)的另一種方法是通過外部數(shù)據(jù)提供者提供的API或通過在第三方移動(dòng)應(yīng)用程序中實(shí)施SDK來抓取數(shù)據(jù)(理想情況下是終端用戶同意)來得到許可。 在這兩種情況下,創(chuàng)業(yè)公司都要支付另外一方來處理為某個(gè)目的而生成的數(shù)據(jù),然后應(yīng)用機(jī)器學(xué)習(xí)從該數(shù)據(jù)中提取新價(jià)值。

Farecast和Decide.com(均由Oren Etzioni創(chuàng)立)已經(jīng)成功地實(shí)施了這一戰(zhàn)略。 開放的數(shù)據(jù)平臺(tái),如Clearbit或Factual是外部數(shù)據(jù)提供者的典范。 在使用第三方數(shù)據(jù)來挖掘預(yù)測(cè)信息的公司中,也有幾家對(duì)沖基金和算法交易公司(正在使用非傳統(tǒng)數(shù)據(jù)集,如Orbital Insight或Rezatec等創(chuàng)業(yè)公司的衛(wèi)星數(shù)據(jù))。

適用對(duì)象:依靠第三方數(shù)據(jù)的創(chuàng)業(yè)公司(如行業(yè)數(shù)據(jù))

例子:

  • Farecast(通過航空公司的數(shù)據(jù)使用許可來預(yù)測(cè)機(jī)票價(jià)格)
  • Decide.com(通過電子商務(wù)的數(shù)據(jù)使用許可來預(yù)測(cè)價(jià)格)
  • Building Radar(使用ESA衛(wèi)星圖像來監(jiān)測(cè)建設(shè)項(xiàng)目)

戰(zhàn)略#9:與大企業(yè)協(xié)作

對(duì)于初創(chuàng)企業(yè),數(shù)據(jù)提供者可能是提供相關(guān)數(shù)據(jù)處理權(quán)的大客戶。在這個(gè)策略中,創(chuàng)業(yè)公司向客戶出售問題的解決方案(如減少欺詐),并使用客戶的數(shù)據(jù)訓(xùn)練其學(xué)習(xí)算法。 在理想情況下,從一個(gè)客戶或?qū)嵗凶龅臄?shù)據(jù)學(xué)習(xí)可以轉(zhuǎn)移給所有其他客戶。 例如在測(cè)謊領(lǐng)域的Sift Science和SentinelOne。

采用這種方法的難點(diǎn)在于如何在前期做好談判,確認(rèn)通過數(shù)據(jù)學(xué)習(xí)到的信息都?xì)w創(chuàng)業(yè)公司所擁有,而數(shù)據(jù)本身仍是顧客的資產(chǎn)。 鑒于大型公司通常具有嚴(yán)格的規(guī)則,并且對(duì)共享專有數(shù)據(jù)非常敏感,這是很容易產(chǎn)生分歧的地方。

適用對(duì)象:企業(yè)創(chuàng)業(yè)公司

例子:

  • Sift Science(使用公司特有數(shù)據(jù)查找獨(dú)特的欺詐信號(hào))
  • SentinelOne(銷售終端保護(hù)軟件的網(wǎng)絡(luò)安全初創(chuàng)公司)
  • Skytree(開發(fā)用于企業(yè)使用的機(jī)器學(xué)習(xí)軟件)

策略#10:小型收購

Matt Turck列出了許多公司的收購方式,以獲得特別相關(guān)的數(shù)據(jù)集(類似于收購有價(jià)值的專利組合)。 例如,IBM Watson在2015年進(jìn)行了四次與數(shù)據(jù)有關(guān)的收購,將其衛(wèi)生部門轉(zhuǎn)變?yōu)槭澜缟献畲蠛妥疃鄻踊慕】迪嚓P(guān)數(shù)據(jù)庫之一。

由于這種方法需要資金支持,所以可能只對(duì)于擁有充裕資金的創(chuàng)業(yè)公司來說是可行的。

適用對(duì)象:(后期)有足夠資金的創(chuàng)業(yè)公司

示例:難以確定(數(shù)據(jù)是收購的唯一原因)

很可能還有其他數(shù)據(jù)采集策略在這里沒有提到(如果是,請(qǐng)給我留言)。除此之外還有幾個(gè)初創(chuàng)公司可以用來解決數(shù)據(jù)問題的算法技巧(例如傳輸學(xué)習(xí),MetaMind使用的一個(gè)技術(shù))。

無論您采取何種策略,關(guān)鍵信息是:獲取和擁有大型特定領(lǐng)域的數(shù)據(jù)集以構(gòu)建高精度模型可能是創(chuàng)業(yè)者一開始就需要解決的最難的問題。在某些情況下,它涉及到找一個(gè)能快速解決問題但不是長(zhǎng)久之計(jì)的方案,比如雇傭人類來假裝是人工智能(像許多聊天機(jī)器人創(chuàng)業(yè)公司那樣)。 在其他情況下,它要求企業(yè)大大地延長(zhǎng)免費(fèi)周期,限制測(cè)試版的公開發(fā)布,直到機(jī)器學(xué)習(xí)的好處開始發(fā)揮作用而且客戶愿意為此付費(fèi)。

這些策略和例子來自與企業(yè)家們的談話以及幾個(gè)博客文章,其中包括內(nèi)森·貝納奇(Nathan Benaich)(這里here),克里斯·迪克森(Chris Dixon)(這里here),弗洛里安·杜特奧(Florian Douetteau)(這里here),利奧·波洛維奇(這里here),馬特·圖克(Matt Turck) (這里here)。

原文:https://medium.com/@muellerfreitag/10-data-acquisition-strategies-for-startups-47166580ee48

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

 

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2023-03-09 15:05:46

HTMLWeb 開發(fā)SEO

2022-11-03 15:10:24

前端數(shù)據(jù)結(jié)構(gòu)算法

2024-01-12 13:51:00

數(shù)據(jù)訓(xùn)練

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2020-12-01 13:56:56

人工智能AI數(shù)據(jù)

2010-07-06 11:52:59

數(shù)據(jù)庫RationalJazz

2013-07-24 09:20:39

大數(shù)據(jù)創(chuàng)業(yè)公司大數(shù)據(jù)

2022-12-02 10:38:50

機(jī)器學(xué)習(xí)開發(fā)工程項(xiàng)目

2020-05-20 07:00:00

機(jī)器學(xué)習(xí)人工智能AI

2023-09-01 14:42:39

數(shù)據(jù)研究

2023-09-07 13:25:09

2009-11-16 16:07:06

2021-02-03 05:26:49

機(jī)器學(xué)習(xí)存儲(chǔ)AI

2018-09-12 10:10:09

2018-11-19 12:58:47

大數(shù)據(jù)技術(shù)Java

2013-01-09 09:57:34

大數(shù)據(jù)分析大數(shù)據(jù)Actuate

2017-10-30 11:11:03

2016-10-12 09:02:28

大數(shù)據(jù)存儲(chǔ)技巧
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)