自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

更好的機(jī)器學(xué)習(xí)需要更好的數(shù)據(jù)標(biāo)注

人工智能 機(jī)器學(xué)習(xí)
金錢買不到幸福,它絕對不能買到你的愛情。還有傳言說,錢也買不到好的標(biāo)注數(shù)據(jù),這些數(shù)據(jù)用以訓(xùn)練特定的AI應(yīng)用?!獊碜砸粋€被困擾的人工智能開發(fā)者。

 有人在蘋果花了數(shù)億美元收集標(biāo)簽數(shù)據(jù),但依然沒有好的結(jié)果。人們意識到AI非常強(qiáng)大。但為了實現(xiàn)它,必須獲得大量的訓(xùn)練數(shù)據(jù)。

[[441112]]

看到這一需求,許多專業(yè)標(biāo)注公司誕生了。例如Datasaur,這是一個自動化數(shù)據(jù)標(biāo)注的軟件。當(dāng)然,數(shù)據(jù)標(biāo)注首先需要以人工的方式開始,特別是在人工智能項目的開始階段,到了項目的中期或末期,機(jī)器學(xué)習(xí)本身可以用于自動標(biāo)記數(shù)據(jù),也可以生成合成數(shù)據(jù)。

 

Datasaur軟件的主要目標(biāo)是簡化人工數(shù)據(jù)標(biāo)注的操作,并引導(dǎo)他們以最低的成本創(chuàng)建更高質(zhì)量的訓(xùn)練數(shù)據(jù)。由于它的目標(biāo)是那些需要整天標(biāo)記數(shù)據(jù)的高級用戶,因此創(chuàng)建了功能鍵來加速標(biāo)注過程,以及適合專用數(shù)據(jù)標(biāo)注系統(tǒng)的其他功能。

不過在這個過程中,Datasaur也有了其他幾個目標(biāo),包括消除偏見。還提供了項目管理能力,以清楚地闡明標(biāo)簽指南,以確保隨著時間的推移,標(biāo)簽標(biāo)準(zhǔn)繼續(xù)得到保持。

數(shù)據(jù)標(biāo)注的主觀性是使這門學(xué)科充滿陷阱的原因之一。

例如,想出一種方法,自動給文章貼上適合或不適合家庭的標(biāo)簽。通??梢詤⒖茧娪胺旨壷贫龋愃芇G、PG13、R級。自然認(rèn)為這將是一個非常簡單的任務(wù)。然后事實證明,科技公司認(rèn)為合適的做法與電影行業(yè)認(rèn)為合適的做法有很大不同。還有很多灰色地帶的實例,對于什么是合適的,什么是不合適的,不同的社會觀點將會非常不同。

 

更好的機(jī)器學(xué)習(xí)需要更好的數(shù)據(jù)標(biāo)注

 

解決這類問題沒有捷徑可走。但是,有一些方法可以幫助公司將這些業(yè)務(wù)流程自動化,包括提供一個用于回答這些數(shù)據(jù)標(biāo)注問題的決策譜系。這就是創(chuàng)建Datasaur軟件的原因。

你不會讓你的團(tuán)隊為你的設(shè)計師創(chuàng)建一個Photoshop。只要買現(xiàn)成的Photoshop就行了。當(dāng)你只需要做數(shù)據(jù)標(biāo)注,我們也可以找一家這樣專業(yè)的公司。

 

更好的機(jī)器學(xué)習(xí)需要更好的數(shù)據(jù)標(biāo)注

 

起初,許多客戶認(rèn)為計算機(jī)視覺是最熱門的AI技術(shù)。但最近,NLP用例非常熱門,特別是那些依賴于大型模型的用例,如BERT和GPT-3。因此Datasaur產(chǎn)品開始吸引注意力,每周被用于給100萬條數(shù)據(jù)貼標(biāo)簽,包含Netflix、Zoom和Heroku等知名公司都在使用。

Datasaur也被專業(yè)數(shù)據(jù)標(biāo)注機(jī)構(gòu)使用,例如iMerit。在世界各地?fù)碛?000名員工,iMerit已成長為數(shù)據(jù)標(biāo)簽行業(yè)的強(qiáng)大力量。該公司擁有100個客戶,其中包括許多家喻戶曉的品牌,這些客戶利用其數(shù)據(jù)標(biāo)注網(wǎng)絡(luò),讓深度學(xué)習(xí)模型與高質(zhì)量的標(biāo)注數(shù)據(jù)保持一致。

數(shù)據(jù)標(biāo)簽的主觀性使得它不是單純的一項交易。

通常情況下,需要坐下來,弄清楚數(shù)據(jù)在哪里,需要什么。它不僅僅是工具、人員或過程。這是三者的結(jié)合。

上下文對于數(shù)據(jù)標(biāo)注過程絕對是至關(guān)重要的。這大概是因為機(jī)器對上下文的理解能力很差。也可能是因為AI用例在不斷變化。不管是什么原因,這種需求是顯而易見的。

分享一個卡車上施工工人的例子,可以證明上下文對于開發(fā)高質(zhì)量的培訓(xùn)數(shù)據(jù)是多么重要。想象一下,有一個工人坐在卡車上,每到一個維修路段,就要下車干活,然后又回到卡車上。所以數(shù)據(jù)標(biāo)簽的問題是:工人是行人嗎?他是卡車的一部分嗎?還是說他是第三種人?

 

如果你在計算車輛,你就不會在意工人上下車。你只會對工程車感興趣;但如果你試圖操縱其他東西(比如自動駕駛或交通流量控制),避免撞到垃圾工,垃圾工的動作將會引起你極大的興趣;如果你在尋找可疑的行為,你會想把垃圾工排除在一系列類似的行為之外。

但很明顯,工人有不同的存在狀態(tài),取決于人工智能應(yīng)用的視角。對于數(shù)據(jù)標(biāo)注來說,證明一個事實:在不同的時間,一條數(shù)據(jù)可以有不同的標(biāo)注。有的時候,沒有單一的答案。

數(shù)據(jù)標(biāo)注過程的細(xì)致性對于提高數(shù)據(jù)質(zhì)量至關(guān)重要,這直接影響機(jī)器學(xué)習(xí)模型的預(yù)測推理質(zhì)量。數(shù)據(jù)可以讓預(yù)測準(zhǔn)確率達(dá)到60%到70%,也可以讓預(yù)測準(zhǔn)確率達(dá)到95%。

根據(jù)用例的不同,準(zhǔn)確性是至關(guān)重要的。假如正在構(gòu)建一個模型從視頻中來識別偷東西的行為,一個錯誤的否定(沒有發(fā)現(xiàn)盜竊行為)和一個錯誤的肯定(指控?zé)o辜的顧客)之間后果有很大的區(qū)別。

 

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2018-07-23 15:35:17

機(jī)器學(xué)習(xí)特征工程技能數(shù)據(jù)科學(xué)

2017-09-08 13:35:48

云優(yōu)先策略互聯(lián)網(wǎng)

2010-01-15 19:28:59

C++

2010-01-15 16:25:48

學(xué)習(xí)C++

2023-08-17 14:22:17

深度學(xué)習(xí)機(jī)器學(xué)習(xí)

2010-02-06 10:54:38

Android進(jìn)程

2021-04-13 09:25:21

機(jī)器學(xué)習(xí)人工智能計算機(jī)

2012-01-05 10:13:54

云計算SLA

2010-01-28 15:31:34

學(xué)習(xí)C++語言

2018-05-30 14:49:51

編程語言API語法

2010-01-26 10:01:17

學(xué)習(xí)C++

2015-08-03 10:41:52

大數(shù)據(jù)

2020-10-27 06:36:12

5G網(wǎng)絡(luò)攻擊威脅情報

2020-07-16 11:23:54

應(yīng)用程序數(shù)據(jù)安全

2012-11-02 13:44:57

大數(shù)據(jù)語音搜索Google

2010-03-15 14:47:19

Python內(nèi)置對象

2020-10-09 15:35:45

機(jī)器學(xué)習(xí)深度學(xué)習(xí)算法

2021-05-08 05:58:40

機(jī)器學(xué)習(xí)顯微鏡AI

2020-08-17 17:10:54

機(jī)器學(xué)習(xí)聚類開發(fā)

2009-04-24 15:31:12

VoIP網(wǎng)絡(luò)測試
點贊
收藏

51CTO技術(shù)棧公眾號