確保數(shù)據(jù)的質(zhì)量將優(yōu)化算法的性能的6個(gè)技巧
如今,企業(yè)開(kāi)始意識(shí)到分析算法只與其所針對(duì)的數(shù)據(jù)一樣好。以下是一些改進(jìn)數(shù)據(jù)質(zhì)量的方法來(lái)獲得***的洞察力。
在凱西奧尼爾的著作《數(shù)學(xué)毀滅的武器》中,解釋了如果大數(shù)據(jù)算法的運(yùn)行質(zhì)量不高,那么大數(shù)據(jù)算法會(huì)產(chǎn)生不正確的結(jié)果。
奧尼爾以一個(gè)學(xué)區(qū)為列,這個(gè)學(xué)區(qū)運(yùn)行了一種算法來(lái)識(shí)別其200名表現(xiàn)最差的教師,。其中一位被選出的教師實(shí)際上是表現(xiàn)最出色的,但是她的班級(jí)中有許多學(xué)生都是來(lái)自表現(xiàn)不佳的學(xué)校。結(jié)果,老師所教的學(xué)生在測(cè)試中表現(xiàn)不佳,因此對(duì)這位老師評(píng)價(jià)不高。
奧尼爾認(rèn)為,其他形式的輸入,例如來(lái)自管理員、學(xué)生和同伴的老師的精彩評(píng)論,應(yīng)該被納入與算法相關(guān)的數(shù)據(jù)運(yùn)算中,也許可以防止這種事件的發(fā)生。這是對(duì)每一位大數(shù)據(jù)從業(yè)者的給了一個(gè)提醒,即分析算法只與其運(yùn)行的數(shù)據(jù)一樣好。
企業(yè)如何確保數(shù)據(jù)的質(zhì)量將優(yōu)化算法的性能,并最終確保從中獲得見(jiàn)解?
關(guān)鍵在于數(shù)據(jù)準(zhǔn)備和匹配企業(yè)想要應(yīng)用算法的業(yè)務(wù)用例。
以下是開(kāi)發(fā)質(zhì)量數(shù)據(jù)和算法的六個(gè)***實(shí)踐:
1.“真實(shí)”的算法
企業(yè)必須認(rèn)真構(gòu)建算法適合自己的商業(yè)案例。如果是醫(yī)療保健提供者,并且想要確定服務(wù)區(qū)域中存在心臟問(wèn)題高風(fēng)險(xiǎn)人群,則可能需要構(gòu)建一個(gè)算法,詢問(wèn)“65歲以上的人是否已經(jīng)有心臟手術(shù)?”而不僅僅是“誰(shuí)超過(guò)了65歲?
2.使數(shù)據(jù)實(shí)現(xiàn)標(biāo)準(zhǔn)化
為避免獲取重復(fù)數(shù)據(jù)并可能會(huì)影響分析結(jié)果,重復(fù)的記錄應(yīng)該標(biāo)準(zhǔn)化為單一數(shù)據(jù)事件。
3.修復(fù)損壞的數(shù)據(jù)
在某些情況下,人們需要參與人工糾正損壞的數(shù)據(jù),然后才能通過(guò)算法檢查數(shù)據(jù)。破碎的數(shù)據(jù)可能包含拼寫錯(cuò)誤(例如,緬因州居民的MN代替ME),或者可能是某人的姓氏拼寫錯(cuò)誤,從而產(chǎn)生不應(yīng)包含在數(shù)據(jù)集中的額外記錄。數(shù)據(jù)準(zhǔn)確性越好,分析結(jié)果就越準(zhǔn)確。
4.消除無(wú)關(guān)的數(shù)據(jù)
企業(yè)可以越多地將數(shù)據(jù)范圍縮小到其正在檢查的特定用例的邊界,其算法能夠更快地處理數(shù)據(jù),算法將提供企業(yè)所尋求的見(jiàn)解的可能性越大。
5.獲得用戶的一致意見(jiàn)
不要在沒(méi)有首先與用戶核對(duì)的情況下就將企業(yè)要排除的數(shù)據(jù)做出單方面決定,因?yàn)樗麄兛赡苤榔髽I(yè)不知道的內(nèi)容。
6.檢查結(jié)果
大數(shù)據(jù)算法和查詢的趨勢(shì)是根據(jù)需要修改并重新運(yùn)行它們,但不一定要記錄結(jié)果。相反,應(yīng)該始終設(shè)置結(jié)果基準(zhǔn)并對(duì)其進(jìn)行測(cè)量。例如,如果企業(yè)的***個(gè)數(shù)據(jù)算法只會(huì)使產(chǎn)品的潛在購(gòu)買者獲得3%的響應(yīng)率(最終購(gòu)買1%的產(chǎn)品),那么需要知道是否修改后的查詢是否優(yōu)于這個(gè)。