機(jī)器學(xué)習(xí)如何為臨床試驗業(yè)務(wù)節(jié)省數(shù)百萬美元
?作為一家大型臨床試驗服務(wù)提供商,WCG對許多藥物和醫(yī)療設(shè)備的市場路徑具有相當(dāng)大的影響。但作為30多家前獨立的公司的集合體,很難獲得支持這些服務(wù)的一致數(shù)據(jù)。這就是Tamr的數(shù)據(jù)掌握解決方案提供幫助的地方。
作為一個臨床服務(wù)組織,WCG代表制藥公司和設(shè)備制造商處理臨床試驗的所有方面,從人力資源和IT到患者參與和道德審查,為默克和羅氏等制藥巨頭以及數(shù)以千計的中小型制藥初創(chuàng)公司和研究集團(tuán)提供關(guān)鍵服務(wù),這些公司尋求獲得監(jiān)管機(jī)構(gòu)對新藥和設(shè)備的批準(zhǔn)。
該公司唯一沒有提供的服務(wù)就是進(jìn)行實際試驗?!拔覀儾贿@么做?!痹摴镜氖紫夹g(shù)官兼數(shù)據(jù)官阿特·莫拉萊斯(Art Morales)說。
在過去十年中,WCG通過收購35家公司,在臨床試驗行業(yè)建立了有利可圖的利基市場。每一家公司——其中一些已經(jīng)有50多年的歷史——都專門處理臨床試驗過程的某些方面。這些公司開發(fā)了他們自己的定制軟件應(yīng)用程序來自動化他們的各種業(yè)務(wù)流程,提供了非常有價值的知識產(chǎn)權(quán)來源。
從每個獨立業(yè)務(wù)的角度來看,擁有不同的系統(tǒng)很有意義,但這對WCG構(gòu)成了挑戰(zhàn),WCG希望對所有子公司的運營保持一致的看法。
該公司最初試圖以人工解決數(shù)據(jù)不一致的問題。一個大約5到10人的團(tuán)隊工作了兩年,根除了35家子公司使用的不同系統(tǒng)中存在的拼寫錯誤、重復(fù)條目和其他數(shù)據(jù)錯誤。經(jīng)過清理的標(biāo)準(zhǔn)化數(shù)據(jù)存儲在運行在云端的WCG數(shù)據(jù)倉庫中,在那里可以使用各種強大的分析引擎對數(shù)據(jù)進(jìn)行分析。
“我們遇到的一個大問題是,你如何確定一個‘節(jié)點’在不同的組織中是同一個‘節(jié)點’?” 莫拉萊斯解釋道?!霸谝恍┫到y(tǒng)中,可能有地址,也可能沒有地址,也可能地址拼寫不正確。有些數(shù)據(jù)可能只是缺失了,真的有很多不確定性?!?/p>
由于這種不確定性和需要逐個作出決定,手工掌握數(shù)據(jù)的過程是乏味和耗時的。該公司花費了數(shù)百萬美元來掌握數(shù)據(jù),但數(shù)據(jù)仍然存在不一致性。
莫拉萊斯意識到應(yīng)該有更好的辦法。他從Tamr那里聽說了一個數(shù)據(jù)掌握工具,它使用機(jī)器學(xué)習(xí)來自動識別大型數(shù)據(jù)集中的已知實體。
基于機(jī)器學(xué)習(xí)的數(shù)據(jù)掌握
Tamr是一個數(shù)據(jù)質(zhì)量工具,誕生于八年前,源自麻省理工學(xué)院著名計算機(jī)科學(xué)家Mike Stonebraker進(jìn)行的學(xué)術(shù)研究。
據(jù)曾長期擔(dān)任Qlik高管、現(xiàn)為Tamr首席產(chǎn)品官的安東尼·戴頓(Anthony Deighton)稱,Stonebraker認(rèn)為,機(jī)器學(xué)習(xí)對于解決長期存在的數(shù)據(jù)質(zhì)量問題是必要的,這些問題在大數(shù)據(jù)規(guī)模下會加劇。
多年來,解決這一難題的規(guī)定解決方案一直是主數(shù)據(jù)管理(MDM)項目。不再依賴于每個單獨的系統(tǒng)來確保所有的事情都是正確的,單獨的數(shù)據(jù)系統(tǒng)將擁有指向已知的數(shù)據(jù)副本的指針——可以稱之為“黃金唱片”。
金唱片的方法可以解決問題,至少他們是這么認(rèn)為的。然而,一旦遇到現(xiàn)實,再周密的計劃也有化為塵土的風(fēng)險。這正是傳統(tǒng)MDM所發(fā)生的情況。
依靠人類來清理和管理數(shù)據(jù)是徒勞的。這是行不通的。
Stonebraker對這個問題的深刻見解是使用機(jī)器學(xué)習(xí)來對數(shù)據(jù)進(jìn)行分類,就像谷歌在早期互聯(lián)網(wǎng)上使用機(jī)器學(xué)習(xí)來自動對網(wǎng)站進(jìn)行分類一樣,這打敗了雅虎(Yahoo)手動管理互聯(lián)網(wǎng)的努力。
通過訓(xùn)練機(jī)器識別業(yè)務(wù)系統(tǒng)中的實體,Tamr找到了一種自動創(chuàng)建黃金唱片的方法。團(tuán)隊得出的一個關(guān)鍵結(jié)論是,當(dāng)人們被要求用有限的一組選項來確認(rèn)一致性時,要比同時使用幾十個或數(shù)百個選項做得好得多。
臨床上黃金唱片
WCG的Tamr試驗于2021年5月開始。經(jīng)過一段時間的訓(xùn)練,Tamr軟件觀察并學(xué)習(xí)員工如何處理數(shù)據(jù)差異。
WCG的一組員工與Tamr一起檢查和清理數(shù)據(jù)倉庫中的所有數(shù)據(jù)源。該軟件識別了“集群”,即兩個或兩個以上的術(shù)語,它們在不同的應(yīng)用程序中表示相同的東西,并作為黃金記錄加載在WCG的云數(shù)據(jù)倉庫中。
在將數(shù)據(jù)加載到數(shù)據(jù)倉庫之前,每個數(shù)據(jù)源都要通過Tamr運行。數(shù)據(jù)源的大小從大約50,000條記錄到超過100萬條記錄不等,每個實體可能有200列左右。問題不在于數(shù)量,而在于復(fù)雜性。除了將數(shù)據(jù)掌握過程加快約4倍之外,Tamr工具還產(chǎn)生了更標(biāo)準(zhǔn)化的數(shù)據(jù),這意味著業(yè)務(wù)運營的清晰度更高。
“當(dāng)你清理數(shù)據(jù)時,現(xiàn)在你可以使用更干凈的數(shù)據(jù)來獲得更好的運營洞察力?!?莫拉萊斯說?!拔覀兛梢酝ㄟ^Salesforce和我們的應(yīng)用程序進(jìn)行匹配,以知道這些是正確的東西。以前,如果數(shù)據(jù)沒有被清洗干凈,你會匹配50%。現(xiàn)在我們可以匹配80%。因此,使用我們正在做的事情有非常明顯的操作好處。”
Tamr不能成功地將所有實體匹配到集群中,仍然有一些邊緣情況需要人類的專業(yè)知識。在這些情況下,軟件會讓操作員知道它對匹配的信心很低。但根據(jù)莫拉萊斯的說法,Tamr非常擅長找到明顯的匹配。他說,從第一天起,準(zhǔn)確率約為95%。
“你必須接受任何數(shù)據(jù)掌握項目都會出現(xiàn)不匹配。會出現(xiàn)第一類和第二類錯誤,”他說?!叭绻隳軓?...追蹤這些錯誤的來源就很好了。因為人類也會犯同樣的錯誤?!?/p>
此外,Tamr還有助于WCG更好地理解其數(shù)據(jù)。
莫拉萊斯說,該公司的人工數(shù)據(jù)掌握方法總共花費了數(shù)百萬美元,而Tamr的費用不到100萬美元。數(shù)據(jù)質(zhì)量的改善更難量化,但可以說是更重要的。?