EasyDL輕松搞定對抗學習 多算法比對臨床試驗數據
原創(chuàng)【51CTO.com原創(chuàng)稿件】圖像學習是一種精巧的算法,其對圖像的高適應性,為很多產業(yè)變革帶來了質變。然而對于企業(yè)來講,找到能夠熟練掌握深度學習的人才,來調整圖像學習參數是很難的,加上數據科學家團隊昂貴的人力資源成本,很多中小企業(yè)望而卻步。然而,企業(yè)對于通過圖像識別適配行業(yè)解決一些痛點的需求是持續(xù)存在的。
百度EasyDL是百度公司為沒有算法基礎的開發(fā)者和企業(yè)提供的AI圖像識別方案,其具備少數據量、易于操作、快速訓練圖像識別類AI模型的優(yōu)勢。EasyDL讓中小型企業(yè)及個人可以在很短的時間獲得AI能力,將圖像識別投入到生產或者興趣制作之中,它可作為一套優(yōu)秀技術解決方案的基石。
圖像特征學習算法是從傳統圖像模式識別算法中衍生的新型算法,其算法原型借鑒于Leica Biosystems的下屬品牌Aperio系列軟件Image Analysis,是非常成熟的Image Analysis的模式識別算法的迭代進化算法。目前特征學習算法在臨床無染色尿沉渣檢驗醫(yī)療器械產品中被越來越多的應用。
在使用傳統或是AI的單一算法過程中,無論哪種算法我們都無法讓系統自行證明結果的正確性,但當引入競爭算法時,通過兩種AI算法可以相互論證結果正確性。
傳統單一AI算法無法指出自身的識別錯誤,往往需要人工復查每一個結果;而對抗算法可以有效的解決這一問題,人工只需要仲裁兩種AI的差異結果,即可完成正確的應用過程中推理。而仲裁結果在完全自主對抗系統中,會將仲裁結果重新加入訓練集,進而進化兩種AI的準確性,這樣避免了單一AI算法的過學習,也提高了AI的準確性。
因此,我嘗試把EasyDL與特征學習互相對抗,它們均具備良好的易操作性,較少的樣本量;且EasyDL與圖像特征學習算法互通用學習樣本、樣本采集及標注工具,故可相互形成對抗互校,形成更高形態(tài)的AI學習,在互相較量中形成更為精準的識別模型,不僅可滿足企業(yè)通過圖像學習解決實際問題的需求,而且可以得到較高的識別效果。
下面就以臨床檢驗的數據,按照圖像模型制作的8個步驟,來做對抗的詳細說明:
特征學習從原始圖像中制作成可用于訓練的圖像模型,需如下八個步驟:圖像增強、圖像切割、圖像標注、圖像清洗、訓練可用性審核(圖像審核)、單種類特征模型學習、多種類特異性特征學習、訓練模型注入到作業(yè)程序。
EasyDL與特征學習的訓練方式基本互通,只是單種類特征模型學習與多種類特異性特征學習過程中,EasyDL是由深度學習作為其中多個邏輯層,自主完成計算。
在訓練模型注入到作業(yè)程序環(huán)節(jié)中,特征學習依靠本地內網系統優(yōu)勢自動完成,而EasyDL提供API接口及本地化識別SDK完成部署。
EasyDL與特征學習的對比
1) 圖像增強
特征學習提供比較適合臨床檢驗鏡下圖像的“L30圖像增強”,用來調整圖像增強參數,以獲得更好的圖像特征。增強后的圖像比增強前的圖像更加清晰,細胞內紋路更加鮮明,背景更加純正,但有時也會遇到過增強,所以要適配顯微鏡和攝像頭參數來進行調節(jié)。
2) 圖像切割、圖像分類、圖像標注。
圖像切割也可以使用特征學習的快速切割分類標注軟件“L31圖像標注”系統來完成。L31的使用非常便利,只需要圈選單個細胞,再點擊細胞分類,L31就會自動完成圖像切割,并自動命名為標注名稱,并上傳至內網圖像數據服務器“HomeShip\FH\細胞名稱\”之中。
EasyDL的訓練圖像需要上傳至百度的平臺中,所以要在圖像清洗作業(yè)之后,將每一類細胞、結晶、管型、真菌單獨上傳即可,可以在EasyDL中直接標注,也可以API上傳標注后的訓練數據。
特征學習自帶的圖像切割、分類、標注系統
百度EasyDL的數據操作界面
3) 圖像清洗:
圖像清洗的目的在于清除掉與目標對象無關的圖像信息,讓訓練模型減少干擾訓練的因素。“L33特征學習系統”自帶圖像修正工具,可以簡單高效的處理訓練圖像,將無效信息去除。修圖過程僅需要幾步:
1. 點擊兩次“闊邊”,擴大邊界范圍
2. 點擊“標記背景”,讓AI能夠獲知背景色,(小紅框)
3. 點擊“涂抹”擦掉無效的雜色與雜質
4. 點擊“收邊”,盡可能將細胞主體放置在圖像中央
5. 點擊“保存圖像”,進行保存
此內置圖像修正工具,一般修正一張圖像僅需要10秒鐘。
4) 圖像訓練,EasyDL圖像上傳與審核:
首先是在http://ai.baidu.com/easydl/ 注冊或登錄,點擊開始訓練,具體見百度官方說明,然后,創(chuàng)建模型,填寫模型名稱等相關信息。
點擊“開始訓練模型”, 選擇 “圖像分類”或“物體檢測”模型進行訓練
接下來,以物體檢測模型為例,詳細介紹使用步驟:
***步:創(chuàng)建模型。自定義模型名稱
會生成剛剛創(chuàng)建的模型并顯示模型ID
第二步:創(chuàng)建數據集。我們可以自主將剛剛通過特征學習處理的一個子類名稱,命名數據集名稱。這里創(chuàng)建了兩個數據集,正常紅細胞與正常白細胞,創(chuàng)建后點擊右側的“標注/上傳”,導入數據圖像。需要注意的是每次只能上傳20張圖像。因為所上傳的圖集都是特征學習切割后的圖像,所以不會受到EasyDL的圖像大小限制。
上傳數據后進行數據標注,點擊添加標簽,框選特征圖像,設定標簽名稱并保存,“BLC”為白細胞(主要為中性粒細胞)。紅細胞及晶體標簽方法等同白細胞,不再贅述。
值得一提的是,對于數據量特別多的模型,EasyDL最近還推出了“智能標注”的功能,只需在“數據集標注/上傳”的這一步驟中點擊“智能標注”按鈕即可開啟。這個功能會自動篩選出對提升模型效果來說比較重要的圖片進行優(yōu)先標注,并對其余圖片進行預標注,可以大大提升整個數據標注過程的效率,還是非常方便的。
第三步:訓練模型。數據集上傳完畢,點擊左部導航條“訓練模型”選項,以紅細胞為例,選擇訓練紅細胞數據集。“離線識別SDK”選項不需要勾選,因為對抗訓練是基于端與云的雙平臺系統對抗。如果是沒有網絡環(huán)境下使用,可以勾選訓練離線SDK。之后我們需要等待一定時間,讓百度強大的云平臺自行訓練。本次訓練約1.5小時。
第四步:模型校驗。訓練完成后,點擊左側導航欄校驗模型。
第五步:模型發(fā)布。校驗模型效果可以滿足使用后,點擊提交模型上線申請,大約1個工作日內就可以完成模型審核,通過后可進行模型部署上線。
特征學習圖像審核:
特征學習圖像訓練需要使用“L33圖像學習系統”,其由五部分構成:特征提取方法編輯器、圖像目錄、可訓練圖像清單、特征指標清單、單指標計分與學習狀況。特征基礎元素由特征方法編輯器控制,一般不建議修改。
圖像單體訓練:
1.首先通過圖像目錄確認訓練圖集的路徑;
2.***次訓練點擊“全否”,然后點擊紅色按鈕“開始訓練”;
3.每次會自動識別訓練圖片的細胞邊緣,需要醫(yī)師確認輪廓是否囊括整個細胞,如果囊括則點擊“是“,則進行下一圖訓練。
4.訓練完成后會提示完成,“L33圖像學習系統”會自動計算出學習的結果于“特征指標清單”之中,可以點擊查看;
5.對于不可用的圖像可以點擊“否”,進行暫停修正作業(yè),或刪除、或繼續(xù)修改;
6.“L33圖像學習系統”會自動將打勾的圖像默認為可用圖像,所以不會彈出選項。
特異性訓練:
調整權值:在特征指標清單中,可以根據待識別分型的特性,對特征指標進行選擇;未被選擇的指標不會參與計算。例如紅細胞的體積和周長在一定范圍,所以可被使用,而晶體沒有大小限制,卻有自身形狀和色彩的區(qū)別,因而可以使用特殊色系指標。
每種指標有各自的權重,點擊指標后,可以選擇權重狀況。系統會根據權重選項的不同,自動計算出指標權重檔位,并在下次計算中,規(guī)劃計分標準。權重不同,計分棒的粗細也會不同,但是計分只會在下次訓練中更新。
當調整了權重后,再次點擊紅色按鈕“開始訓練”,則程序會在3~5分值內快速完成對新指標的識別模型。
測試識別:測試識別依賴于“L35圖像識別系統”,L35是root主系統的后臺系統,所以沒有操作界面,需要依賴指令打開;但我們提供了L35的測試指令文件。
測試模式下,L35不會對細胞種類進行判定,而是將每一個細胞,針對該類型的識別計分進行展示,一般情況下,符合識別模型(編號02為白細胞)為正數,不符合及圖像質量欠佳的為負數,圖中白細胞基本為正數,不符合的均為負數。
偶爾情況下,你粘連圖像會為正數,此種狀況,只需要在尿沉渣主系統中,修改識別計分范圍即可,或在提取方法中,引用圖像分割函數。如果識別狀況仍然不滿意,可以通過調整權重實現精確控制識別,可以多嘗試幾次,即可成功。
正式識別程序,是由尿沉渣主系統控制并調用,識別結果會顯示在尿沉渣主系統之中。在主系統正式識別操作中,對于錯誤的標注進行修改,系統會將被修改細胞圖自動歸納為新的學習樣本,在下一次系統學習中,即可實現自我的升級迭代。
EasyDL的模型部署:
當EasyDL模型審核通過之后,我們有兩種方法使用EasyDL的識別,一種是使用“體驗H5”,生產H5的二維碼,上傳圖像進行識別。另外還可以通過直接調用模型的API接口來實際測試效果。
對抗算法的實現:
EasyDL支持部署在iOS、安卓系統、Windows、Linux系統的端設備之中,可實現雙前端AI對抗驗證。
EasyDL與特征學習目前的對抗,主要體現在錯誤識別的相互指正,然后通過人為分析結果,將錯誤的圖像,重新加入到訓練模型的數據集之中,讓模型實現疊代。目前,對抗訓練仍是需要采用手工完成。
多種AI算法/產品相互的優(yōu)劣勢在臨床檢驗尿沉渣中的比較:
EasyDL與特征學習目前各自的優(yōu)劣勢:
EasyDL是百度出品的高級AI算法,其定位是易于訓練的深度學習圖像識別模型訓練平臺。其具備非常強的泛化識別能力、更簡便的圖像計數和物體識別解決方案的部署能力,同時依賴于百度強大的云平臺訓練,節(jié)約了企業(yè)對于訓練服務器的投入、深度學習人才的投入,讓企業(yè)更加專注于業(yè)務產品化。
由于EasyDL對于訓練圖像尺寸與大小的限制,在一些特定場景使用時,例如工業(yè)及臨床顯微中,過GB存儲量的圖像,就需要切分后來實現大型圖像的訓練和識別。對于醫(yī)療顯微、工業(yè)掃描作業(yè)中,是可以通過上下游的圖像處理系統進行適配作業(yè)。
EasyDL增加了主要平臺的兼容能力,如iOS、安卓、Windows、Linux等。在WIN平臺上,也可以很好的通過winAPI對第三方軟件進行智能化二次開發(fā),因此降低了企業(yè)的開發(fā)難度。
EasyDL現已完全具備生產力轉化作業(yè)能力,也正是工業(yè)與醫(yī)療領域所需要的得力圖像識別內核系統。
特征學習的劣勢在于過度需要依賴圖像切割算法,面對較為復雜的圖像,因為不能切割出個體圖像,而無法識別;所以特征學習只能局限于特定的離散類型圖像:臨床細胞學、組織學、工業(yè)顆粒物檢測、流水線質檢等。而在模型泛化的角度上看,特征學習完全是針對某一應用的定制模型,無法具備泛化能力。
任何AI技術均為人工智能的一個角度,均不能獨立解決行業(yè)應用的復雜問題,所以需要相互補償各自的缺點,才能走的更遠。
【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】