自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

美國勞工統(tǒng)計局使用機器學習自動執(zhí)行數(shù)據(jù)編碼

人工智能 機器學習
在本文中,我們將一同了解他對于將機器學習應用于政府業(yè)務(wù)場景,特別是文檔與人工流程中方面的寶貴見解。

政府機構(gòu)永遠充斥著各種文件,其中又不乏大量紙質(zhì)文檔;即使是對于電子文檔,實際處理與解讀仍然需要耗費大量的人力。為此,聯(lián)邦機構(gòu)寄希望于AI技術(shù),即通過高級機器學習、神經(jīng)網(wǎng)絡(luò)以及自然語言處理(NLP)技術(shù)幫助改善這類文檔的處理效率,盡可能將寶貴的人力資源解放出來。雖然其中不少技術(shù)在其他行業(yè)中早已擁有成熟的應用,并被拓展以增強各類工作流程及任務(wù),但在部分政府部門內(nèi),這些技術(shù)還完全屬于新鮮事物。

以美國勞工統(tǒng)計局(BLS)為例,該機構(gòu)的主要職責在于執(zhí)行職業(yè)傷害與疾病調(diào)查,以確保各類工作場所中常見的健康危害問題并協(xié)助制定指導性政策。為了完成這項任務(wù),勞工局在全國各地的辦公室中設(shè)有數(shù)十名訓練有素的員工,專職通過工作場所內(nèi)的調(diào)查數(shù)據(jù)對各類傷害及疾病進行分類。但是,這方面工作一直以手動方式執(zhí)行,并導致各類標記、編碼錯誤乃至速度與成本瓶頸一直妨礙著整體流程的效率提升。

[[339388]]

▲ 圖:Alex Measure, 美國勞工統(tǒng)計局經(jīng)濟學家

為了簡化整個流程,勞工局決定引入機器學習技術(shù)。約十年之前,勞工局經(jīng)濟學家Alex Measure決定探索機器學習(ML)技術(shù)如何幫助該機構(gòu)改進流程效率,他本人也與我們分享了將AI技術(shù)納入勞工局乃至整個聯(lián)邦政府當中可能出現(xiàn)的獨特挑戰(zhàn)、各機構(gòu)在AI應用過程中面臨的數(shù)據(jù)難題、外加未來幾年內(nèi)他最為期待的重要發(fā)現(xiàn)。

在本文中,我們將一同了解他對于將機器學習應用于政府業(yè)務(wù)場景,特別是文檔與人工流程中方面的寶貴見解。

問:勞工局在數(shù)據(jù)收集與處理方面面臨的特殊挑戰(zhàn)是什么?

Alex Measure: 勞工局需要面向眾多方向收集大量專題信息,具體涵蓋就業(yè)、人力成本、工作時間以及工作場所傷害風險等各個方面。在調(diào)查當中,各領(lǐng)域間唯一的共通點在于,調(diào)查結(jié)果往往以自然語言的形式存在。在信息收集過程中,無論是采取訪談、調(diào)查或者還是其他方式,收集到的大部分內(nèi)容都是以語言形式傳達。為此,我們需要將語言轉(zhuǎn)換為統(tǒng)計數(shù)據(jù),這就是我們常說的編碼過程。

在此過程中,我們需要分配標準化分類指標以指示值得關(guān)注的關(guān)鍵特征。例如,《職業(yè)傷害與疾病調(diào)查》每年收集數(shù)十萬份與工作相關(guān)的傷害與疾病調(diào)查資料。為了回答諸如“門衛(wèi)人員在工作中最常見的傷害原因是什么?”這類問題,我們需要認真閱讀每一份描述,以編碼方式將對方的職業(yè)與造成傷害的因素關(guān)聯(lián)起來。接下來,我們匯總結(jié)果信息以回答實際問題。直到最近,整個流程仍然相當枯燥繁瑣,而且大部分工作需要以手動方式完成。

在職業(yè)傷害與疾病調(diào)查方面,我們每年大約需要25000個工作時。如果希望盡快完成任務(wù),則意味著需要同時雇用更多人力、培訓更多新雇員,并保證他們能夠以統(tǒng)一的方式對內(nèi)容做出解讀。這相當困難,實際上我們發(fā)現(xiàn),即使是兩位同樣經(jīng)驗豐富的專家,在編寫同一份傷害說明材料時也只有70%左右的幾率針對相同的素材給出完全相同的傷害編碼分類。這樣的挑戰(zhàn)不僅存在于勞工局之內(nèi),也廣泛存在于全球各類從事類似任務(wù)的組織當中。

問:那么勞工局是如何使用機器學習技術(shù)解決這些問題的?

Alex Measure: 七年之前,勞工局完成了《職業(yè)傷害與疾病調(diào)查》的全部編碼工作。過去一年中,我們使用有監(jiān)督機器學習(特別是深度神經(jīng)網(wǎng)絡(luò))自動完成了超過85%的處理任務(wù)。隨后,勞工局開始逐步將這些技術(shù)用于處理其他相關(guān)任務(wù),涵蓋從職業(yè)/生產(chǎn)分類,到醫(yī)療福利及工作要求的各個方面。

問:多年以來,勞工局對于AI技術(shù)的看法與應用方式經(jīng)歷了哪些轉(zhuǎn)變?

Alex Measure: 我加入勞工局大概是12年前,那時候人們主要還是在用知識工程或者基于規(guī)則的方法進行素材編碼。其中的基本思路是,如果希望計算機執(zhí)行某項操作,則需要明確告知它執(zhí)行任務(wù)所需要的每條規(guī)則與信息。例如,如果要對職業(yè)進行分類,則可能需要創(chuàng)建一份清單,列出所有可能出現(xiàn)的職稱以及與職稱相對應的職業(yè)代碼。

這種方法在處理簡單及標準化任務(wù)時表現(xiàn)不錯,但遺憾的是,即使是在職位分類這種相當具體的應用領(lǐng)域當中,系統(tǒng)也幾乎無法直接處理人類語言。例如,在《職業(yè)傷害與疾病調(diào)查》中,我們發(fā)現(xiàn)每年收到的職位中約有2000種被系統(tǒng)直接對應為“管理員”。更糟糕的是,總會出現(xiàn)某些以往從未出現(xiàn)在數(shù)據(jù)中的新職位,而且部分職位與所在行業(yè)緊密相關(guān),具體取決于特定企業(yè)的命名慣例或者行業(yè)中的傳統(tǒng)用語。結(jié)果就是,我們需要制定體量龐大且相當復雜的規(guī)則,而這一切最終也只能支持840多種職業(yè)分類。更要命的是,這套系統(tǒng)的構(gòu)建與維護都極為困難。

有監(jiān)督機器學習帶來了一種替代方案——相較于明確告知計算機其需要了解以及執(zhí)行的任務(wù)內(nèi)容,現(xiàn)在我們可以引導計算機通過數(shù)據(jù)進行學習,由其自主找到執(zhí)行某些任務(wù)的最佳方法。只要大家擁有成規(guī)模的數(shù)據(jù)素材(多年以來,我們已經(jīng)積累到可觀的數(shù)據(jù)資源),那么往往只需要很少的人工投入就能構(gòu)建起一套效率極高的系統(tǒng)。在我們的案例中,勞工局在短短幾周之內(nèi)就使用自由開源軟件構(gòu)建起我們的第一套機器學習系統(tǒng),并發(fā)現(xiàn)其性能遠遠超越我們以往長期使用的、基于規(guī)則的昂貴方案。更令人驚訝的是,其性能甚至比我們的編碼員還要高。

與傳統(tǒng)方案相比,機器學習方法也給自動化帶來了更多發(fā)展空間。如今,勞工局與全球各統(tǒng)計機構(gòu)已經(jīng)在類似的任務(wù)中迅速推廣此項技術(shù)。當然,機器學習在其他領(lǐng)域也擁有良好表現(xiàn)。我們正使用機器學習技術(shù)自動檢測數(shù)據(jù)錯誤,并自動匹配并標記數(shù)據(jù)集中的缺失記錄。這對我們可謂意義重大,能夠幫助勞工局通過更多不同來源收集到大量數(shù)據(jù)。

問:AI/ML技術(shù)的介入,給原本的編碼員們帶來了怎樣的影響?

Alex Measure: 在最初考慮引入自動化解決方案時,人們普遍感到擔心,不少員工抵制自動化并將其視為一種威脅。但實際情況并非如此,我認為這得益于我們采取的具體實施方式以及對整體狀況的綜合考量。首先,我們很早就做出決定,將自動化的重點放在提高數(shù)據(jù)質(zhì)量方面。這非常重要,因為除了數(shù)據(jù)質(zhì)量本身的意義之外,這也代表著一種非常新穎的處理方式,要求我們保證編碼流程的正確執(zhí)行、并在出現(xiàn)問題時及時啟動預先制定的可靠備份計劃。我們的規(guī)劃基本如下:

第一,將計算機最擅長的工作交由自動化處理,將人類最擅長的工作留給雇員。

第二,逐步引入自動化機制,保證員工有時間適應工作量與工作方式的變化。

第三,由雇員負責監(jiān)督自動分配的代碼,并在他們認為計算機存在錯誤時分配人員做出調(diào)整。

第四,將節(jié)約下的資源用于其他重要任務(wù),例如數(shù)據(jù)收集與數(shù)據(jù)審查。

結(jié)果就是,在隨后的六年時間里,越來越多的常規(guī)編碼工作逐漸被速度更快、質(zhì)量更好的數(shù)據(jù)審查與收集自動化方案所接管。這還帶來令人意外的結(jié)果,即我們對常規(guī)手動編碼的需求雖然大大減少,但模型無法處理的高難度情況仍然依賴于人類專家。因此,自動化程度越高,能夠處理的總數(shù)據(jù)量就越大,其中需要人為介入處理的數(shù)據(jù)同樣更多。結(jié)果就是,負責人為調(diào)整以及驗證機器學習系統(tǒng)是否正常運行的雇員反而有所增加。

問:您能否分享一些在勞工局的應用場景中,AI技術(shù)發(fā)現(xiàn)的有趣或者令人意外的洞見?

Alex Measure: 就個人來看,我認為這里有兩個令人印象深刻的驚喜。首先就是自由開源軟件的存在,居然讓機器學習系統(tǒng)的構(gòu)建變得如此輕松,且實際表現(xiàn)遠優(yōu)于我們以往使用的高成本、基于規(guī)則的方法。第二點在于,這類系統(tǒng)在編碼分配準確率方面比經(jīng)過培訓的人類編碼員更高。這一切都是我們剛開始難以想象的,事實上整個勞工局都花了一段時間才適應如此出色的效果,而且其結(jié)果確實非常穩(wěn)定。

平均來看,我們的機器學習系統(tǒng)自上線以來就一直在編碼準確率方面超越了人類雇員,而且二者的差距隨著大量數(shù)據(jù)的涌入以及隨之進行的后續(xù)訓練而越來越大,這也促使我們逐步轉(zhuǎn)向更強大的機器學習算法——例如深度神經(jīng)網(wǎng)絡(luò)。

問:我們在數(shù)據(jù)使用方面面臨著哪些獨特挑戰(zhàn)?這些挑戰(zhàn)是否會成為政府機構(gòu)在使用AI技術(shù)方面的障礙?

Alex Measure:最大的挑戰(zhàn)之一在于數(shù)據(jù)保密性。機器學習需要大量數(shù)據(jù),政府機構(gòu)則擁有著豐富的實用性數(shù)據(jù),但卻不能任意公開加以使用——這無疑限制了各機構(gòu)使用機器學習技術(shù)的具體途徑。例如,在我們第一次嘗試使用深度神經(jīng)網(wǎng)絡(luò)時,我們無法直接使用云資源,因為現(xiàn)有政策對此明令禁止。這就構(gòu)成了大問題,因為勞工局自身顯然沒有充足的硬件以訓練我們需要的各類神經(jīng)網(wǎng)絡(luò)模型。最終,我們通過內(nèi)部采購及安裝必要硬件解決了這個問題,但相當一部分其他機構(gòu)恐怕難以跨過這道門檻。

另一大重要挑戰(zhàn)在于模型共享。當勞工局開發(fā)出能夠自動對職業(yè)或傷害進行標準化類別劃分的機器學習模型時,這一成果不僅能夠服務(wù)于勞工局自身,對于其他處理類似任務(wù)的聯(lián)邦機構(gòu)也同樣意義深遠,甚至能夠給外部研究機構(gòu)及研究人員帶來巨大幫助。由于我們掌握著大量相關(guān)數(shù)據(jù),因此勞工局等政府機構(gòu)在訓練這類模型方面擁有著特殊的優(yōu)勢地位。但有研究表明,這類模型可能在無意之間透露出訓練過程中所使用的的數(shù)據(jù)信息,這就要求我們在模型共享方面小心再小心。近期其他研究表明某些技術(shù)有望緩解這些風險,勞工局已經(jīng)開始進行探索,但這仍是一項極為艱難的挑戰(zhàn)。

問:從更廣泛的角度來看,聯(lián)邦政府中的哪些領(lǐng)域有望在AI技術(shù)的推動下實現(xiàn)顯著的效率提升?

Alex Measure: 我在政府機構(gòu)工作的時間不短了,在我看來幾乎每個聯(lián)邦機構(gòu)都有望利用有監(jiān)督機器學習技術(shù),實現(xiàn)相當一部分日常任務(wù)的自動化轉(zhuǎn)型。統(tǒng)計機構(gòu)就是最典型的一例,他們的主要工作內(nèi)容就是語言編碼與分類。目前,越來越多的統(tǒng)計機構(gòu)已經(jīng)在使用類似的技術(shù)自動檢測錯誤,并匹配來自不同數(shù)據(jù)集的記錄內(nèi)容。

問:聯(lián)邦機構(gòu)可以采取哪些措施以吸引那些具備技術(shù)創(chuàng)新能力的高水平勞動力?

Alex Measure: 我認為聯(lián)邦機構(gòu)最好的人才吸引方法,就是強調(diào)使命感與榮譽感。聯(lián)邦機構(gòu)關(guān)注的往往是那些最重要的任務(wù),一旦成功將造福整個國家,這對于具有強烈公民意識的人才極具吸引力。畢竟有意義的項目可不是那么容易接觸到的。我還想強調(diào)的是,外部招聘并不是吸引熟練勞動力的唯一途徑。勞工局的不少編碼項目及后續(xù)機器學習嘗試依靠的并不是外部AI專家,而是經(jīng)過培養(yǎng)、對于自動化技術(shù)抱有濃厚興趣的內(nèi)部雇員。當然,在此期間Coursera等免費在線教育資源也發(fā)揮了重要作用。

勞工局之所以能夠走通這條道路,是因為員工已經(jīng)在統(tǒng)計領(lǐng)域擁有豐富的經(jīng)驗。可以肯定的是,成功的機器學習項目既需要強調(diào)技術(shù)的一面,也需要關(guān)注專業(yè)知識方面的積累。政府雇員對專業(yè)的認識已經(jīng)非常深刻,互聯(lián)網(wǎng)上又有著大量能夠自由獲取的資源建立技術(shù)基礎(chǔ),二者就這樣和諧統(tǒng)一了起來。

問:展望未來幾年,您最期待哪些AI技術(shù)成果?

Alex Measure: 我的工作主要依賴于有監(jiān)督機器學習,但其中仍存在著一大局限。我們需要豐富的訓練數(shù)據(jù)才能獲得良好的性能,這里說的不是少量數(shù)據(jù),而是體量龐大、遠超普通人學習所需的數(shù)據(jù)集合。在大多數(shù)情況下,我們需要為模型提供成百上千的訓練數(shù)據(jù)示例,才能讓其掌握一種相關(guān)概念。這是個巨大的障礙,因為大多數(shù)應用場景中并不能提供這么豐富的數(shù)據(jù)。

過去幾年當中,研究人員們已經(jīng)在這方面取得了巨大的進展。這種進展主要來自兩個方面:

其一是遷移學習,即將一項任務(wù)中學習到的知識轉(zhuǎn)移到另一項任務(wù)上,有時候人們也將其稱為自我監(jiān)督學習。這基本上就是將有監(jiān)督學習技術(shù)應用于無明確標記的數(shù)據(jù)。最近,一種流行的自我監(jiān)督語言任務(wù)開始被人們所重視,即首先收集大量文本、而后重復采樣其中的部分小規(guī)模子集、隱藏采樣中的某些單詞,訓練模型根據(jù)上下文預測缺失的片段。只要能夠正確完成這一操作,我們即可獲得一套對語言擁有深刻理解的模型,且不需要任何顯式標簽。接下來,我們就能通過遷移學習將該技術(shù)應用于指向不同語言處理任務(wù)的模型,例如預測傷害分類等。如果一切順利,那么其能夠顯著降低任務(wù)自動化所需要的訓練數(shù)據(jù)總量。這無疑為目前由于缺乏訓練數(shù)據(jù)而無法實現(xiàn)自動化的眾多應用場景,打開了通向機器學習的大門。

我們關(guān)注的另一個重要領(lǐng)域在于差異化隱私,其在AI內(nèi)部與外部皆有應用。最新進展已經(jīng)帶來一種全新機制,能夠在實現(xiàn)機器學習模型共享的同時,為基礎(chǔ)訓練數(shù)據(jù)提供嚴格的隱私保護。一領(lǐng)域的進展有望加快受信數(shù)據(jù)收集方之間的自動化成果流通(例如經(jīng)過訓練的機器學習模型以及統(tǒng)計估計值),同時提升基礎(chǔ)數(shù)據(jù)的保密性水平。 

責任編輯:龐桂玉 來源: 科技行者
相關(guān)推薦

2021-03-11 10:48:33

機器學習數(shù)據(jù)清理

2024-07-16 22:45:19

2022-08-04 13:45:55

安全數(shù)據(jù)風險評估隱私

2009-09-24 09:51:51

美國科技業(yè)裁員

2022-12-27 13:32:58

2009-04-04 20:23:04

裁員美國失業(yè)

2020-06-20 13:57:29

物聯(lián)網(wǎng)工業(yè)物聯(lián)網(wǎng)技術(shù)

2021-11-14 15:13:18

存儲數(shù)據(jù)存儲技術(shù)

2019-09-30 10:12:21

機器學習數(shù)據(jù)映射

2019-08-22 14:56:37

程序員大數(shù)據(jù)編程語言

2021-06-28 14:13:26

人工智能數(shù)據(jù)科學家數(shù)據(jù)

2018-07-20 11:10:27

男人養(yǎng)家大數(shù)據(jù)

2021-03-08 21:52:44

Windows服務(wù)器程序

2024-04-02 10:11:28

數(shù)據(jù)中心服務(wù)器IT資產(chǎn)轉(zhuǎn)移

2011-08-18 10:20:26

云計算國家統(tǒng)計局大數(shù)據(jù)

2024-03-14 16:29:13

DemoAI就業(yè)

2022-08-16 11:18:42

自動化機器人人工智能

2017-12-29 13:50:22

人工智能機器學習趨勢預測

2015-11-11 16:52:49

高清視頻會議華為

2009-06-04 14:44:30

統(tǒng)計局運維管理北塔
點贊
收藏

51CTO技術(shù)棧公眾號