AI分析手機(jī)實(shí)現(xiàn)精準(zhǔn)扶貧:伯克利研究登上Nature
新冠大流行摧毀了許多低收入和中等收入國家,導(dǎo)致廣泛的糧食不安全以及生活水平的急劇下降。為了應(yīng)對這場危機(jī),世界各國政府和人道主義組織已向超過 15 億人分發(fā)了社會援助。但是,他們正面臨著一個(gè)關(guān)鍵的挑戰(zhàn):在現(xiàn)有數(shù)據(jù)的情況下,快速確定最需要援助的目標(biāo)人群仍是一項(xiàng)艱巨的任務(wù)。
在近日發(fā)表在 Nature 上的論文《Machine Learning and Phone Data can Improve Targeting of Humanitarian Aid》中,來自加州大學(xué)伯克利分校、德國曼海姆大學(xué)、美國西北大學(xué)的研究者展示了利用手機(jī)網(wǎng)絡(luò)的數(shù)據(jù)可以提升人道主義救援的針對性。他們使用傳統(tǒng)調(diào)研數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)算法,以識別用戶手機(jī)數(shù)據(jù)中的貧困狀況。然后,經(jīng)過訓(xùn)練的算法可以優(yōu)先向那些最貧困的手機(jī)用戶提供援助。
論文地址:https://www.nature.com/articles/s41586-022-04484-9
研究者通過研究西非國家多哥(Togo)的一個(gè)旗艦緊急現(xiàn)金轉(zhuǎn)移項(xiàng)目(Novissi)對方法進(jìn)行了評估,這項(xiàng)計(jì)劃使用算法分配了價(jià)值數(shù)百萬美元的新冠救濟(jì)援助金。他們在分析中比較了不同目標(biāo)確定機(jī)制下的結(jié)果,包括排除誤差(exclusion errors,真正的窮人被錯誤地認(rèn)為沒有資格)、總體社會福利和公平性衡量。
相較于多哥政府采用的地理位置目標(biāo)確定方法,研究者使用機(jī)器學(xué)習(xí)方法將排除誤差減少了 4–21%。而相較于需要全面社會登記(一種假設(shè),多哥并不存在這種登記)的方法,機(jī)器學(xué)習(xí)方法將排除誤差增加了 9–35%。這些結(jié)果強(qiáng)調(diào)了新數(shù)據(jù)源在確定人道援助方面能夠?qū)鹘y(tǒng)方法做出補(bǔ)充,尤其是在傳統(tǒng)數(shù)據(jù)缺失或過時(shí)的危機(jī)環(huán)境中。
研究背景
我們先來了解一下多哥的旗艦緊急現(xiàn)金轉(zhuǎn)移項(xiàng)目 Novissi。2020 年 4 月,在首批新冠病例出現(xiàn)不久,多哥政府推出了這一項(xiàng)目。由于經(jīng)濟(jì)限制命令導(dǎo)致很多多哥人停工,并引發(fā)了廣泛的糧食安全問題。Novissi 項(xiàng)目旨在為受影響最重的人提供生存現(xiàn)金援助。
項(xiàng)目地址:https://publicadministration.un.org/zh/Themes/Digital-Government/Good-Practices-for-Digital-Government/Compendium/CompendiumID/472
但是,當(dāng)多哥政府剛開始推出 Novissi 項(xiàng)目時(shí),沒有可用來評估獲援資格的傳統(tǒng)社會登記系統(tǒng),也抽不出時(shí)間或資源在新冠流行期間構(gòu)建這類登記系統(tǒng)。最近的一次人口普查完成于 2011 年,沒有包含家庭富?;蜇毨畔?。最近的國家生活水平調(diào)查僅僅涵蓋了一部分家庭。
在這種情況下,Novissi 項(xiàng)目的援助資格根據(jù) 2019 年末更新的國家選民登記系統(tǒng)中包含的數(shù)據(jù)來確定。但遺憾的是,這種方法無法將多哥最貧困家庭納入 Novissi 項(xiàng)目的援助范圍。
該研究旨在幫助多哥政府將 Novissi 項(xiàng)目的援助范圍從首都洛美的非正式工作者擴(kuò)展到鄉(xiāng)村地區(qū)的更貧困人群,在實(shí)現(xiàn)過程中還要滿足多哥政府的兩個(gè)既定政策目標(biāo):將援助引向該國最貧困的地理區(qū)域;優(yōu)先向這些地理區(qū)域的最貧困手機(jī)用戶分配援助。
基于此,研究者使用機(jī)器學(xué)習(xí)算法分析了從衛(wèi)星到手機(jī)網(wǎng)絡(luò)上的非傳統(tǒng)數(shù)據(jù),并最終提升了最貧困手機(jī)用戶人群的目標(biāo)確定。
對手機(jī)用戶進(jìn)行調(diào)查,確定用戶財(cái)富和消費(fèi)水平
第一步將機(jī)器學(xué)習(xí)算法用于高分辨率衛(wèi)星圖像,以獲得多哥每 2.4 公里 × 2.4 公里區(qū)域財(cái)富微觀估計(jì)。這些估計(jì)提供了每個(gè)小網(wǎng)格單元中所有家庭相對財(cái)富,之后對這些網(wǎng)格單元進(jìn)行人口加權(quán)平均,從而得出多哥最小行政單元財(cái)富估計(jì)。
第二步通過機(jī)器學(xué)習(xí)算法對多哥兩家移動電話運(yùn)營商提供的移動電話元數(shù)據(jù)進(jìn)行處理,以估計(jì)每個(gè)移動電話用戶的平均日消費(fèi)。
具體而言,該研究從多哥兩家移動網(wǎng)絡(luò)運(yùn)營商那里獲得了 2018-2021 年特定時(shí)間段的手機(jī)元數(shù)據(jù)(呼叫詳細(xì)記錄 (CDR))。該研究重點(diǎn)關(guān)注移動網(wǎng)絡(luò)數(shù)據(jù)的三個(gè)分段片:2018 年 10 月至 12 月、2019 年 4 月至 6 月和 2020 年 3 月至 9 月。CDR 數(shù)據(jù)包含以下信息。通話:來電者電話號碼、接收者電話號碼、通話日期和時(shí)間、通話時(shí)長、撥打電話的基站 ID;SMS 消息:發(fā)送方電話號碼、接收方電話號碼、消息的日期和時(shí)間、發(fā)送消息的天線 ID;移動數(shù)據(jù)使用:電話號碼、交易日期和時(shí)間、數(shù)據(jù)消耗量(上傳和下載相結(jié)合);移動貨幣交易:發(fā)送方電話號碼、接收方電話號碼(如果是點(diǎn)對點(diǎn))、交易日期和時(shí)間、交易金額以及交易類型的廣泛類別(現(xiàn)金、現(xiàn)金、點(diǎn)對點(diǎn)或 賬單支付)。
該研究對具有代表性的手機(jī)用戶進(jìn)行了調(diào)查,并用這些調(diào)查來衡量每個(gè)用戶的財(cái)富或消費(fèi),然后將基于調(diào)查的估計(jì)與每個(gè)用戶使用手機(jī)歷史的詳細(xì)元數(shù)據(jù)相匹配,采用有監(jiān)督機(jī)器學(xué)習(xí)算法對樣本數(shù)據(jù)進(jìn)行訓(xùn)練,通過手機(jī)使用來預(yù)測用戶財(cái)富和消費(fèi)水平。這第二步與傳統(tǒng)的代理生活狀況調(diào)查 ( proxy means test,PMT) 類似,但有兩個(gè)主要區(qū)別:該研究使用手機(jī)特征的高維向量而不是資產(chǎn)的低維向量來估計(jì)財(cái)富;該研究使用旨在最大化樣本外預(yù)測能力的機(jī)器學(xué)習(xí)算法,而不是最大化樣本內(nèi)擬合優(yōu)度的傳統(tǒng)線性回歸。
大家比較關(guān)心數(shù)據(jù)隱私問題,為了保護(hù)獲取到的數(shù)據(jù)機(jī)密性,該研究在分析之前通過將每個(gè)電話號碼哈希編碼為唯一 ID 來對 CDR 進(jìn)行化名。這些數(shù)據(jù)存儲在大學(xué)服務(wù)器上,設(shè)置了訪問權(quán)限。在將 CDR 記錄與調(diào)查回復(fù)進(jìn)行匹配之前,該研究在電話調(diào)查中獲得了所有研究對象的知情同意。
精準(zhǔn)評估
該研究對這種將機(jī)器學(xué)習(xí)和手機(jī)數(shù)據(jù)相結(jié)合方法稱為基于手機(jī)的方法。通過比較該方法與反事實(shí)方法下的定位誤差:政府在 2020 年夏天試行的一種地理定位方法(多哥 admin-2 極,即多哥各縣的貧困地圖,40 個(gè)縣),貧困州(多哥 admin-3 級,397 個(gè)州);基于職業(yè)的定位(包括 Novissi 針對非正式工人的最初定位方法,以及針對該國最貧窮職業(yè)類別的最佳方法)。
該研究想要實(shí)現(xiàn)幫助 100 個(gè)最窮州的最窮的人,研究發(fā)現(xiàn),相對于多哥政府的其他可行目標(biāo)定位方法,基于電話的目標(biāo)定位方法大大減少了排除誤差和包容錯誤(errors of inclusion)(非窮人被錯誤地認(rèn)為有資格),如圖 1a 和表 1 所示。
使用 PMT 作為真實(shí)貧困狀況的衡量標(biāo)準(zhǔn),基于電話的定位(曲線下面積 (AUC) = 0.70)優(yōu)于針對農(nóng)村 Novissi 援助的其他可行方法(例如,地域范圍定位的 AUC = 0.59-0.64)。
圖 1:Novissi 目標(biāo)與替代目標(biāo)的比較
表 1。
更多細(xì)節(jié)內(nèi)容請閱讀原論文。