無需等待未來,分析和人工智能災(zāi)難已然出現(xiàn)!
從數(shù)據(jù)和機(jī)器學(xué)習(xí)算法中獲得的見解可能是無價(jià)的,但錯(cuò)誤可能會(huì)導(dǎo)致?lián)p失聲譽(yù)、收入甚至付出生命的代價(jià)。
2017年,《經(jīng)濟(jì)學(xué)人》(The Economist)宣布,數(shù)據(jù)已取代石油,成為“世界上最有價(jià)值的資源”。自此之后,各行各業(yè)的組織便開始加緊步伐在數(shù)據(jù)和分析方面進(jìn)行大量投資。但就像石油一樣,數(shù)據(jù)和分析也有其陰暗面。
據(jù)《2023年CIO狀況報(bào)告》指出,34%的IT領(lǐng)導(dǎo)者表示,數(shù)據(jù)和業(yè)務(wù)分析將在今年推動(dòng)其組織的大部分IT投資。26%的IT領(lǐng)導(dǎo)者表示,機(jī)器學(xué)習(xí)/人工智能將推動(dòng)大部分IT投資。從機(jī)器學(xué)習(xí)算法驅(qū)動(dòng)的分析和行動(dòng)中獲得的洞察力可以為組織提供競(jìng)爭優(yōu)勢(shì),但錯(cuò)誤可能會(huì)在聲譽(yù)、收入甚至生命方面造成高昂的代價(jià)。
以下是過去十年中一些引人注目的分析和人工智能錯(cuò)誤,以說明可能出現(xiàn)的問題。
ChatGPT“虛假”法庭案件
大型語言模型(LLM)在2023年取得的進(jìn)展,引起了幾乎所有行業(yè)對(duì)生成式人工智能變革潛力的廣泛興趣。OpenAI的ChatGPT一直處于這種興趣激增的中心,預(yù)示著生成式人工智能如何擁有顛覆幾乎每個(gè)業(yè)務(wù)領(lǐng)域工作性質(zhì)的力量。
但這項(xiàng)技術(shù)在真正接管大多數(shù)業(yè)務(wù)流程之前還有很長的路要走,這一點(diǎn)律師Steven a. Schwartz和美國地區(qū)法官P. Kevin Castel可謂深有體會(huì)。2023年,Schwartz在一起針對(duì)哥倫比亞航空公司阿維安卡(Avianca)的訴訟中使用了ChatGPT研究先例,但卻一度導(dǎo)致案件陷入困境。
Schwartz是Levidow、Levidow & Oberman律師事務(wù)所的律師,他使用OpenAI生成式人工智能聊天機(jī)器人查找之前的案例,以支持Avianca員工Roberto Mata在2019年因受傷提起的訴訟。唯一的問題是什么?摘要中提交的案件至少有六個(gè)是不存在的。在今年5月提交的一份文件中,Castel法官指出,Schwartz提交的案件包括虛假姓名和案件編號(hào),以及虛假的內(nèi)部引用。
在一份宣誓書中,Schwartz告訴法庭,這是他第一次使用ChatGPT作為法律研究來源,他不知道其內(nèi)容可能是虛假的。他承認(rèn),他還沒有證實(shí)人工智能聊天機(jī)器人提供的消息來源。他還表示,他“非常后悔利用生成式人工智能來補(bǔ)充在此進(jìn)行的法律研究,特別是在沒有絕對(duì)驗(yàn)證其真實(shí)性的情況下,將來絕不會(huì)再這樣做。”
截至2023年6月的消息,Schwartz律師極有可能面臨法院的制裁。
AI算法可識(shí)別除COVID-19之外的所有事物
自COVID-19大流行開始以來,許多組織都在尋求應(yīng)用機(jī)器學(xué)習(xí)(ML)算法來幫助醫(yī)院更快地診斷或分類患者。但根據(jù)英國國家數(shù)據(jù)科學(xué)和人工智能中心圖靈研究所的數(shù)據(jù)顯示,這些預(yù)測(cè)工具幾乎沒起什么作用。
《麻省理工科技評(píng)論》(MIT Technology Review)記錄了大量的失敗案例,其中大部分都源于工具訓(xùn)練或測(cè)試方式的錯(cuò)誤。使用錯(cuò)誤標(biāo)記的數(shù)據(jù)或來自未知來源的數(shù)據(jù)是最常見的原因。
劍橋大學(xué)機(jī)器學(xué)習(xí)研究員Derek Driggs及其同事在《自然機(jī)器智能》(Nature Machine Intelligence)上發(fā)表了一篇論文,探討了使用深度學(xué)習(xí)模型來診斷病毒。文中指出該技術(shù)不適合臨床使用。例如,Driggs的小組發(fā)現(xiàn)他們自己的模型存在缺陷,因?yàn)樗窃谝粋€(gè)數(shù)據(jù)集上訓(xùn)練的,其中包括掃描時(shí)躺著的患者和站立的患者的掃描結(jié)果。躺著的病人患重病的可能性要大得多,因此該算法學(xué)會(huì)了根據(jù)掃描中人的位置來識(shí)別COVID風(fēng)險(xiǎn)。
一個(gè)類似的例子包括使用包含健康兒童胸部掃描的數(shù)據(jù)集訓(xùn)練的算法。該算法學(xué)會(huì)了識(shí)別兒童,而非高?;颊?。
Zillow由于算法失誤導(dǎo)致裁員
2021年11月,在線房地產(chǎn)市場(chǎng)Zillow告訴股東,它將在未來幾個(gè)季度結(jié)束其AI炒房業(yè)務(wù)“Zillow Offers”并裁員25%(約2000名員工)。舊屋翻新(home-flipping)部門的困境是其用于預(yù)測(cè)房價(jià)的機(jī)器學(xué)習(xí)算法中的錯(cuò)誤率所致。
Zillow Offers是一個(gè)程序,通過該程序,該公司能夠根據(jù)機(jī)器學(xué)習(xí)算法“Zestimate”得出的房屋價(jià)值對(duì)房產(chǎn)進(jìn)行現(xiàn)金報(bào)價(jià)。其初衷是翻新這些房產(chǎn)并迅速出售。但Zillow的一位發(fā)言人稱,該算法的中位錯(cuò)誤率為1.9%,對(duì)于場(chǎng)外房屋的錯(cuò)誤率可能更高,高達(dá)6.9%。
據(jù)CNN報(bào)道,自2018年4月推出以來,Zillow已經(jīng)通過Zillow Offers購買了27000套房屋,但到2021年9月底僅售出17000套。COVID-19大流行和家庭裝修勞動(dòng)力短缺等“黑天鵝事件”導(dǎo)致了算法的準(zhǔn)確性問題。
Zillow表示,該算法導(dǎo)致其以虛高的價(jià)格購買房屋,致使2021年第三季度的庫存減記3.04億美元。
Zillow聯(lián)合創(chuàng)始人兼首席執(zhí)行官Rich Barton在公告發(fā)布后與投資者舉行的電話會(huì)議上表示,或許可以調(diào)整算法,但最終風(fēng)險(xiǎn)太大。
英國因超電子表格數(shù)據(jù)限制而丟失數(shù)千COVID病例
2020年10月,負(fù)責(zé)統(tǒng)計(jì)新的COVID-19感染病毒的英國政府機(jī)構(gòu)英國公共衛(wèi)生(PHE)透露,在9月25日至10月2日期間,有近16,000例冠狀病毒病例未報(bào)告。罪魁禍?zhǔn)荕icrosoft Excel 中的數(shù)據(jù)限制。
PHE使用自動(dòng)化流程將COVID-19陽性實(shí)驗(yàn)室結(jié)果作為CSV文件傳輸?shù)紼xcel模板中,用于報(bào)告儀表板和聯(lián)系人追蹤。不幸的是,Excel電子表格每個(gè)工作表最多可以有1048576行和16384列。此外,PHE按列而不是按行列出案例。當(dāng)案例超過16,384列的限制時(shí),Excel會(huì)刪除底部的15841條記錄。
這個(gè)“小故障”并沒有阻止接受檢測(cè)的個(gè)人收到他們的結(jié)果,但它確實(shí)阻礙了接觸者追蹤工作,使英國國家衛(wèi)生服務(wù)(NHS)更難識(shí)別和通知與感染患者密切接觸的個(gè)人。PHE臨時(shí)首席執(zhí)行官M(fèi)ichael Brodie在10月4日的一份聲明中表示,NHS Test and Trace和PHE已經(jīng)迅速解決了這個(gè)問題,并將所有未決案件立即轉(zhuǎn)移到NHS Test and Trace接觸者追蹤系統(tǒng)中。
PHE實(shí)施了“快速緩解”措施,拆分了大文件,并對(duì)所有系統(tǒng)進(jìn)行了全面的端到端審查,以防止未來發(fā)生類似事件。
醫(yī)療保健算法未能標(biāo)記黑人患者
2019年,發(fā)表在《科學(xué)》雜志上的一項(xiàng)研究顯示,美國各地的醫(yī)院和保險(xiǎn)公司用來識(shí)別需要“高風(fēng)險(xiǎn)護(hù)理管理”計(jì)劃的患者的醫(yī)療預(yù)測(cè)算法,并不太可能單獨(dú)挑出黑人患者。
高風(fēng)險(xiǎn)護(hù)理管理計(jì)劃為慢性病患者提供訓(xùn)練有素的護(hù)理人員和初級(jí)保健監(jiān)測(cè),以防止嚴(yán)重并發(fā)癥。但該算法更有可能為這些項(xiàng)目推薦白人患者,而不是黑人患者。
研究發(fā)現(xiàn),該算法使用醫(yī)療保健支出作為確定個(gè)人醫(yī)療保健需求的代理。但據(jù)《科學(xué)美國人》報(bào)道,病情較重的黑人患者的醫(yī)療保健費(fèi)用與健康白人的醫(yī)療費(fèi)用相當(dāng),這意味著即使他們的需求更大,他們的風(fēng)險(xiǎn)評(píng)分也更低。
該研究的研究人員認(rèn)為,可能有幾個(gè)因素起了作用。首先,有色人種收入較低的可能性更大,即使有保險(xiǎn),也可能使他們不太可能獲得醫(yī)療服務(wù)。隱性偏見也可能導(dǎo)致有色人種接受低質(zhì)量的護(hù)理。
雖然該研究沒有透露算法或開發(fā)人員的名字,但研究人員告訴《科學(xué)美國人》,他們正在與開發(fā)人員合作解決這種情況。
數(shù)據(jù)集訓(xùn)練微軟聊天機(jī)器人發(fā)布種族主義推文
2016年3月,微軟了解到,使用Twitter交互作為機(jī)器學(xué)習(xí)算法的訓(xùn)練數(shù)據(jù)可能會(huì)產(chǎn)生令人沮喪的結(jié)果。
微軟在社交媒體平臺(tái)上發(fā)布了人工智能聊天機(jī)器人Tay。該公司將其描述為“對(duì)話理解”的實(shí)驗(yàn)。這個(gè)想法是,聊天機(jī)器人將扮演一個(gè)十幾歲的女孩,并結(jié)合使用機(jī)器學(xué)習(xí)和自然語言處理,通過Twitter與個(gè)人互動(dòng)。微軟給它植入了匿名的公共數(shù)據(jù)和一些喜劇演員預(yù)先編寫的材料,然后讓它從社交網(wǎng)絡(luò)上的互動(dòng)中學(xué)習(xí)和發(fā)展。
結(jié)果在16小時(shí)內(nèi),該聊天機(jī)器人發(fā)布了95000多條推文,這些推文迅速變成了公然的種族主義、厭女主義和反猶太主義。最終,微軟選擇關(guān)閉了這項(xiàng)服務(wù)。
事件發(fā)生后,微軟研究與孵化公司副總裁 Peter Lee表示,
“我們對(duì)來自Tay的無意冒犯和傷害性推文深表歉意,這些推文并不代表我們的意見和立場(chǎng),也不代表我們?cè)O(shè)計(jì)Tay的初衷?!?/p>
Lee指出,Tay的前身是微軟于2014年發(fā)布的“小冰”,在Tay發(fā)布前的兩年內(nèi),它已經(jīng)成功與超過4000萬人進(jìn)行了對(duì)話。微軟沒有考慮到的是,一群Twitter用戶會(huì)立即開始向Tay發(fā)布種族主義和厭惡女性的評(píng)論。該機(jī)器人迅速從該材料中學(xué)習(xí)并將其整合到自己的推文中。
亞馬遜人工智能招聘工具只推薦男性
與許多大公司一樣,亞馬遜也渴望獲得能夠幫助其人力資源部門篩選最佳候選人的工具。2014年,亞馬遜開始開發(fā)人工智能驅(qū)動(dòng)的招聘軟件來做到這一點(diǎn)。但問題是,該系統(tǒng)非常偏愛男性候選人。2018年,經(jīng)過路透社爆料后,亞馬遜取消了該項(xiàng)目。
據(jù)悉,亞馬遜的系統(tǒng)會(huì)給候選人從1到5的星級(jí)評(píng)分。但系統(tǒng)核心的機(jī)器學(xué)習(xí)模型是根據(jù)10年來提交給亞馬遜的簡歷進(jìn)行訓(xùn)練的——其中大部分來自男性。由于這些訓(xùn)練數(shù)據(jù),該系統(tǒng)開始對(duì)簡歷中包含“女性”一詞的措辭進(jìn)行處罰,甚至降級(jí)來自全女子大學(xué)的候選人。
當(dāng)時(shí),亞馬遜表示,亞馬遜的招聘人員從未使用該工具來評(píng)估候選人。
該公司試圖對(duì)該工具繼續(xù)調(diào)整,以使其保持中立,但最終因無法保證它不會(huì)學(xué)習(xí)其他一些歧視性的候選人篩選方法,因此便終止了該項(xiàng)目。
Target分析侵犯隱私
2012年,零售巨頭Target的一個(gè)分析項(xiàng)目展示了公司可以從他們的數(shù)據(jù)中了解多少客戶。據(jù)《紐約時(shí)報(bào)》報(bào)道,2012年,Target的營銷部門開始研究如何確定客戶是否懷孕。這一調(diào)查催生了一個(gè)預(yù)測(cè)分析項(xiàng)目,而該項(xiàng)目導(dǎo)致零售商無意中向一名少女的家人透露了她懷孕的消息。
Target的營銷部門想要識(shí)別懷孕的個(gè)體,因?yàn)樵谏械哪承r(shí)期——尤其是懷孕時(shí)期——人們最有可能從根本上改變他們的購買習(xí)慣。如果Target可以在這段時(shí)間接觸到客戶,它就能培養(yǎng)這些客戶的新行為,讓他們轉(zhuǎn)向Target購買雜貨、衣服或其他商品。
與所有其他大型零售商一樣,Target一直在通過購物者代碼、信用卡、調(diào)查等方式收集客戶數(shù)據(jù)。它將這些數(shù)據(jù)與其購買的人口統(tǒng)計(jì)數(shù)據(jù)和第三方數(shù)據(jù)混合在一起。通過對(duì)所有這些數(shù)據(jù)進(jìn)行處理,Target的分析團(tuán)隊(duì)能夠確定客戶的“懷孕預(yù)測(cè)”分?jǐn)?shù)。然后,營銷部門可以針對(duì)高分客戶提供優(yōu)惠券和營銷信息。
進(jìn)一步的研究表明,研究客戶的生殖狀況可能會(huì)讓其中一些客戶感到毛骨悚然。據(jù)《泰晤士報(bào)》報(bào)道,該公司并沒有放棄其定向營銷策略,而是開始在他們知道孕婦不會(huì)購買的東西中混入廣告——割草機(jī)廣告旁邊的尿布廣告——讓客戶覺得該廣告組合是隨機(jī)的。
原文鏈接:https://www.cio.com/article/190888/5-famous-analytics-and-ai-disasters.html