自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

模型花費(fèi)幾十萬刀,指導(dǎo)無數(shù)項目,才發(fā)現(xiàn)負(fù)樣本用的是null?

新聞 人工智能
人們口口聲聲擔(dān)心「人工智能的推斷不可靠」,實則連個數(shù)據(jù)泄露的問題都敢忽略。

模型花費(fèi)幾十萬刀,指導(dǎo)無數(shù)項目,才發(fā)現(xiàn)負(fù)樣本用的是null?

人們常會提到,當(dāng)今流行的深度學(xué)習(xí)模型是黑箱狀態(tài)——給它一個輸入,模型就會決策出一個結(jié)果,其中的過程不為人所知。人們無法確切知道深度學(xué)習(xí)的決策依據(jù)以及結(jié)果是否可靠。近年來,越來越多的新研究面向構(gòu)建可信的機(jī)器學(xué)習(xí)方法獲得了成果。

然而最近發(fā)生的一件事情告訴我們,很多時候被廣泛應(yīng)用的機(jī)器學(xué)習(xí)模型出問題的原因,壓根就不會深入到算法層面。一點數(shù)據(jù)上的紕漏就會造成讓人啼笑皆非的結(jié)果,而且最重要的是,這樣的事比所謂「模型不可解釋」造成的損失還要多出不少。

上個星期,美國賓夕法尼亞州歷史保護(hù)官員和交通部門之間發(fā)送了大量郵件,其中內(nèi)容混合了悲傷、困惑和沮喪的情緒。這一丑聞造成的影響仍在繼續(xù),在官方做出回應(yīng)之前,我們還不能了解更多情況(盡管此事在當(dāng)?shù)乜脊艑W(xué)家之間已經(jīng)人盡皆知了)。

一個價值 36.5 萬美元的機(jī)器學(xué)習(xí)模型打了水漂。

發(fā)生甚么事了?

五年前,一些人帶著創(chuàng)意拜訪了賓州交通部,提出為史前考古遺址創(chuàng)建一個全州范圍預(yù)測模型。最終,政府部門選擇與一家大型工程公司合作,后者一直在考古調(diào)查方面花錢。

模型花費(fèi)幾十萬刀,指導(dǎo)無數(shù)項目,才發(fā)現(xiàn)負(fù)樣本用的是null?

從合同中我們可以看到,這家公司花費(fèi)了納稅人 36.59 萬美元,承諾提供一款最強(qiáng)大的模型,該模型還整合了 GIS(地理信息系統(tǒng))疊加分析,其結(jié)果可供考古學(xué)家們使用。

模型花費(fèi)幾十萬刀,指導(dǎo)無數(shù)項目,才發(fā)現(xiàn)負(fù)樣本用的是null?

從那以后直到今天,絕大多數(shù)賓夕法尼亞州交通部門的項目和所有需要進(jìn)行文化資源調(diào)查的項目,在進(jìn)行前都使用了這個機(jī)器學(xué)習(xí)模型的推斷結(jié)果。

模型花費(fèi)幾十萬刀,指導(dǎo)無數(shù)項目,才發(fā)現(xiàn)負(fù)樣本用的是null?

從數(shù)據(jù)準(zhǔn)備、模型選擇再到性能測試,這一項目原本看起來有模有樣,然而錯誤一旦被人揭穿,情況就變得不忍直視了。

他們將待預(yù)測區(qū)域當(dāng)做負(fù)樣本

從 2013 年中到 2015 年,項目承包商花了一年半左右的時間向賓州交通部門交付了一個模型和 7 冊文檔。

不幸的是,到目前為止,似乎沒有人閱讀過該文檔。模型似乎會輸出一些毫無意義的數(shù)字,而背后原因非常神奇。

模型花費(fèi)幾十萬刀,指導(dǎo)無數(shù)項目,才發(fā)現(xiàn)負(fù)樣本用的是null?

咨詢公司將未調(diào)研的土地用作負(fù)樣本數(shù)據(jù)集,但是,這些土地不就是模型將要預(yù)測的那部分嗎?一個花費(fèi)了 30 多萬美元的模型,卻真實地包含了這樣的錯誤。

模型花費(fèi)幾十萬刀,指導(dǎo)無數(shù)項目,才發(fā)現(xiàn)負(fù)樣本用的是null?

無論如何,在一個(混合了回歸和隨機(jī)森林的)模型中使用 null 數(shù)據(jù)都是不合適的,這些本不應(yīng)該作為負(fù)樣本數(shù)據(jù)而出現(xiàn)。即使這些 null 數(shù)據(jù)存在于自變量中,而不是因變量,它們依舊能夠?qū)δP偷耐评斫Y(jié)果造成嚴(yán)重破壞。

他們檢查項目時沒有使用數(shù)據(jù)處理的最佳實踐

可為什么開發(fā)團(tuán)隊的數(shù)據(jù)科學(xué)家們辛苦工作了一年半,也沒有意識到他們在第一步中就犯了錯?這與他們檢查項目的方式有關(guān)。

一般來說,檢查的金標(biāo)準(zhǔn)是留出一部分隨機(jī)選擇的部分。此時,只要你訓(xùn)練了模型,就可以知道該模型在給到真實數(shù)據(jù)時是否 work。

模型花費(fèi)幾十萬刀,指導(dǎo)無數(shù)項目,才發(fā)現(xiàn)負(fù)樣本用的是null?

顯然,在這件事中,相關(guān)研究人員未曾進(jìn)行這樣的驗證。也許他們使用了一些神秘的統(tǒng)計方法?這就不得而知了。

他們將已知地點視為隨機(jī)采樣的結(jié)果

眾所周知,即使在一個項目區(qū)域內(nèi),也并非所有土地的采樣率都相同。僅使用鏟測試坑(Shovel Test Pit),并假設(shè)你有 100 英畝的土地,其中 50 英畝是高概率,50 英畝是低概率,并以不同的間隔(常見的有 15 米、30 米)對其進(jìn)行測試。這意味著你有 80% 的測試是在高概率土地上進(jìn)行的,因為你可以在一英畝土地上以 15 米的間隔進(jìn)行 16 次鏟土測試,以 30 米的間隔進(jìn)行約 4 次測試。因此你需要在高概率部分上找到 80% 的站點。

因此我們有一些已知的站點,這些站點并不是從隨機(jī)采樣的土地中發(fā)現(xiàn)的,而是從人們認(rèn)為能夠找到它們的位置發(fā)現(xiàn)的。

直覺上,大多數(shù)考古學(xué)家都知道這一點。這很重要,因為已知的正樣本數(shù)據(jù)集的自變量分布已用于這些統(tǒng)計測試。這種分布是有偏置的,數(shù)據(jù)科學(xué)家不知道如何解釋這些偏置。

因此,我們需要留出一部分?jǐn)?shù)據(jù)。

項目管理,沒有管理?

花費(fèi) 36.5 萬美元,并不意味著簡單地讓承包商派一個人過來,在辦公室角落里搗鼓幾年,而無需他人管理。

追溯到 2014 年初,這個項目在交付給賓州交通部門的第三卷文檔中,已經(jīng)犯了致命的錯誤(使用 null 數(shù)據(jù)作為負(fù)樣本數(shù)據(jù))。難道這個項目無人監(jiān)督嗎?為什么在向賓州交通部門收取數(shù)十萬美元之前,這個融合了 GIS 和機(jī)器學(xué)習(xí)的模型不值得其他人(無論是同事還是上級)關(guān)注?

交通部門盡到職責(zé)了嗎?

交付文檔之后,賓州交通部門中誰閱讀過這些文檔?作者猜測可能沒人閱讀,也沒人能理解這些文檔。不過這純粹是猜測了,我們更愿意相信文檔被讀過,只是讀地不仔細(xì)。

針對該模型中最大的錯誤而言,任何上過大學(xué)統(tǒng)計學(xué)課程的人都應(yīng)該能夠解決這個問題。但是正如有人指出的那樣,考古學(xué)家很少學(xué)習(xí)這些數(shù)學(xué)課程,因此可能不會有考古學(xué)家來指出這些錯誤。

教訓(xùn)

這一錯誤浪費(fèi)了納稅人 36.5 萬美元,顯示了美國交通部門和售賣該模型的公司在質(zhì)量控制方面的漫不經(jīng)心,同時也表明,一些有問題的模型目前仍在某些重要的大型項目中使用。

老實說,如果想要一個預(yù)測模型,你拿出這個項目 3–5% 的經(jīng)費(fèi)就夠了。把模型做得簡單一點,這樣你就能自己對它進(jìn)行更新、測試。即使這個模型沒有大量的質(zhì)量控制問題,復(fù)雜的數(shù)學(xué)模型也不比簡單的性能要好。

揭露此事的人,Medium 博主 Archaic Inquiries 表示,他目前還在等待 SHPO 和 DOT 的回復(fù)。他特別強(qiáng)調(diào),他既不在這個州工作,近期也沒有這個打算,寫這篇批評文章也沒拿到什么報酬。他的動機(jī)很簡單:看到這個模型由于缺乏監(jiān)管而用于政策指導(dǎo),作為一名專業(yè)人員的他為自己的領(lǐng)域感到尷尬。

模型花費(fèi)幾十萬刀,指導(dǎo)無數(shù)項目,才發(fā)現(xiàn)負(fù)樣本用的是null?

機(jī)器學(xué)習(xí)的推斷結(jié)果出錯造成的損失有大有小,在這里可能意味著不少古人類遺跡被忽略,但最可怕的地方在于,在機(jī)器學(xué)習(xí)技術(shù)被廣泛應(yīng)用的今天,這樣的錯誤其實屢見不鮮。

在社交網(wǎng)絡(luò)上,賓州算法事件被機(jī)器學(xué)習(xí)圈的人廣泛討論,有人表示:「我遇到的大多數(shù)數(shù)據(jù)科學(xué)家,都完全沒有意識到這種錯誤推理的問題(數(shù)據(jù)泄露),而且因為對于機(jī)器學(xué)習(xí)的無條件信任,甚至相信算法,更甚于相信自己的領(lǐng)域知識?!?/p>

「我認(rèn)識一個政府機(jī)構(gòu)的數(shù)據(jù)科學(xué)家,有很多次,我不得不向他解釋一些數(shù)據(jù)科學(xué)領(lǐng)域中的基本概念。我不會點明他在哪個機(jī)構(gòu),但當(dāng)美國人的生命受到威脅時,它會是人們首先想要求助的那個部門?!乖?Reddit 上,用戶 Stereoisomer 說道。

不知此類在技術(shù)上沒有什么解決難度的問題,以后會不會越來越少。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2019-12-11 10:14:23

Kafka吞吐量架構(gòu)

2022-09-10 18:54:14

Kafka零拷貝磁盤

2012-06-18 09:29:38

2024-01-12 21:18:22

負(fù)樣本大模型蒸餾

2020-04-28 14:50:30

短視頻運(yùn)營實戰(zhàn)

2014-10-22 09:52:48

用友HCM

2022-01-03 07:19:47

Google漏洞Chrome

2024-04-29 07:00:00

大模型AIGC人工智能

2023-04-09 23:25:30

Java注解元注解

2012-10-09 10:16:35

創(chuàng)業(yè)投資項目

2017-12-21 07:54:23

JavaPHP程序員

2025-01-27 00:57:43

2018-08-14 08:43:17

服務(wù)器命令CCS系統(tǒng)

2023-06-21 10:33:16

2023-12-15 12:52:32

模型數(shù)據(jù)

2021-10-25 11:08:51

AI 數(shù)據(jù)人工智能

2012-02-27 13:52:23

Java

2024-03-04 00:00:00

數(shù)組every條件

2018-09-30 09:21:01

優(yōu)音通信客戶關(guān)懷中心企業(yè)通信

2021-03-08 17:31:37

木馬程序瀏覽器
點贊
收藏

51CTO技術(shù)棧公眾號