自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI測(cè)出你幾歲死亡?Transformer「算命」登Nature子刊,成功預(yù)測(cè)意外死亡

人工智能
AI算命將可以預(yù)測(cè)人類的意外死亡?丹麥科學(xué)家用全國600萬人的公開數(shù)據(jù)訓(xùn)練了一個(gè)基于Transformer的模型,成功預(yù)測(cè)了意外死亡和性格特點(diǎn)。

AI真的可以用來科學(xué)地算命了?。?/span>

丹麥技術(shù)大學(xué) (DTU) 的研究人員聲稱他們已經(jīng)設(shè)計(jì)出一種人工智能模型,據(jù)說可以預(yù)測(cè)人們的生活中的重大事件和結(jié)果,包括每個(gè)人死亡的大致時(shí)間。文章在前兩天登上了Nature的子刊Computational Science。

圖片圖片

作者Sune Lehmann稱,「我們使用該模型來解決一個(gè)基本問題:我們可以在多大程度上根據(jù)過去的條件和事件來預(yù)測(cè)未來的事件?」

看來作者研究的目的沒有別的,確實(shí)是想用AI來幫大家算命。

研究人員將人的生活軌跡表征為時(shí)間順序的生活事件序列,這種表征方法與自然語言具有結(jié)構(gòu)相似性。

利用Transformer模型的表征學(xué)習(xí)能力,可以學(xué)習(xí)到生活事件的語義空間,并生成個(gè)體生活序列的緊湊向量表征。

研究人員利用丹麥約600萬人口的健康和勞動(dòng)力數(shù)據(jù),構(gòu)建了基于Transformer的模型「life2vec」。

模型的輸入數(shù)據(jù)是個(gè)人的出生時(shí)間,地點(diǎn)、教育、健康狀況、職業(yè)和工資等,而輸出數(shù)據(jù)包括了「意外死亡」和「性格的細(xì)微差異」等和個(gè)人生活息息相關(guān)的內(nèi)容。

圖片圖片

研究團(tuán)隊(duì)基于生活序列對(duì)個(gè)人的生活事件展開了預(yù)測(cè),模型表現(xiàn)明顯優(yōu)于當(dāng)前其他方法。

圖片圖片

相比于其他方法,life2vec模型對(duì)于性格的細(xì)微差異有更加優(yōu)秀的預(yù)測(cè)結(jié)果

研究人員在論文中進(jìn)一步指出,模型的概念空間和個(gè)體表征空間都是有意義和可解釋的,可以用來生成新假說,為個(gè)體化干預(yù)提供可能。

人的一生也許是可以預(yù)測(cè)的

人類目前正在經(jīng)歷的人類預(yù)測(cè)時(shí)代的核心原因是海量數(shù)據(jù)集和強(qiáng)大的機(jī)器學(xué)習(xí)算法的出現(xiàn)。

在過去的十年里,機(jī)器學(xué)習(xí)通過訪問越來越大的數(shù)據(jù)集,使越來越復(fù)雜的模型成為可能,從而使圖像和文本處理領(lǐng)域發(fā)生了革命性的變化。

語言處理發(fā)展得特別快,Transformer體系結(jié)構(gòu)已被證明可以成功地捕獲了大量非結(jié)構(gòu)化單詞序列中的復(fù)雜模式。

雖然這些模型起源于自然語言處理,但它們捕獲人類語言中的結(jié)構(gòu)的能力推廣到其他序列,這些序列與語言有著相似的屬性。

但是由于缺乏大規(guī)模數(shù)據(jù),Transformer模型尚未應(yīng)用于行業(yè)外的多模態(tài)社會(huì)經(jīng)濟(jì)數(shù)據(jù)。

研究人員的數(shù)據(jù)集改變了這一點(diǎn)。他們的數(shù)據(jù)集的巨大體量使研究團(tuán)隊(duì)能夠構(gòu)建個(gè)體生命軌跡的序列級(jí)別表征,其中詳細(xì)說明了每個(gè)人如何在時(shí)間中移動(dòng)。

研究人員可以在不同類型的事件中觀察個(gè)人生活是如何演變的(關(guān)于心臟病發(fā)作的信息與加薪或從城市搬到農(nóng)村的信息混合在一起)。

每個(gè)序列中的時(shí)間分辨率和序列的總數(shù)都足夠大,研究人員可以有意義地應(yīng)用基于transformer的模型來預(yù)測(cè)生活事件的結(jié)果。

這意味著表征學(xué)習(xí)可以應(yīng)用于一個(gè)全新的領(lǐng)域,以發(fā)展對(duì)人類生活的進(jìn)化和可預(yù)測(cè)性的新理解。

具體地說,研究人員采用了類似Bert的架構(gòu)來預(yù)測(cè)人類生活的兩個(gè)非常不同的方面:死亡時(shí)間和個(gè)性細(xì)微差別。

研究人員發(fā)現(xiàn),研究人員的模型可以準(zhǔn)確地預(yù)測(cè)這些結(jié)果,在早期死亡的情況下,比目前最先進(jìn)的方法高出~11%。

為了做出這些準(zhǔn)確的預(yù)測(cè),研究人員的模型依賴于生活中所有事件的單一公共嵌入空間-軌跡。

圖片圖片

正如研究語言模型中的嵌入空間可以提供對(duì)人類語言的新理解一樣,研究人員可以研究嵌入空間的概念,以揭示生活事件之間的非平凡相互作用。

下面,研究人員提供了對(duì)由此產(chǎn)生的生活事件的概念空間的洞察,并展示了該空間和模型本身的健壯性和可解釋性。

基于Transformer的模型還產(chǎn)生了對(duì)個(gè)體的嵌入(語言表征中的類比是總結(jié)整個(gè)文本的矢量)。使用顯著圖和概念激活向量(TCAV)等可解釋性工具,研究人員表明個(gè)人摘要也是有意義的,并具有作為行為表型的潛力,可以改進(jìn)其他個(gè)人水平的預(yù)測(cè)任務(wù),例如,增強(qiáng)對(duì)醫(yī)學(xué)圖像的分析。

模型預(yù)測(cè)結(jié)果

研究人員用一種簡單的符號(hào)語言對(duì)豐富的數(shù)據(jù)進(jìn)行編碼。

復(fù)雜的多源時(shí)態(tài)數(shù)據(jù)的原始數(shù)據(jù)流帶來了巨大的方法論挑戰(zhàn),例如不規(guī)則的采樣率、數(shù)據(jù)的稀疏性、特征之間的復(fù)雜交互以及大量的維度。

用于時(shí)間序列分析的經(jīng)典方法(例如,支持向量機(jī),ARIMA)[42,43]變得繁瑣,因?yàn)樗鼈兙哂猩炜s性,不靈活,并且需要大量的數(shù)據(jù)預(yù)處理來提取有用的特征。

使用轉(zhuǎn)換方法允許研究人員避免手工制作的特征,而是以一種利用與語言的相似性的方式對(duì)數(shù)據(jù)進(jìn)行編碼。具體地說,在研究人員的例子中,每一類離散特征和離散連續(xù)特征形成一個(gè)詞匯表。

這個(gè)詞匯表——連同時(shí)間的編碼——允許研究人員將每個(gè)生活事件(包括其詳細(xì)的限定信息)表征為一個(gè)由合成詞或概念符號(hào)組成的句子。

研究人員在每個(gè)事件上都附加了兩個(gè)時(shí)間指標(biāo)。一個(gè)是指定個(gè)人在事件發(fā)生時(shí)的年齡,另一個(gè)是捕捉絕對(duì)時(shí)間,見下圖。

圖片

因此,研究人員的合成語言可以捕捉到這樣的信息:「2020年9月,弗朗西斯科在埃爾西諾爾的一座城堡里當(dāng)警衛(wèi)時(shí)收到了2萬丹麥克朗?!?/span>

或者「在寄宿中學(xué)的第三年,赫敏參加了五門選修課」。在這個(gè)意義上,一個(gè)人的生命進(jìn)程被表征為一串這樣的句子,它們一起構(gòu)成了個(gè)人的生命序列。

研究人員的方法允許研究人員編碼關(guān)于個(gè)人生活中事件的廣泛的詳細(xì)信息,而不犧牲原始數(shù)據(jù)的內(nèi)容和結(jié)構(gòu)。

life2vec模型

研究人員使用transformer模型來形成個(gè)人生活的緊湊表征。研究人員稱研究人員的深度學(xué)習(xí)模型為life2vec。

Life2vec模型基于transformer架構(gòu)。由于其壓縮上下文信息的能力以及考慮時(shí)間和位置信息,Transformer非常適合表征生命序列。

Life2vec的訓(xùn)練分為兩個(gè)階段。首先,研究人員通過同時(shí)使用

(1)一個(gè)遮蔽語言模型(MLM)任務(wù),迫使模型使用標(biāo)記表征和上下文信息。

(2)一個(gè)序列排序預(yù)測(cè)(SOP)任務(wù),關(guān)注序列的時(shí)間連貫性(來訓(xùn)練模型。預(yù)訓(xùn)練創(chuàng)建了一個(gè)概念空間,并教會(huì)模型生命序列結(jié)構(gòu)中的模式。

接下來,為了創(chuàng)建個(gè)人生命序列的緊湊表征,模型執(zhí)行了一個(gè)分類任務(wù)。模型在這最后一步學(xué)習(xí)的個(gè)人總結(jié)取決于分類任務(wù);它識(shí)別并壓縮了為給定下游任務(wù)最大化確定性的模式。

例如,當(dāng)研究人員要求模型預(yù)測(cè)一個(gè)人的個(gè)性細(xì)微差別時(shí),人物嵌入空間將圍繞著對(duì)個(gè)性貢獻(xiàn)的關(guān)鍵維度構(gòu)建。

跨領(lǐng)域的準(zhǔn)確預(yù)測(cè)

任何模型的首要測(cè)試是預(yù)測(cè)性能。life2vec不僅超越了現(xiàn)有的SOTA,同時(shí)還能在非常不同的領(lǐng)域進(jìn)行分類預(yù)測(cè)。研究人員在兩個(gè)不同的任務(wù)上測(cè)試了他們的框架。

預(yù)測(cè)早期死亡率

研究人員估算一個(gè)人在2016年1月1日之后四年內(nèi)存活的可能性。這是統(tǒng)計(jì)建模中常用的任務(wù)。此外,死亡率預(yù)測(cè)與其他健康預(yù)測(cè)任務(wù)密切相關(guān),因此需要life2vec建模個(gè)人健康序列的發(fā)展以及勞動(dòng)歷史,以成功預(yù)測(cè)正確的結(jié)果。

具體來說,給定一個(gè)序列表示,life2vec推斷出一個(gè)人在研究人員序列結(jié)束后的四年內(nèi)(2016年1月1日)存活的可能性。

研究人員專注于對(duì)年輕的群體進(jìn)行預(yù)測(cè),包括30至55歲的個(gè)人,其中死亡率難以預(yù)測(cè)。

研究人員展示了使用修正的馬修斯相關(guān)系數(shù)C-MCC61,的模型的性能,該模型由于存在未標(biāo)記的樣本而調(diào)整MCC值。

Life2vec比基線高出11%。請(qǐng)注意,增加RNN模型的大小并不能提高它們的性能。

下圖2.D還細(xì)分了各種子組的性能:基于年齡和性別的交叉組,以及基于序列長度的組。

圖片圖片

預(yù)測(cè)個(gè)性的細(xì)微差別

死亡作為一個(gè)預(yù)測(cè)目標(biāo)是明確定義的,也是非??珊饬康摹?/span>

為了測(cè)試life2vec的多功能性,研究人員人員現(xiàn)在預(yù)測(cè)「個(gè)性細(xì)微差別」,這是測(cè)量光譜的另一端的結(jié)果,是個(gè)體內(nèi)部的東西,通常可以通過問卷調(diào)查來衡量。

盡管很難測(cè)量,但個(gè)性是塑造人們思想、情感和行為并預(yù)測(cè)生活結(jié)果的重要特征。具體地說,研究人員關(guān)注內(nèi)向-外向維度領(lǐng)域中的人格細(xì)微差別(為了簡單起見,下面是外向),因?yàn)橄鄳?yīng)的人格細(xì)微差別是上個(gè)世紀(jì)(在西方世界)出現(xiàn)的基本人格結(jié)構(gòu)的幾乎所有綜合模型的一部分。

作為研究人員的數(shù)據(jù)集,研究人員使用了在「丹麥個(gè)性和社會(huì)行為小組」(POSAP)研究中為一大群有很大代表性的個(gè)體收集的數(shù)據(jù)。

研究人員隨機(jī)選擇一個(gè)項(xiàng)目(個(gè)性細(xì)微差別)每個(gè)外向方面,并預(yù)測(cè)個(gè)人水平的答案。

圖片圖片

上圖顯示,將Life2vec應(yīng)用于生命序列不僅允許研究人員預(yù)測(cè)早期死亡率,而且具有足夠的通用性,足以捕捉個(gè)性的細(xì)微差別)。

Life2vec在所有項(xiàng)目上的得分都高于RNN,但只有在項(xiàng)目2和3上差異有統(tǒng)計(jì)學(xué)意義。為這一特定任務(wù)而訓(xùn)練的RNN也能夠提取個(gè)性周圍的信號(hào),這一事實(shí)突顯出,盡管變壓器模型很強(qiáng)大,但使Life 2vec如此通用的很大一部分原因是數(shù)據(jù)集本身。

概念空間:理解概念之間的關(guān)系

研究人員方法的新奇之處在于,該算法學(xué)習(xí)包含人類生活中可能發(fā)生的所有事件的單個(gè)聯(lián)合多維空間。研究人員從可視化開始研究人員對(duì)這個(gè)空間的探索。

全局視野

圖片圖片

在上圖中,使用PaCMAP將原始的280維概念投影到二維圖上,該圖保留了高維空間的局部和全局結(jié)構(gòu)。

在這里,每個(gè)概念都根據(jù)其類型進(jìn)行著色。

這種顏色清楚地表明,總體結(jié)構(gòu)是根據(jù)合成語言的關(guān)鍵概念組織的:健康、工作類型等,但有有趣的細(xì)節(jié),將出生年份、收入、社會(huì)地位和其他關(guān)鍵的人口統(tǒng)計(jì)信息分開。這個(gè)空間的結(jié)構(gòu)是高度魯棒的,并在一系列條件下可靠地重復(fù)出現(xiàn)。

概念空間的精細(xì)結(jié)構(gòu)是有意義的。深入挖掘全局布局,研究人員發(fā)現(xiàn)該模型學(xué)習(xí)了附近概念之間的錯(cuò)綜復(fù)雜的關(guān)聯(lián)。

研究人員通過鄰居分析來研究這些局部結(jié)構(gòu),該分析利用原始高維表示中概念之間的余弦距離作為相似性度量。

個(gè)人摘要

的摘要是一個(gè)單一的向量,它概括了一個(gè)人的整個(gè)生活事件序列的基本方面。

個(gè)人摘要跨越了研究人員的人嵌入的空間。為了形成人的摘要,模型確定哪些方面與手頭的任務(wù)相關(guān)。從這個(gè)意義上說,人稱摘要是以特定的預(yù)測(cè)任務(wù)為條件的。下面,研究人員側(cè)重于死亡可能性的人稱摘要。

圖片圖片

上圖可視化了個(gè)人概要的空間。

相對(duì)于死亡率預(yù)測(cè),該模型將個(gè)體組織在從低到高的估計(jì)死亡率(D組中的點(diǎn)云)的連續(xù)體上。

在圖中,研究人員通過紅色菱形顯示真實(shí)的死亡,而預(yù)測(cè)的可信度通過點(diǎn)的半徑來表現(xiàn)(例如,具有小半徑的點(diǎn)是低置信度預(yù)測(cè))。

此外,使用從黃色到綠色的顏色映射來顯示估計(jì)的概率。

研究人員看到,雖然區(qū)域2大多數(shù)都是老年人,但仍然看到很大一部分年輕人(圖5E),它包含一小部分真正的目標(biāo)(圖5F)。

B區(qū)具有很大程度上相反的結(jié)構(gòu),大多數(shù)是年輕人,但也有相當(dāng)數(shù)量的老年人(圖5E),只有一人實(shí)際死亡(圖5F)。

當(dāng)研究人員查看低概率區(qū)域的實(shí)際死亡時(shí),研究人員發(fā)現(xiàn)距離區(qū)域1最近的5個(gè)死亡原因如下--兩個(gè)意外,腦部惡性腫瘤,宮頸惡性腫瘤,心肌梗死。

參考資料:https://arxiv.org/abs/2306.03009

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-12-26 15:08:00

AI人工智能算命

2022-07-12 14:56:30

AI模型研究

2025-01-13 13:00:00

AI模型訓(xùn)練

2021-04-07 14:11:04

AI 數(shù)據(jù)人工智能

2023-03-06 13:59:38

模型參數(shù)

2024-04-22 07:30:00

藥物分子模型

2011-09-16 15:10:46

Android應(yīng)用IOS應(yīng)用Death App

2016-04-25 11:18:14

權(quán)力的游戲機(jī)器學(xué)習(xí)死亡預(yù)測(cè)

2023-03-13 13:24:34

智能Nature

2018-07-09 09:35:11

死亡AI程序員

2019-04-26 13:34:27

腦死亡神經(jīng)網(wǎng)絡(luò)科學(xué)

2023-12-11 19:08:03

AI模型

2024-11-29 14:10:00

神經(jīng)網(wǎng)絡(luò)AI

2020-11-17 14:53:54

騰訊 蛋白質(zhì)AI

2025-04-03 09:45:51

2012-11-26 10:11:41

移動(dòng)支付平臺(tái)移動(dòng)云計(jì)算

2022-08-29 14:43:24

斯坦福大學(xué)李飛飛AI

2022-05-24 15:15:25

機(jī)器學(xué)習(xí)科學(xué)

2015-05-05 10:55:25

OpenStackNebula倒閉開源云項(xiàng)目
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)