自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

新技術(shù)對(duì)傳統(tǒng)學(xué)科的顛覆:系譜網(wǎng)使用大數(shù)據(jù)尋親問祖

云計(jì)算
Ancestry.com服務(wù)幕后的人已經(jīng)意識(shí)到了這一點(diǎn)?,F(xiàn)在,他們正在最大限度的利用其4PB的數(shù)據(jù)庫(包括官方的個(gè)人記錄,用戶提交的信息和其它有新特征的數(shù)據(jù)),為用戶提供由計(jì)算機(jī)生成但是可編輯的祖先信息摘要。

家譜網(wǎng)愛好者可能認(rèn)為在Ancestry網(wǎng)上通過人口普查記錄、出生證明和其他文件來尋找親屬的信息這件事很有趣。當(dāng)向朋友和親屬來炫耀自己的個(gè)人記錄時(shí),就顯得不那么有說服力了,而且講述一個(gè)祖先的社會(huì)檔案并不簡單。

Ancestry.com服務(wù)幕后的人已經(jīng)意識(shí)到了這一點(diǎn)?,F(xiàn)在,他們正在最大限度的利用其4PB的數(shù)據(jù)庫(包括官方的個(gè)人記錄,用戶提交的信息和其它有新特征的數(shù)據(jù)),為用戶提供由計(jì)算機(jī)生成但是可編輯的祖先信息摘要。

Ancestry網(wǎng)推出的這項(xiàng)服務(wù)名為Story View,本季度早些時(shí)候只針對(duì)一小部分客戶,現(xiàn)在10%的客戶都可以享受這一服務(wù)了。該公司的產(chǎn)品執(zhí)行副總裁Eric Shoup在最近一次采訪中表示,他們計(jì)劃在正式發(fā)布Story View功能前,將對(duì)比Stroy View功能使用前后的情況,以進(jìn)一步完善Story View。通過允許用戶圍繞一個(gè)單頁的文檔圖像以及編輯文件中的文本部分,Ancestry已經(jīng)增強(qiáng)了這項(xiàng)功能的互動(dòng)性。

它是如何工作的

Story View功能基于一個(gè)比較成熟的工具,該工具可以對(duì)親屬數(shù)據(jù)包括一些手寫的記錄進(jìn)行數(shù)據(jù)挖掘。但是有時(shí)只有關(guān)鍵字段,如姓名和居住地??蛻艨梢栽L問手寫記錄,定位到一個(gè)親屬被描述的位置,查看未被處理的數(shù)據(jù),比如那個(gè)人的職業(yè)。

通過逐步指導(dǎo)"keyers"解析手寫記錄,并將記錄轉(zhuǎn)換為可搜索的文本,Ancestry正在試圖通過手寫記錄獲取更多信息。街道地址已經(jīng)通過這種方式添加進(jìn)去,其它的字段以后也會(huì)添加。同時(shí),由于Ancestry在不斷擴(kuò)充其資料庫,社會(huì)檔案也會(huì)有更多的來源。

 

 

為了從多個(gè)文檔中提取信息生成一個(gè)段落總結(jié),Ancestry求助于Narrative Science,該公司成立于2010年,專注于使用機(jī)器生成可讀的拷貝(傳說中會(huì)讓我們小編都失業(yè)的技術(shù))。早期應(yīng)用于體育賽事的報(bào)道和上市公司的收益報(bào)告,現(xiàn)在Narrative Science技術(shù)被更多的用于個(gè)人信息處理。

Ancestry敘事(narrative)和內(nèi)容(context)服務(wù)團(tuán)隊(duì)的首席開發(fā)人員Reed McGrew說,當(dāng)Ancestry第一次采用Narrative Science技術(shù)時(shí),只能分批地產(chǎn)生數(shù)據(jù)。它們會(huì)生成大量的財(cái)務(wù)報(bào)告,這并不是我們?cè)噲D提供的,因?yàn)檫@種批處理確實(shí)很慢。

幾個(gè)月內(nèi),Narrative Science開發(fā)了一個(gè)新的API,這個(gè)API可以在更精細(xì)的水平上工作。McGrew說:“它們基于單個(gè)用戶生成社會(huì)檔案”。

Ancestry精于處理家譜信息,該公司的編輯提供編輯的標(biāo)準(zhǔn),或“規(guī)則”,規(guī)定了narratives收發(fā)數(shù)據(jù)的格式。McGrew解釋了Ancestry標(biāo)準(zhǔn):“比如遇到孩子只比母親小10歲的記錄,這更像是輸入錯(cuò)誤,雖然現(xiàn)實(shí)情況中也會(huì)發(fā)生,但多數(shù)情況下不會(huì),所以我們會(huì)把這條記錄當(dāng)成錯(cuò)誤的來處理”。

 

 

包含Shoup某個(gè)親屬信息的記錄

在Story View中,一個(gè)祖先的圖片和生活摘要下面是一個(gè)縮放的文檔圖片,而不是結(jié)構(gòu)化文本的離散字段。圖片的旁邊,Ancestry會(huì)提供從文檔信息中生成的導(dǎo)語。一旦Ancestry發(fā)現(xiàn)所有的記錄都和一個(gè)人有關(guān),就會(huì)根據(jù)Ancestry的編輯規(guī)則選擇出特定的事實(shí)組裝成完整的句子。一旦基于文檔的導(dǎo)語顯示在瀏覽器中,用戶就可以在共享前編輯和保存它們。

很難共享

Ancestry的CIO Scott Sorenson說,我們面臨的挑戰(zhàn)并不在于創(chuàng)建和存儲(chǔ)用戶的新數(shù)據(jù)和網(wǎng)頁。存儲(chǔ)會(huì)變得越來越便宜,精確的手寫記錄處理也不是問題。通常keyers都在中國找,中國的字符集比我們的字母表要大很多,他們很擅長鍵入這些記錄。

真正困難的部分是確保服務(wù)的高可用性,數(shù)以百萬的用戶提供正確的文檔和文本,并確保網(wǎng)站流量高峰時(shí)不致崩潰,但是Story View的目標(biāo)之一是讓更多的人瀏覽網(wǎng)站內(nèi)容并最終注冊(cè)。

責(zé)任編輯:王程程 來源: GigaOM
相關(guān)推薦

2014-03-12 10:31:32

大數(shù)據(jù)

2011-11-09 13:06:48

OpenFlow

2022-11-21 14:33:53

大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)機(jī)器學(xué)習(xí)

2015-08-19 10:10:39

CIO時(shí)代網(wǎng)

2015-09-02 09:37:48

2018-04-25 11:40:51

ODCC

2015-10-16 09:14:36

數(shù)據(jù)中心傳統(tǒng)數(shù)據(jù)中心

2013-09-18 13:57:00

大數(shù)據(jù)時(shí)代

2013-09-17 09:21:51

2015-10-26 17:40:05

AWS QuickSi大數(shù)據(jù)創(chuàng)新技術(shù)

2020-01-13 07:36:30

機(jī)器人技術(shù)傳統(tǒng)行業(yè)

2012-12-14 10:02:29

2014-06-19 09:49:26

大數(shù)據(jù)

2012-12-12 13:06:00

2014-03-11 10:19:16

ThoughtWork

2014-06-03 18:57:12

浪潮HCM

2015-09-24 10:04:44

物聯(lián)網(wǎng)醫(yī)療行業(yè)

2013-07-12 10:30:34

2011-07-05 11:33:27

2016-05-03 15:13:34

大數(shù)據(jù)大數(shù)據(jù)技術(shù)數(shù)據(jù)管理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)