自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從數(shù)據(jù)表到圖表分析,這個(gè)實(shí)用的圖表推薦框架令你如虎添翼

新聞 大數(shù)據(jù)
面對(duì)數(shù)據(jù)表時(shí),很多人通常不清楚應(yīng)該創(chuàng)建什么樣的圖表分析。在這種場(chǎng)景中,你需要一個(gè)智能助手,可以幫你更好的生成圖表分析。

 面對(duì)數(shù)據(jù)表時(shí),很多人通常不清楚應(yīng)該創(chuàng)建什么樣的圖表分析。在這種場(chǎng)景中,你需要一個(gè)智能助手,可以幫你更好的生成圖表分析。

為多維數(shù)據(jù)集創(chuàng)建圖表(表格)是銷售、人力資源、投資、工程、科研、教育等許多領(lǐng)域的常見應(yīng)用。為了執(zhí)行常規(guī)分析和發(fā)現(xiàn)見解,人們花費(fèi)大量時(shí)間構(gòu)建不同類型的圖表來展示不同的觀點(diǎn)。這個(gè)過程通常需要數(shù)據(jù)分析方面的專業(yè)知識(shí)和廣泛的知識(shí)儲(chǔ)備來創(chuàng)建適當(dāng)?shù)膱D表。

有沒有可能通過智能的方式來創(chuàng)建圖表呢?近日,由微軟研究院、北京大學(xué)和清華大學(xué)共同發(fā)表了一篇論文,文中提出的新型圖表推薦框架 Table2Charts 可以高效地解決創(chuàng)建圖表問題

從數(shù)據(jù)表到圖表分析,這個(gè)實(shí)用的圖表推薦框架令你如虎添翼

論文地址:https://arxiv.org/pdf/2008.11015.pdf

人們通常會(huì)創(chuàng)建不同類型的圖表來研究多維數(shù)據(jù)集。但是,要構(gòu)建一個(gè)能夠推薦常用組成圖表的智能助手,通常面臨著多方言統(tǒng)一、數(shù)據(jù)不平衡和開放詞匯這些根本性問題。

因此,該論文提出了 Table2Charts 框架,該框架可以從大量的(表,圖表)對(duì)語料庫(kù)中學(xué)習(xí)通用模式。此外,基于具有復(fù)制機(jī)制和啟發(fā)式搜索的深度 Q-learning,Table2Charts 可進(jìn)行表到序列的生成,其中每個(gè)序列都遵循圖表模板。

在具有 196000 個(gè)表和 306000 個(gè)圖表的大型電子表格語料庫(kù)中,該研究展示了 Table2Charts 可以學(xué)習(xí)表字段的共享表示,這樣不同圖表類型的任務(wù)就可以相互增強(qiáng)。

該論文的主要貢獻(xiàn)如下:

該論文提出了 Table2Charts 框架,該框架可以構(gòu)建圖表合成助手。它能夠?qū)W習(xí)共享表的表示形式,以便在所有圖表類型的推薦任務(wù)中獲得更好的性能和效率,這是通過在圖表類型之間的統(tǒng)一操作空間上定義圖表模板來實(shí)現(xiàn)的;

對(duì)于涉及從表中選擇數(shù)據(jù)字段以填充模板的結(jié)構(gòu)化預(yù)測(cè)問題(生成分析操作序列),該論文設(shè)計(jì)了具有復(fù)制機(jī)制的深度 Q 值網(wǎng)絡(luò)(Deep Q-value Network, DQN)。DQN 的編碼器部分學(xué)習(xí)表表示,而解碼器部分學(xué)習(xí)序列生成;

首次構(gòu)建并大規(guī)模評(píng)估能夠從人類智慧中學(xué)習(xí)的端到端圖表推薦系統(tǒng)。

方法

在 Table2Charts 中,該論文設(shè)計(jì)了一種編碼器 - 解碼器 DQN 結(jié)構(gòu),它所具有的復(fù)制機(jī)制可用來填充圖表模板。由于模板規(guī)則生成序列的曝光偏差較大,因此研究者在進(jìn)行集束搜索時(shí)采用搜索采樣技術(shù)進(jìn)行訓(xùn)練。

此外,為了解決數(shù)據(jù)不平衡問題并相互提高不同圖表類型之間的性能,研究者將主要的圖表類型混合在一起進(jìn)行訓(xùn)練以獲得混合模型。

混合編碼器部分是共享表表示形式,它將被傳輸?shù)矫總€(gè)單一類型任務(wù)以進(jìn)行解碼器調(diào)整?;旌暇幋a器 - 解碼器也可直接用于多類型任務(wù)。

DQN 的模型架構(gòu)如下圖 3 所示:

從數(shù)據(jù)表到圖表分析,這個(gè)實(shí)用的圖表推薦框架令你如虎添翼

混合訓(xùn)練和遷移學(xué)習(xí)

該論文設(shè)計(jì)的 DQN 具有編碼器 - 解碼器框架,其中編碼器計(jì)算表字段的表示嵌入,而解碼器使用給定的表示進(jìn)行序列生成?;舅枷霝椋罕肀硎揪幋a器應(yīng)該在一個(gè)多類型和六個(gè)單類型任務(wù)之間共享,以暴露于不同且豐富的表字段樣本,并減少部署任務(wù)模型的內(nèi)存占用和推理時(shí)間。

為了學(xué)習(xí)共享表表示編碼器并獲取特定任務(wù)的解碼器,該論文提出了一個(gè)混合與遷移范式,該范式包含以下兩個(gè)階段:

混合訓(xùn)練:將所有主要圖表類型混合在一起并訓(xùn)練一個(gè) DQN 模型?;旌暇幋a器將被遷移至下一階段,而整個(gè)混合 DQN 將用于多類型推薦任務(wù);

遷移學(xué)習(xí):從上一階段獲取混合編碼器,并凍結(jié)其參數(shù)。然后,對(duì)于每個(gè)單一類型的任務(wù),共享編碼器僅用圖表類型的數(shù)據(jù)訓(xùn)練新的解碼器部分。

在單獨(dú)訓(xùn)練(Lone Training)中,只使用圖表類型的數(shù)據(jù)為每個(gè)單一類型的任務(wù)訓(xùn)練整個(gè) DQN。與之相比,Table2Charts 中的混合遷移范式具有以下兩個(gè)優(yōu)點(diǎn):

更好的內(nèi)存占用和推理速度,因?yàn)楝F(xiàn)在所有任務(wù)的 DQN 模型共享一個(gè)相同的表表示編碼器,而單獨(dú)訓(xùn)練仍然需要為每個(gè)任務(wù)保留表表示編碼器,并導(dǎo)致更多的編碼器計(jì)算;

編碼器暴露的樣本遠(yuǎn)遠(yuǎn)超過每種圖表類型所能提供的樣本。這不僅可以更好地學(xué)習(xí)和泛化表的表示形式,而且還解決了數(shù)據(jù)不平衡的問題,因此僅解碼器部分(與較大的編碼器部分相比較?。┬枰槍?duì)較小的圖表類型進(jìn)行調(diào)整。

實(shí)驗(yàn)

圖表語料庫(kù)

本研究中的圖表語料庫(kù)包含 39139 個(gè)(12.8%)線狀、93614 個(gè)(30.5%)條狀、149747 個(gè)(48.8%)Series、20921(6.8%)個(gè)餅圖、2237(0.7%)個(gè)區(qū)域和 1244(0.4%)個(gè)雷達(dá)圖

在過濾掉重復(fù)表、超大表(>128 個(gè)字段)、空?qǐng)D表(未選擇字段)和過于復(fù)雜的圖表(y 軸字段數(shù) > 4 個(gè))并對(duì)每個(gè)表模式的表(由表的字段名和字段類型組成)進(jìn)行下采樣后,306902 個(gè)圖表中保留 196255 個(gè),共有 131119 個(gè)不同的表模式。這些模式(及其表和圖表)按 7:1:2 的比例分配給訓(xùn)練、驗(yàn)證和測(cè)試。

對(duì)單一類型推薦任務(wù)的評(píng)估

評(píng)價(jià)結(jié)果如表 1 所示?;旌虾瓦w移范式(Transfer)通常比單獨(dú)訓(xùn)練 (Lone) 和僅混合模式(Mixed) 效果更好。特別地,Transfer 的評(píng)價(jià)標(biāo)準(zhǔn) R@1 超過了其他兩種方法。

在較小的圖表類型上,增強(qiáng)效果清晰可見,召回率提升了約 12%。數(shù)據(jù)不平衡的問題得到了解決,因?yàn)檩^小圖表類型的有限數(shù)據(jù)僅用于訓(xùn)練小的解碼器部分,而無需擔(dān)心編碼器部分。

從數(shù)據(jù)表到圖表分析,這個(gè)實(shí)用的圖表推薦框架令你如虎添翼

探索表表示

該實(shí)驗(yàn)從驗(yàn)證集中隨機(jī)選擇 3039 個(gè)表(包含 20000 個(gè)字段),通過 t-SNE 進(jìn)行可視化,用來理解共享表表示編碼器生成的嵌入如何工作。

在下圖 4a 中,每個(gè)點(diǎn)代表一個(gè)字段,顏色代表其字段類型。在圖中,我們可以清楚地看到通過嵌入學(xué)得的字段類型信息。例如,日期時(shí)間字段和年份字段很接近。一種可能的解釋是,它們都經(jīng)常在序列圖中用作 x 軸,因此具有相似的表示形式。

從數(shù)據(jù)表到圖表分析,這個(gè)實(shí)用的圖表推薦框架令你如虎添翼

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2016-11-01 13:23:50

數(shù)據(jù)分析大數(shù)據(jù)

2020-04-29 09:17:42

Seaborn數(shù)據(jù)可視化數(shù)據(jù)分析

2022-11-28 15:04:42

數(shù)據(jù)可視化工具

2020-09-08 12:48:19

數(shù)據(jù)分析圖表互聯(lián)網(wǎng)

2015-09-02 09:16:13

數(shù)據(jù)設(shè)計(jì)圖表

2020-08-10 06:16:26

seaborn數(shù)據(jù)分析圖表

2009-11-06 11:16:17

Visual Stud

2021-10-11 08:04:22

Python數(shù)據(jù)行程

2017-02-24 18:50:23

開源Javascript圖表庫(kù)

2019-04-29 09:00:00

數(shù)據(jù)可視化JavaScript圖表庫(kù)

2022-07-15 16:04:22

R 語言

2009-12-09 15:11:57

PHP圖標(biāo)類JpGra

2009-03-17 09:15:20

圖表框架CSSJavaScript

2022-12-30 15:35:30

智慧醫(yī)療人工智能

2011-06-17 11:22:33

jQueryjQuery插件

2013-12-11 10:41:00

jQuery插件

2015-08-20 10:04:40

可視化

2023-04-02 14:13:52

2021-10-25 13:55:19

PythonmatplotlibPDF

2023-10-07 09:34:03

數(shù)據(jù)可視化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)