自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)

運(yùn)維 數(shù)據(jù)庫(kù)運(yùn)維
在開(kāi)發(fā)neo4j的過(guò)程中,經(jīng)常會(huì)有同學(xué)問(wèn)如何向neo4j中導(dǎo)入大量的歷史數(shù)據(jù),而這些數(shù)據(jù)一般都會(huì)存在于關(guān)系型數(shù)據(jù)庫(kù)中,現(xiàn)在本人就根據(jù)自己的導(dǎo)入經(jīng)歷,把導(dǎo)入的過(guò)程和一些挖過(guò)的坑分享給大家,以便后面的同學(xué)少走彎路。

【引自T_SevenS的博客】在開(kāi)發(fā)neo4j的過(guò)程中,經(jīng)常會(huì)有同學(xué)問(wèn)如何向neo4j中導(dǎo)入大量的歷史數(shù)據(jù),而這些數(shù)據(jù)一般都會(huì)存在于關(guān)系型數(shù)據(jù)庫(kù)中,現(xiàn)在本人就根據(jù)自己的導(dǎo)入經(jīng)歷,把導(dǎo)入的過(guò)程和一些挖過(guò)的坑分享給大家,以便后面的同學(xué)少走彎路,廢話(huà)不多說(shuō),直接上干貨。

1、batch-import原始項(xiàng)目地址:https://github.com/jexp/batch-import

這個(gè)工具是neo4j的作者之一Michael Hunger所編寫(xiě),是在neo4j自帶批量導(dǎo)入工具基礎(chǔ)之上做的進(jìn)一步優(yōu)化,但是它在導(dǎo)入.gz壓縮文件時(shí),會(huì)出現(xiàn)關(guān)系無(wú)法導(dǎo)入的情況,所以如果要使用.gz壓縮包進(jìn)行導(dǎo)入,請(qǐng)使用我修改過(guò)的版本:https://github.com/mo9527/batch-import

2、環(huán)境準(zhǔn)備

jdk:7以上

內(nèi)存:8G以上,導(dǎo)入數(shù)據(jù)多的話(huà)會(huì)非常消耗內(nèi)存,我自己導(dǎo)入的是將近1.5億節(jié)點(diǎn),3億關(guān)系,用的是32G內(nèi)存

3、導(dǎo)入步驟

a)從github上clone下代碼,并使用maven進(jìn)行打包,打完包后的jar文件,與項(xiàng)目本身的依賴(lài)jar一起放到lib文件夾下,batch.properties文件和執(zhí)行導(dǎo)入的腳本放在lib同級(jí)目錄下,***的目錄結(jié)構(gòu)如下圖:

 

ps:file文件夾是我自己將要導(dǎo)入的csv文件和.gz壓縮包。

b)組裝csv文件

說(shuō)起這一步,可能需要你們根據(jù)自己的實(shí)際業(yè)務(wù)需求,手動(dòng)寫(xiě)代碼導(dǎo)csv文件了,這里我只講一下csv文件格式一些要點(diǎn):

1)、節(jié)點(diǎn)csv文件

節(jié)點(diǎn)csv文件的***列是固定的,列值為此節(jié)點(diǎn)的label名稱(chēng),第二列是index,它的列頭是id:string:indexName 這種格式,解釋一下,id是這一列的property名字,可以根據(jù)需要自己命名,string為字段的數(shù)據(jù)類(lèi)型,indexName是neo4j數(shù)據(jù)庫(kù)中將要導(dǎo)入的索引名稱(chēng),我自己的文件格式如下:

 

然后,后面的列就是節(jié)點(diǎn)的property了,沒(méi)什么特別的要求

2)、關(guān)系csv文件

先看下我的關(guān)系csv文件:

 

關(guān)系的csv文件前兩列要特別注意,***列是關(guān)系的起始節(jié)點(diǎn),第二列是關(guān)系的結(jié)束節(jié)點(diǎn),第三列是關(guān)系類(lèi)型,后面的列是關(guān)系的property,可以隨意了。他github上的說(shuō)明沒(méi)有說(shuō)出一些注意點(diǎn),這里要特別標(biāo)明:

***列的起始節(jié)點(diǎn)的列頭,也就是id:string:buyerId這個(gè)東西,這個(gè)玩意一定要和節(jié)點(diǎn)csv文件(上圖)中定義的一模一樣,第二列也是如此,要和結(jié)束節(jié)點(diǎn)的csv文件里的一樣,不然他會(huì)找不到對(duì)應(yīng)的關(guān)系。

3)、修改batch.properties文件

主要修改兩個(gè)地方,

  • 如果是在現(xiàn)有的neo4j數(shù)據(jù)庫(kù)中進(jìn)行導(dǎo)入,請(qǐng)?jiān)O(shè)置:

batch_import.keep_db=true

  • 將節(jié)點(diǎn)csv文件中所有的索引名稱(chēng)加入到文件中,例如上面這個(gè)節(jié)點(diǎn)csv文件中的索引名稱(chēng)是buyerId,那就在文件中加入batch_import.node_index.buyerId=exact

以下是我本人的配置文件:

 

4、導(dǎo)入

linux和win環(huán)境的導(dǎo)入都差不多,只不過(guò)執(zhí)行的腳本不一樣,這里以win環(huán)境為例。

文件都準(zhǔn)備好了,現(xiàn)在開(kāi)始導(dǎo)入了。

打開(kāi)cmd,cd到導(dǎo)入腳本的目錄,也就是import.bat所在目錄,執(zhí)行命令:

  1. import.bat test.db node.csv rel.csv 

解釋一下命令的幾個(gè)參數(shù):***個(gè)參數(shù)是數(shù)據(jù)庫(kù)的目錄,可以絕對(duì)路徑指定到任意位置,第二個(gè)參數(shù)是節(jié)點(diǎn)csv文件,多個(gè)csv文件用逗號(hào)分隔,如果是壓縮包,一定要注意,這里有個(gè)坑,不能把所有類(lèi)型的node都放到一個(gè)壓縮包中,一定要每個(gè)類(lèi)型的node分開(kāi)壓縮,不然它只會(huì)導(dǎo)入***個(gè)類(lèi)型的node節(jié)點(diǎn),同理,關(guān)系的壓縮包也要分開(kāi)壓縮,然后導(dǎo)入時(shí)用逗號(hào)分隔.gz文件。

好了,如果你的csv文件沒(méi)有問(wèn)題,內(nèi)存足夠用的話(huà),現(xiàn)在就開(kāi)始等待吧。

如果想修改導(dǎo)入工具的Heap大小,可以修改腳本文件中的 set HEAP=4G 

 

溫馨提示:如果節(jié)點(diǎn)文件中有中文的話(huà),導(dǎo)入會(huì)非常慢的,除非你內(nèi)存有128G,我有一個(gè)節(jié)點(diǎn)文件,里面只有一列是中文,而且中文最長(zhǎng)不超過(guò)4個(gè)漢字,2000多萬(wàn)記錄導(dǎo)了2個(gè)小時(shí),注意我是32G內(nèi)存,其他4000多萬(wàn)的節(jié)點(diǎn),沒(méi)有漢字的,基本上不超過(guò)2分鐘。 

責(zé)任編輯:龐桂玉 來(lái)源: T_SevenS的博客
相關(guān)推薦

2017-07-28 15:12:28

Neo4j圖數(shù)據(jù)庫(kù)

2022-11-18 17:53:03

Neo4j

2022-04-13 11:32:45

Neo4j圖數(shù)據(jù)庫(kù)

2018-05-16 08:26:39

知識(shí)圖譜Neo4j

2021-12-27 07:31:37

JavaNeo4J數(shù)據(jù)庫(kù)

2024-08-08 08:31:32

SpringNeo4j優(yōu)化

2011-07-26 12:48:52

neo4j圖數(shù)據(jù)庫(kù)

2021-12-03 20:33:08

計(jì)算

2024-06-03 10:53:18

LLMRAGGraphRAG

2011-09-22 16:46:02

Neo4j圖形數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)

2022-01-17 17:10:18

Neo4j 圖數(shù)據(jù)庫(kù)

2022-01-17 14:34:59

數(shù)據(jù)平臺(tái)數(shù)據(jù)數(shù)字化

2015-09-28 08:57:06

Ruby APPNeo4j

2018-05-03 15:40:33

2022-02-15 08:22:28

Neo4jSpring數(shù)據(jù)庫(kù)

2021-10-27 17:20:23

圖數(shù)據(jù)數(shù)據(jù)庫(kù)

2022-03-23 09:37:54

Neo4j開(kāi)源侵犯

2022-09-08 13:57:00

SpringBootNeo4j

2010-03-18 16:51:00

python語(yǔ)法入門(mén)

2015-01-15 10:33:22

Android Stu導(dǎo)入開(kāi)源庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)