如何使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)
【引自T_SevenS的博客】在開(kāi)發(fā)neo4j的過(guò)程中,經(jīng)常會(huì)有同學(xué)問(wèn)如何向neo4j中導(dǎo)入大量的歷史數(shù)據(jù),而這些數(shù)據(jù)一般都會(huì)存在于關(guān)系型數(shù)據(jù)庫(kù)中,現(xiàn)在本人就根據(jù)自己的導(dǎo)入經(jīng)歷,把導(dǎo)入的過(guò)程和一些挖過(guò)的坑分享給大家,以便后面的同學(xué)少走彎路,廢話(huà)不多說(shuō),直接上干貨。
1、batch-import原始項(xiàng)目地址:https://github.com/jexp/batch-import
這個(gè)工具是neo4j的作者之一Michael Hunger所編寫(xiě),是在neo4j自帶批量導(dǎo)入工具基礎(chǔ)之上做的進(jìn)一步優(yōu)化,但是它在導(dǎo)入.gz壓縮文件時(shí),會(huì)出現(xiàn)關(guān)系無(wú)法導(dǎo)入的情況,所以如果要使用.gz壓縮包進(jìn)行導(dǎo)入,請(qǐng)使用我修改過(guò)的版本:https://github.com/mo9527/batch-import
2、環(huán)境準(zhǔn)備
jdk:7以上
內(nèi)存:8G以上,導(dǎo)入數(shù)據(jù)多的話(huà)會(huì)非常消耗內(nèi)存,我自己導(dǎo)入的是將近1.5億節(jié)點(diǎn),3億關(guān)系,用的是32G內(nèi)存
3、導(dǎo)入步驟
a)從github上clone下代碼,并使用maven進(jìn)行打包,打完包后的jar文件,與項(xiàng)目本身的依賴(lài)jar一起放到lib文件夾下,batch.properties文件和執(zhí)行導(dǎo)入的腳本放在lib同級(jí)目錄下,***的目錄結(jié)構(gòu)如下圖:
ps:file文件夾是我自己將要導(dǎo)入的csv文件和.gz壓縮包。
b)組裝csv文件
說(shuō)起這一步,可能需要你們根據(jù)自己的實(shí)際業(yè)務(wù)需求,手動(dòng)寫(xiě)代碼導(dǎo)csv文件了,這里我只講一下csv文件格式一些要點(diǎn):
1)、節(jié)點(diǎn)csv文件
節(jié)點(diǎn)csv文件的***列是固定的,列值為此節(jié)點(diǎn)的label名稱(chēng),第二列是index,它的列頭是id:string:indexName 這種格式,解釋一下,id是這一列的property名字,可以根據(jù)需要自己命名,string為字段的數(shù)據(jù)類(lèi)型,indexName是neo4j數(shù)據(jù)庫(kù)中將要導(dǎo)入的索引名稱(chēng),我自己的文件格式如下:
然后,后面的列就是節(jié)點(diǎn)的property了,沒(méi)什么特別的要求
2)、關(guān)系csv文件
先看下我的關(guān)系csv文件:
關(guān)系的csv文件前兩列要特別注意,***列是關(guān)系的起始節(jié)點(diǎn),第二列是關(guān)系的結(jié)束節(jié)點(diǎn),第三列是關(guān)系類(lèi)型,后面的列是關(guān)系的property,可以隨意了。他github上的說(shuō)明沒(méi)有說(shuō)出一些注意點(diǎn),這里要特別標(biāo)明:
***列的起始節(jié)點(diǎn)的列頭,也就是id:string:buyerId這個(gè)東西,這個(gè)玩意一定要和節(jié)點(diǎn)csv文件(上圖)中定義的一模一樣,第二列也是如此,要和結(jié)束節(jié)點(diǎn)的csv文件里的一樣,不然他會(huì)找不到對(duì)應(yīng)的關(guān)系。
3)、修改batch.properties文件
主要修改兩個(gè)地方,
- 如果是在現(xiàn)有的neo4j數(shù)據(jù)庫(kù)中進(jìn)行導(dǎo)入,請(qǐng)?jiān)O(shè)置:
batch_import.keep_db=true
- 將節(jié)點(diǎn)csv文件中所有的索引名稱(chēng)加入到文件中,例如上面這個(gè)節(jié)點(diǎn)csv文件中的索引名稱(chēng)是buyerId,那就在文件中加入batch_import.node_index.buyerId=exact
以下是我本人的配置文件:
4、導(dǎo)入
linux和win環(huán)境的導(dǎo)入都差不多,只不過(guò)執(zhí)行的腳本不一樣,這里以win環(huán)境為例。
文件都準(zhǔn)備好了,現(xiàn)在開(kāi)始導(dǎo)入了。
打開(kāi)cmd,cd到導(dǎo)入腳本的目錄,也就是import.bat所在目錄,執(zhí)行命令:
- import.bat test.db node.csv rel.csv
解釋一下命令的幾個(gè)參數(shù):***個(gè)參數(shù)是數(shù)據(jù)庫(kù)的目錄,可以絕對(duì)路徑指定到任意位置,第二個(gè)參數(shù)是節(jié)點(diǎn)csv文件,多個(gè)csv文件用逗號(hào)分隔,如果是壓縮包,一定要注意,這里有個(gè)坑,不能把所有類(lèi)型的node都放到一個(gè)壓縮包中,一定要每個(gè)類(lèi)型的node分開(kāi)壓縮,不然它只會(huì)導(dǎo)入***個(gè)類(lèi)型的node節(jié)點(diǎn),同理,關(guān)系的壓縮包也要分開(kāi)壓縮,然后導(dǎo)入時(shí)用逗號(hào)分隔.gz文件。
好了,如果你的csv文件沒(méi)有問(wèn)題,內(nèi)存足夠用的話(huà),現(xiàn)在就開(kāi)始等待吧。
如果想修改導(dǎo)入工具的Heap大小,可以修改腳本文件中的 set HEAP=4G
溫馨提示:如果節(jié)點(diǎn)文件中有中文的話(huà),導(dǎo)入會(huì)非常慢的,除非你內(nèi)存有128G,我有一個(gè)節(jié)點(diǎn)文件,里面只有一列是中文,而且中文最長(zhǎng)不超過(guò)4個(gè)漢字,2000多萬(wàn)記錄導(dǎo)了2個(gè)小時(shí),注意我是32G內(nèi)存,其他4000多萬(wàn)的節(jié)點(diǎn),沒(méi)有漢字的,基本上不超過(guò)2分鐘。