精华 小秘密:.zip 和 .gz 文件不用解压,能直接导入
发布于 6 年前 作者 zhizh 6128 次浏览 来自 分享

往 Neo4j 导入数据,最常用的工具有 LOAD CSV 和 neo4j-admin import,其数据源通常是后缀为 .csv 或 .txt 的文件。为了节省磁盘空间和传输流量,原始的 .csv 或 .txt 文件往往被压缩成 .zip 或 .gz 文件。

之前,很多同学(包括我)在导入之前,都会先将 .zip 或 .gz 解压后再导入。对于巨量数据,这样是不是费时、费力又费磁盘呢?能不能不解压就直接导入呢?

现在告诉大家一个小秘密:这些压缩文件实际上不用解压,能直接导入。

举例说明:从 Twitter 社交网络下载 14 亿数据 路径:https://snap.stanford.edu/data/twitter-2010.txt.gz 文件:twitter-2010.txt.gz,尺寸 5,501,785,223 字节,约 5.5GB 展开:twitter-2010.txt,尺寸 26,141,060,589 字节,约 26GB 行数:1,468,365,182 测试: LOAD CSV FROM “file:/twitter-2010.txt.gz” AS line FIELDTERMINATOR ’ ’ WITH toInt(line[0]) as id, toInt(line[1]) as id1 RETURN id, id1 LIMIT 10

同学们看到,在这个测试语句里,我们没有事先解压,而是直接引用了 .gz 文件。 希望这个小秘密能够帮助大家在以后导入数据时省时、省力又省磁盘。

回到顶部