将非结构化数据导入hadoop

k3fezbri  于 2021-05-27  发布在  Hadoop
关注(0)|答案(2)|浏览(966)

如何在hadoop中导入非结构化和半结构化数据?导入结构化数据很容易,因为我可以使用sqoop直接从mysql导入。但如果是非结构化数据该怎么办呢?

hpxqektj

hpxqektj1#

有多种方法可以将非结构化数据导入hadoop,具体取决于美国的情况。
使用hdfs shell命令(如put或copyfromlocal)将平面文件移动到hdfs中。有关详细信息,请参阅文件系统shell指南。
使用webhdfs rest api进行应用程序集成。webhdfs rest api
使用apache flume。它是一个分布式的、可靠的、可用的系统,用于有效地收集、聚合大量数据,并将这些数据从许多不同的源移动到集中的数据存储(如hdfs)。尽管历史上flume的很多用例都涉及到日志数据的收集/聚合,但flume可以与kafka一起使用,并将自己变成一个实时事件处理管道。
使用storm,一个通用的事件处理系统。在由螺栓和喷口组成的拓扑中,可以使用它将基于事件的非结构化数据摄取到hadoop中
spark的流组件提供了另一种将实时非结构化数据摄取到hdfs中的方法。它的处理模式和风暴有很大的不同。当strom一次处理一个传入事件时,spark streaming实际上在处理它们之前对在短时间窗口内到达的事件进行批处理。它被称为小批量。当然,spark streaming运行在spark core计算引擎之上,据称它的内存速度是mapreduce的100倍,磁盘速度是mapreduce的10倍。

0aydgbwb

0aydgbwb2#

您只需通过文件系统api将其上传到hdfs
例如 hadoop fs -put something.ext /tmp 其他块存储也是如此。没有什么不同。hdfs添加的唯一一点是,您需要考虑在数据节点之间拆分文件之后如何将其解析出来

相关问题