使用hadoop设计分析系统

js81xvg6  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(368)

我刚刚开始学习大数据,我对hadoop很感兴趣。我计划建立一个简单的分析系统,以使某些事件发生在我的网站意义。
因此,我计划编写代码(前端和后端)来触发一些将消息排队的事件(很可能是使用rabbitmq)。然后,这些消息将由消费者进行处理,消费者将连续地将数据写入hdfs。然后,我可以随时运行map reduce作业来分析当前数据集。
我倾向于amazonemr的hadoop功能。所以我的问题是,从运行consumer的服务器,如何将数据保存到hdfs?我知道有一个类似于“hadoopdfs-copyfromlocal”的命令,但是如何在服务器上使用它呢?有可用的工具吗?
有人试过类似的方法吗?我很想听听你的实现。细节和例子会很有帮助。谢谢!

mftmpeh8

mftmpeh81#

如果您提到emr,它将从s3存储中的文件夹中获取输入,因此您可以使用首选语言库将数据推送到s3,以便稍后使用emr作业对其进行分析。例如,在python中可以使用boto。
甚至有一些驱动程序允许您将s3存储装载为一个设备,但在不久前,所有这些驱动程序都太多了,无法在生产系统中使用它们。也许事情会随着时间而改变。
电子病历常见问题:
问:如何将数据导入amazon s3?您可以使用amazons3api将数据上传到amazons3。或者,您可以使用许多开源或商业客户机轻松地将数据上载到amazons3。
请注意,emr(以及s3)意味着额外的成本,而且它的使用对于真正的大数据来说是合理的。还要注意的是,无论是在hadoop性能还是在存储成本方面,拥有相对较大的文件都是有益的。

相关问题