我刚刚遵循了以下指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster 在运行hadoop和hbase的amazonec2上建立集群。我现在想知道的是如何在集群上运行的hbase中获取数据?我是否需要将其加载到s3中,然后再加载到我的hbase集群中?是否有加载/提取数据的最佳实践?任何类型的指针将不胜感激,因为我是新的ec2。
pxyaymoc1#
您需要将ssh放入一个节点中,然后可以使用以下方法将数据复制到hdfs:hadoop fs-copyfromlocal数据/sample\rdf.nt输入/sample\rdf.nt这会将文件从本地计算机复制到hdfs。当然,这假设您的机器上已经有了这个文件,所以您必须先将它上传到ec2,或者让ec2节点从某处下载它。将文件上传到s3并使用s3cmd将其从s3复制到您的机器上是有意义的,这取决于您销毁节点的频率&您是否希望保留文件以供以后使用。(在第三部分的教程中有更多的例子。)
1条答案
按热度按时间pxyaymoc1#
您需要将ssh放入一个节点中,然后可以使用以下方法将数据复制到hdfs:
hadoop fs-copyfromlocal数据/sample\rdf.nt输入/sample\rdf.nt
这会将文件从本地计算机复制到hdfs。当然,这假设您的机器上已经有了这个文件,所以您必须先将它上传到ec2,或者让ec2节点从某处下载它。
将文件上传到s3并使用s3cmd将其从s3复制到您的机器上是有意义的,这取决于您销毁节点的频率&您是否希望保留文件以供以后使用。
(在第三部分的教程中有更多的例子。)