python—从restapi获取数据并将其存储在hdfs/hbase中

6qqygrtg  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(463)

我对大数据还不熟悉。我了解到hdfs用于存储更多的结构化数据,hbase用于存储非结构化数据。我有一个restapi,需要在其中获取数据并将其加载到数据仓库(hdfs/hbase)中。数据是json格式的。那么,将数据加载到哪一个更好呢?hdfs还是hbase?也可以请你指导我一些教程来做这个。我遇到了这个关于流数据的教程。但我不确定这是否适合我的用例。
如果您能指导我使用特定的资源/技术来解决这个问题,那将非常有帮助。

piah890a

piah890a1#

有几个问题你必须考虑
您想使用批处理文件还是流式处理?这取决于请求restapi的速率
对于存储,不仅有hdfs和hbase,还有许多其他解决方案,如casandra、mongodb和neo4j。所有这些都取决于您想要使用它的方式(随机访问与完全扫描、版本更新与写新行、并发访问)。例如,hbase适用于随机访问,neo4j适用于图形存储,。。。如果您正在接收json文件,mongodb可以是一个好的选择,因为它将对象存储为文档。
你的数据有多大?
下面是一篇关于开始大数据项目文档时需要考虑的问题的好文章

相关问题