我对大数据还不熟悉。我了解到hdfs用于存储更多的结构化数据,hbase用于存储非结构化数据。我有一个restapi,需要在其中获取数据并将其加载到数据仓库(hdfs/hbase)中。数据是json格式的。那么,将数据加载到哪一个更好呢?hdfs还是hbase?也可以请你指导我一些教程来做这个。我遇到了这个关于流数据的教程。但我不确定这是否适合我的用例。如果您能指导我使用特定的资源/技术来解决这个问题,那将非常有帮助。
piah890a1#
有几个问题你必须考虑您想使用批处理文件还是流式处理?这取决于请求restapi的速率对于存储,不仅有hdfs和hbase,还有许多其他解决方案,如casandra、mongodb和neo4j。所有这些都取决于您想要使用它的方式(随机访问与完全扫描、版本更新与写新行、并发访问)。例如,hbase适用于随机访问,neo4j适用于图形存储,。。。如果您正在接收json文件,mongodb可以是一个好的选择,因为它将对象存储为文档。你的数据有多大?下面是一篇关于开始大数据项目文档时需要考虑的问题的好文章
1条答案
按热度按时间piah890a1#
有几个问题你必须考虑
您想使用批处理文件还是流式处理?这取决于请求restapi的速率
对于存储,不仅有hdfs和hbase,还有许多其他解决方案,如casandra、mongodb和neo4j。所有这些都取决于您想要使用它的方式(随机访问与完全扫描、版本更新与写新行、并发访问)。例如,hbase适用于随机访问,neo4j适用于图形存储,。。。如果您正在接收json文件,mongodb可以是一个好的选择,因为它将对象存储为文档。
你的数据有多大?
下面是一篇关于开始大数据项目文档时需要考虑的问题的好文章