我们正致力于开发一个平台,该平台对图形中的实体流进行建模。系统必须回答这样的问题:有多少具有这些属性的实体位于图上的给定节点上,节点上的流入量是多少,节点上的流出量是多少等。流数据以流的形式提供给系统。我们正在考虑将流数据分解为时间桶(比如5分钟),根据不同的属性预先计算各种聚合,并将聚合存储在dynamodb中以服务于查询。
为此,我们正在评估以下选项:
emr:将流数据放入aws-s3/dynamodb运行map reduce/hive作业
将最新数据放入aws-rds,通过sql计算聚合
akka:它是一个通过参与者和消息传递构建分布式应用程序的框架。
如果有人从事过类似的用例或者使用过以上任何技术,请告诉我什么方法最适合我们的用例。
2条答案
按热度按时间piztneat1#
最终的解决方案采用了aws-redshift,驱动原因是redshift通过copy命令提供高速数据摄取。
hadoop是为了高效地存储数据而构建的,但是它不能保证一个次秒的sla来接收数据,也不能为mr jobs提供数据何时可用的sla,这是我们通常不使用emr或hadoop的主要原因。
4uqofj5v2#
我用电子病历来处理s3中的数据。。。效果不错。最好的一点是,您可以旋转各种大小的hadoop集群,以适应工作负载。
您可能需要查看storm以进行流处理
我还在这里收集大数据工具列表:http://hadoopilluminated.com/hadoop_book/bigdata_ecosystem.html