我用java编写了一个树,它支持多个子节点和边。到目前为止,我还不必担心这个应用程序的扩展。用例现在要求搜索和维护100个或更多的树示例。
我在这个领域做的研究很少。首先想到的是Spark。不过,我的理解是,spark批量处理事件窗口——几乎删除了“in-stream”方面。时间在这里非常关键。
所以我想利用hadoop的文件系统。在集群中索引树并使用mapreduce进行维护。
我不介意好好读书。如果有任何文章,教程,或建议,将不胜感激。
干杯
我用java编写了一个树,它支持多个子节点和边。到目前为止,我还不必担心这个应用程序的扩展。用例现在要求搜索和维护100个或更多的树示例。
我在这个领域做的研究很少。首先想到的是Spark。不过,我的理解是,spark批量处理事件窗口——几乎删除了“in-stream”方面。时间在这里非常关键。
所以我想利用hadoop的文件系统。在集群中索引树并使用mapreduce进行维护。
我不介意好好读书。如果有任何文章,教程,或建议,将不胜感激。
干杯
1条答案
按热度按时间iugsix8n1#
Hadoop
以及Spark
都是分布式处理系统。Spark
旨在克服Hadoop
系统。Hadoop
有两个部分,一个叫做hdfs
以及一种叫做map-reduce
.Spark
是在分析map-reduce
. 因此RDD
(弹性分布式数据集)在spark
用于内存中的分布式处理。更多信息可以在apachespark和jacek中找到我们可以使用强大的hadoop文件系统
Spark
处理也一样。如果你愿意
spark
,您将学习函数式编程scala
或者python
或者R
.Hadoop
依赖于map-reduce
要遵循的算法有点复杂。还有一些
api
s表示scala中的树,也有uderway的作品,例如this和this我希望这是有帮助的。