我读了很多关于lambda和kappa体系结构的文章,其中我们需要使用apachespark或apachestorm。我刚刚发现了一个叫做datatorrent的新工具,它可以进行批处理和实时处理。我想知道datatorrent是否可以同时实现lambda(或kappa)体系结构的批处理和速度层?干杯,
v440hwme1#
apacheapex或datatorrentrts允许您的团队在单个处理框架上开发、测试、调试和操作。尽管apacheapex文档中没有明确提到kappa体系结构,但imo可以使用它来服务于kappa体系结构。apacheapex将为容错、检查点和恢复提供内置支持。因此,您可以依赖apex中的单个数据流dag以获得低延迟的可靠结果。在apex上使用dag定义应用程序时,不需要有单独的批处理层和速度层。但是,请注意apacheapex是流计算引擎的一个例子。对于完整的kappa架构,您将拥有日志存储+流计算引擎+服务层存储的组合。
wfsdck302#
datatorrent可以用来满足kappa架构的需求。您可以同时处理批处理数据和实时流数据。datatorrent是一种连续流模型,其中批处理数据像流一样流经dag,而spark则是流处理数据成批流动。您可能需要使用不同的操作员端口从不同的输入源输入数据,并且端口上的平台调用负责对数据进行内存计算。这就像有一个接收器(dt中的操作符)由两个管道(输入端口)馈电一样。
2条答案
按热度按时间v440hwme1#
apacheapex或datatorrentrts允许您的团队在单个处理框架上开发、测试、调试和操作。
尽管apacheapex文档中没有明确提到kappa体系结构,但imo可以使用它来服务于kappa体系结构。
apacheapex将为容错、检查点和恢复提供内置支持。因此,您可以依赖apex中的单个数据流dag以获得低延迟的可靠结果。在apex上使用dag定义应用程序时,不需要有单独的批处理层和速度层。
但是,请注意apacheapex是流计算引擎的一个例子。对于完整的kappa架构,您将拥有日志存储+流计算引擎+服务层存储的组合。
wfsdck302#
datatorrent可以用来满足kappa架构的需求。您可以同时处理批处理数据和实时流数据。
datatorrent是一种连续流模型,其中批处理数据像流一样流经dag,而spark则是流处理数据成批流动。
您可能需要使用不同的操作员端口从不同的输入源输入数据,并且端口上的平台调用负责对数据进行内存计算。
这就像有一个接收器(dt中的操作符)由两个管道(输入端口)馈电一样。