大数据集成测试最佳实践

new9mtju 于 2021-06-21 发布在 Storm

关注(0)|答案(2)|浏览(370)

关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗？**更新这个问题，这样就可以通过编辑这篇文章用事实和引文来回答。

三年前关门了。
改进这个问题
我正在四处寻找关于基于aws的数据摄取管道的最佳实践的一些资源，该管道使用kafka、storm、spark（流式处理和批处理），使用各种微服务从hbase读写数据层。对于我的本地env，我正在考虑创建docker或vagrant图像，以允许我与env进行交互。我的问题变成了如何为一个更接近prod的端到端的功能环境提供支持，死路一条就是拥有一个始终在线的环境，但是这会变得很昂贵。同样，在perf环境方面，似乎我可能不得不使用punt和服务帐户，这些帐户可以拥有“世界运行”，但其他帐户将受到计算资源的限制，因此它们不会压倒集群。
我很好奇其他人是如何处理同样的问题的，如果我想这个倒退。

apache-spark bigdata apache-storm

来源：https://stackoverflow.com/questions/34532120/big-data-integration-testing-best-practice

2条答案

按热度按时间

nimxete21#

试试hadoop迷你集群。它支持您正在使用的大多数工具。
小型集群

赞(0）回复(0）举报 2021-06-21

3htmauhk2#

aws还通过ec2容器提供docker服务。如果使用docker映像的本地部署成功，则可以 checkout aws ec2容器服务(https://aws.amazon.com/ecs/).
还有，看看storm docker(https://github.com/wurstmeister/storm-docker)，提供用于部署storm群集的易于使用的docker文件。

赞(0）回复(0）举报 2021-06-21

我来回答

大数据集成测试最佳实践

2条答案

相关问题

热门标签

最新问答