我应该使用lsf还是实现自己的作业调度程序？

mv1qrgav 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(493)

我们在公司内部进行一些文件处理/计算简单地说，我们有一项工作或一项任务涉及读取一个有超过10亿条记录的巨大文件，解析这些文件，进行一些清理，并将清理后的数据写入另一个文件。我们有数百个这样的工作岗位，它们不断地被创造、提交、运行。每个作业都处理自己的文件，因此我们不必担心并发性问题。
为了实现这一点，我们构建了自己的调度系统（大型机和java的组合）。我们目前的吞吐量约为每小时4000万条记录。
为了更好地实现这一点（并提供更多的容错能力），我们正在评估ibm的lsf，以帮助我们进行调度和创造就业机会。
你们中有谁觉得使用lsf可能会对这个问题造成过度伤害吗？我可以考虑使用akka中的actor模型实现实现同样的功能，并围绕它编写自己的作业调度器。
有什么想法吗？

hadoop akka job-scheduling lsf

来源：https://stackoverflow.com/questions/32336296/should-i-use-lsf-or-implement-my-own-job-schedulers

1条答案

按热度按时间

gijlo24d1#

我的评论太长了，所以我做了一个回答，虽然它并没有真正回答你的问题（无论如何还没有）。
在引进新技术和推出自己的解决方案之间有一个权衡。您需要在不同文件中或一个文件中的记录之间进行交叉引用吗？如果不是这样，并且你一行一行地处理文件，有很多方法可以不用任何框架就编写脚本。引入akka（或任何其他框架）可能会拖累一些基础设施需求，这些需求可能比编写实际服务更昂贵。
tldr：是的，你可以使用akka来做这件事（以及许多其他的方法），但是有太多的未知数来决定它是否是“最佳”解决方案（引用是因为在这一点上没有“最佳”的定义）。

赞(0）回复(0）举报 2021-06-04

我来回答

我应该使用lsf还是实现自己的作业调度程序？

1条答案

相关问题

热门标签

最新问答