spark状态结构化流媒体黑名单研究

qzlgjiam  于 2021-05-17  发布在  Spark
关注(0)|答案(0)|浏览(192)

目前,我们有一个“有状态的”spark结构化流媒体作业,它计算每个id的聚合。我需要实现一个新的要求,即如果特定id的传入消息数超过某个值,则将此id添加到黑名单并删除其状态。对于任何被列入黑名单的身份证,我们都不会为其创建状态。如果id被列入黑名单,消息将被过滤掉。
在spark结构化流媒体中实现这一点的最佳方法是什么?本质上,我们需要做的是创建一个间断更新的分布式hashset&使这个hashset对所有执行者都可用,这样他们就可以过滤掉不需要的消息。
任何指点都将不胜感激。是使用第三方分布式缓存工具(如ehcache、redis等)的唯一选择吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题