如何在hadoop上实现数据沿袭?

yws3nbqq  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(419)

我们在金融领域实施的业务流程很少。监管机构的要求(不幸的是,不是很具体)是有一个用于审计目的的数据谱系。
该流包含两个部分:同步和异步。同步部分是一个包含关于销售点、客户和商品的大量信息的支付尝试。异步部分是一个批处理过程,它每小时向信用评估数据模型提供一部分新计算的变量。这些变量可能包括一些聚合,如余额和历史交易的链接。
为了计算异步部分,我们从多个关系数据库中摄取数据,并以原始格式(csv格式的表中的行)将它们存储在hdfs中。
在hdfs上存储数据时,会触发一个基于springxd的作业,该作业计算一些聚合并生成同步部分的数据。
我们有关系数据、hdfs上的原始数据和依赖pojo的mapreduce作业,pojo描述了springxd中实现的相关语义和转换。
所以,问题是如何处理上述场景中的审计?我们需要在任何时间点能够解释为什么要做出特定的决策,并且能够解释如何计算策略中使用的每个变量(同步或近实时流)。
我查看了现有的hadoop堆栈,看起来目前没有任何工具能够提供良好的企业级审计功能。
我的想法是从custome实现开始,包括>
包含所有业务术语的业务术语表
操作和技术元数据-将每个条目的转换执行记录到单独的存储中。
记录对业务逻辑的更改(使用保存业务规则和转换的版本控制中的数据)。
任何建议或分享您的经验将不胜感激!

2ledvvac

2ledvvac1#

目前,cloudera为大数据空间中的数据沿袭/数据治理制定了行业标准。
词汇表、元数据和历史运行(版本)查询都可以简化。
我确实意识到,当你提出这个问题时,其中一些可能还没有落实到位,但现在肯定是这样。
免责声明:我是cloudera的员工

相关问题