Hadoop数据仓库之数据治理

x33g5p2x  于2021-11-09 转载在 Hadoop  
字(1.2k)|赞(0)|评价(0)|浏览(796)

🌸数据治理这个问题对于我一个小白来说,好像有点宽泛,从我自己的感觉来说,数据治理应该是有过很多数据体系建设经验之后的一些总结,今天我们就参考一些大佬的建议,对谈一谈数据治理,对以往内容感兴趣的同学可以参考👇:

  • 第一篇: Hadoop之数据仓库概述.
  • 第二篇: hadoop数仓建设之日志采集.
  • 第三篇: Hadoop数仓建设之数据同步.
  • 第四篇: Hadoop数仓建设之数据模型.
  • 第五篇: Hadoop数仓建设之指标管理.

❄️从数据治理的理念上来看,“治”不应只在事后,更应在事前,“理”考验的是业务与技术能力的结合。从实际内容上来看,数据治理是一套方法体系+工具集,旨在帮助企业合理的架构数据、规范的定义与加工数据、清晰的管理数据、安全的应用数据,促使数据从成本中心变成价值中心,驱动企业数字化转型。

1.数据治理是什么?

数据治理:为公司业务越来越复杂而带来的数据越来越脏、乱、差的问题,而提出一套治理数据的方法+工具集

2. 数据治理的内容

这一部分,我将从六个方面来讲解数据治理的内容。

2.1 数据标准定义

数据维度及指标需要清晰的、统一的、标准的定义。(这里的部分参考Hadoop数仓建设之指标管理的文章,我这里列举一些例子)

  • 维护业务术语库:要做到见名知义,同名同义、不同名不同义,公司命名尽量统一。
  • 表命名规范:数据分层(ods/dwd/dwm/app)、采集周期(hour/day/week/month)、全量/增量(whole/increment)
  • 指标命名规范: 原子指标 = 业务术语库 + 历史指标名;派生指标 = 统计周期+统计粒度+业务限定+原子指标。
  • 维度命名规范:公司维度名=业务系统透传 + 业务术语库 + 历史字段名
  • 数据类型:bigint、string、decimal ,备注comment。

2.2 数据模型规范

按业务领域拆解业务过程,根据业务过程设计数据模型,高内聚低耦合,尽量能够支撑未来扩展,一般采用维度建模+宽表模型,记得数据分层。一般模型确定过程如下:

  • 确定业务过程
  • 确定粒度
  • 确定维度
  • 定义指标

2.3 数据开发规范

在数据开发过程中有几点需要注意:编程规范,代码质量、运行稳定,SQL效率。如大数据之路中所述,过程一般分为以下几个部分:
开发、测试、CodeReview、[修改优化、测试、CodeReview]、审批、上线。

2.4 数据质量管理

  1. 保证数据可用、权威(数据的完整性、准确性、一致性、及时性)
  2. 从上游采集、中间的数据加工,下游的数据服务都需要一套质量检测工具来保障准确性、完整性、一致性、及时性。
  3. 指标预测(根据历史数据预测当日指标数据与当日实际指标数据比对)
  4. 数据剖析

2.5 元数据管理

  1. 数据表的血缘关系
  2. 使用频率统计(对使用频次低的表进行管理)
  3. 表的生命周期(存储需要成本,定期清理,归档)

2.6 数据安全

  1. 数据安全意识最重要!
  2. 对数据的安全等级、数据脱敏、表(列)级权限控制、(访问日志)安全审计制定详细的规则。
  3. 为数据的合规使用制定规范,必须在合规范围内安全使用数据。

3. 参考资料

《大数据之路》
《hadoop构建数据仓库》

相关文章