ApacheSpark—用于存储有关表、表源和dwh的etl的信息的工具

knpiaxh1 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(488)

我正在为我的dwh搜索用于存储有关表、数据源、etl进程等文档的工具。我在youtube上看过一些演示，但我发现，大多数公司都在使用自定义的、自己的系统或类似wiki的纯文本描述。我认为，对于分析师、经理和其他用户来说，找出他们需要什么以及如何使用数据来计算适合他们的统计数据并不是那么有用。请问，这个箱子我可以用什么？我必须读什么？

hadoop apache-spark airflow data-lake

来源：https://stackoverflow.com/questions/63314299/tool-for-storing-infromation-about-tables-their-sources-and-etl-for-dwh

1条答案

按热度按时间

i34xakig1#

在我看来，气流是在apache atlas的支持下产生的
目前最好的数据湖元数据管理工具之一是lyft的amundsen
他们还发布了 lyft/amundsendatabuilder ，介绍中说
amundsen databuilder是一个数据摄取库，它的灵感来自apache gobblin。它可以在编排框架（例如apacheaiffort）中用于从amundsen构建数据。您可以将该库与一个adhoc python脚本（示例）或apache dag（示例）一起使用。

赞(0）回复(0）举报 2021-05-27

我来回答

ApacheSpark—用于存储有关表、表源和dwh的etl的信息的工具

1条答案

相关问题

热门标签

最新问答