我对ssis有很好的了解,informatica用于执行etl过程和将数据加载到数据仓库。但我对hadoop的了解还不够。我只是想知道,我们可以用hadoop代替像informatica这样的etl工具吗?在这里,我主要讨论的是关系表结构。我知道hadoop可以用来从非结构化数据中提取信息。
dtcbnfnu1#
这不能按要求回答。hadoop的强大功能来自于synergy或mr和hdfs,使计算更接近数据。当您谈论使用hadoop进行etl从oltp关系表到dw时,hadoop必须连接、提取数据并进行上传。让一组工作人员重击oltp数据库以提取数据对etl过程几乎没有帮助。即使当你的t相是复杂的,是很少的情况下,甚至是一个小飞盘的雷达相比,从关系数据库提取e。转换越复杂、io密集且不依赖关系表,hadoop的情况就越好。如果数据已经在hdfs中,hadoop将是一个明显的选择。由于数据位于一个中心rdbms中,您需要证明hadoop会/可能会有帮助的原因。
2w2cym1i2#
您可以使用hadoop map reduce执行验证、转换和概要分析,这些都是etl的关键功能。下面是一些开源解决方案。它们以csv作为输入,生成csv作为输出。https://pkghosh.wordpress.com/2015/07/28/validating-big-data/https://pkghosh.wordpress.com/2015/11/17/transforming-big-data/https://pkghosh.wordpress.com/2015/09/22/profiling-big-data/在etl之后,您可以使用hive进行数据仓库和分析。另一个选择是使用 Impala 。
5uzkadbs3#
我们可以用hadoop代替像informatica这样的etl工具吗?是的,我们为什么不像其他人所说的那样进行英语教学呢。一种方法,从源中提取数据,装入目标数据库,然后转换并集成成所需的格式。所有繁重的数据处理都在目标数据库中进行。hadoop是这里作为目标数据库的正确选择,只要我们对每种不同的文件格式都有良好的读取器,它就能够很好地处理繁重的数据。
3条答案
按热度按时间dtcbnfnu1#
这不能按要求回答。
hadoop的强大功能来自于synergy或mr和hdfs,使计算更接近数据。当您谈论使用hadoop进行etl从oltp关系表到dw时,hadoop必须连接、提取数据并进行上传。让一组工作人员重击oltp数据库以提取数据对etl过程几乎没有帮助。即使当你的t相是复杂的,是很少的情况下,甚至是一个小飞盘的雷达相比,从关系数据库提取e。
转换越复杂、io密集且不依赖关系表,hadoop的情况就越好。
如果数据已经在hdfs中,hadoop将是一个明显的选择。由于数据位于一个中心rdbms中,您需要证明hadoop会/可能会有帮助的原因。
2w2cym1i2#
您可以使用hadoop map reduce执行验证、转换和概要分析,这些都是etl的关键功能。下面是一些开源解决方案。它们以csv作为输入,生成csv作为输出。
https://pkghosh.wordpress.com/2015/07/28/validating-big-data/
https://pkghosh.wordpress.com/2015/11/17/transforming-big-data/
https://pkghosh.wordpress.com/2015/09/22/profiling-big-data/
在etl之后,您可以使用hive进行数据仓库和分析。另一个选择是使用 Impala 。
5uzkadbs3#
我们可以用hadoop代替像informatica这样的etl工具吗?
是的,我们为什么不像其他人所说的那样进行英语教学呢。
一种方法,从源中提取数据,装入目标数据库,然后转换并集成成所需的格式。所有繁重的数据处理都在目标数据库中进行。hadoop是这里作为目标数据库的正确选择,只要我们对每种不同的文件格式都有良好的读取器,它就能够很好地处理繁重的数据。