我看到aws elastic mapreduce和aws redshift都使用集群结构,可以用于数据分析。它们有哪些不同的用例?
amazonredshift支持与多种应用程序的客户端连接,包括商业智能(bi)、报告、数据和分析工具。
amazonelasticmapreduce(amazonemr)是一个托管集群平台,它简化了在aws上运行大数据框架(如apachehadoop和apachespark)来处理和分析大量数据。
我看到aws elastic mapreduce和aws redshift都使用集群结构,可以用于数据分析。它们有哪些不同的用例?
amazonredshift支持与多种应用程序的客户端连接,包括商业智能(bi)、报告、数据和分析工具。
amazonelasticmapreduce(amazonemr)是一个托管集群平台,它简化了在aws上运行大数据框架(如apachehadoop和apachespark)来处理和分析大量数据。
1条答案
按热度按时间7nbnzgx91#
你是对的,amazonemr和amazonerdshift都是集群系统,可以扩展以提供更多的计算能力。但是,这两种服务之间有一些非常明显的区别。
amazonemr提供了apachehadoop和在hadoop上运行的应用程序。它是一个非常灵活的系统,可以读取和处理非结构化数据,通常用于处理大数据。然而,学习hadoop和相关技术是相当困难的权力越大,责任越大!”)
amazonredshift是一个PB级的数据仓库,可以通过sql访问。在查询数据之前,必须将数据加载到redshift中,这通常需要进行一些转换(“etl”)。
那么选择哪一个呢?
如果您想使用sql并且您有结构化数据(例如csv文件),那么redshift是最简单的解决方案。
如果你想处理非结构化的数据(比如奇怪的格式而不是结构化的csv文件),amazonemr可以提供一个hadoop系统。
有时人们同时使用这两种方法——使用hadoop转换数据,然后使用红移查询数据。
如果amazonredshift能够满足您的需求,那么就使用它而不是hadoop。redshift使用起来更简单,因为它本身就是一个标准的sql数据库,您可以在几分钟内开始使用它。所有集群的东西都在幕后,你不需要知道太多就可以使用它。
如果您需要更灵活的功能,并且不介意使用低级别的技术,那么amazonemr上的hadoop将为您提供更多的功能。