到目前为止,我知道风暴,它是用来分析推特推特获得趋势性的主题,但它可以用来分析数据,从政府的人口普查?因为数据是结构化的,所以storm适合这样做吗?
dldeef671#
storm是为流式数据处理而设计的,在流式数据处理中,数据是连续的。您的应用程序拥有它需要处理的所有数据,因此批处理更适合。如果数据是结构化的,您可以使用r或其他工具进行分析,或者编写脚本来转换数据,以便将其作为输入转到r。如果它是一个庞大的数据集,&u想要更快地处理它,那么就考虑使用hadoop&根据您必须做的分析编写程序。只有在您提供有关数据大小的更多详细信息以及您希望对其进行什么样的分析时,才有可能提出体系结构。如果它是一个较小的数据集,那么hadoop和storm对于必须解决的问题来说都可能是一个杀伤力过大的问题--GTA银行
yhuiod9q2#
storm通常用于处理无休止的数据流,例如日志、twitter流,或者在我的例子中是网络爬虫的输出。我相信人口普查类型的数据将以固定报告的形式出现,可以将其视为一个流,但可能会更好地通过map reduce之类的东西进行处理,使用hadoop(可能使用cacding或bolding作为细节的抽象层)。数据的结构化特性不会阻止使用这些技术中的任何一种,这与您试图解决的问题更相关。
2条答案
按热度按时间dldeef671#
storm是为流式数据处理而设计的,在流式数据处理中,数据是连续的。您的应用程序拥有它需要处理的所有数据,因此批处理更适合。如果数据是结构化的,您可以使用r或其他工具进行分析,或者编写脚本来转换数据,以便将其作为输入转到r。如果它是一个庞大的数据集,&u想要更快地处理它,那么就考虑使用hadoop&根据您必须做的分析编写程序。只有在您提供有关数据大小的更多详细信息以及您希望对其进行什么样的分析时,才有可能提出体系结构。如果它是一个较小的数据集,那么hadoop和storm对于必须解决的问题来说都可能是一个杀伤力过大的问题--GTA银行
yhuiod9q2#
storm通常用于处理无休止的数据流,例如日志、twitter流,或者在我的例子中是网络爬虫的输出。
我相信人口普查类型的数据将以固定报告的形式出现,可以将其视为一个流,但可能会更好地通过map reduce之类的东西进行处理,使用hadoop(可能使用cacding或bolding作为细节的抽象层)。
数据的结构化特性不会阻止使用这些技术中的任何一种,这与您试图解决的问题更相关。