我每天都会运行一些python脚本,这些脚本可以完成以下任务:
parse 1000 text files (gziped) :
~ 100 GB
30 Millions rows
Crawl some data from many websites :
40 Millions rows
Script distributed in 50 Amazon EC2 micro instances (5 scripts / instance)
对于每一行,我都会做一些类似的事情(如果该行不存在,请确保在插入前在数据库中搜索一些需要与我的行一起添加的数据),最后,在hbase和solr中插入该行。要处理所有这些文件并爬网所有这些页面,需要花费大量时间,即使我在多台机器上分发脚本也是如此。
我现在不使用mapreduce,我的问题是:mapreduce在我的情况下有用吗(我学到了一点,我的理解是,如果我想在一些文件中做一些计算,比如wordcount示例,我真的需要它
1条答案
按热度按时间j5fpnvbx1#
mapreduce是由不同的分销商(apache、google等)实现的编程范式。如果您想使用mapreduce处理数据,您需要配置集群并将数据存储在分布式文件系统(hdfs或hadoop已知的其他实现)中。是的,mapreduce作业将在集群中的不同节点之间进行并行处理,从而节省您的时间。