mapreduce对处理大文件、抓取大量页面以获取数据并将它们插入hbase有用吗？

drkbr07n 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(305)

我每天都会运行一些python脚本，这些脚本可以完成以下任务：

parse 1000 text files (gziped) :
    ~ 100 GB 
    30 Millions rows
Crawl some data from many websites : 
    40 Millions rows    
    Script distributed in 50 Amazon EC2 micro instances (5 scripts / instance)

对于每一行，我都会做一些类似的事情（如果该行不存在，请确保在插入前在数据库中搜索一些需要与我的行一起添加的数据），最后，在hbase和solr中插入该行。要处理所有这些文件并爬网所有这些页面，需要花费大量时间，即使我在多台机器上分发脚本也是如此。
我现在不使用mapreduce，我的问题是：mapreduce在我的情况下有用吗(我学到了一点，我的理解是，如果我想在一些文件中做一些计算，比如wordcount示例，我真的需要它

hadoop hbase mapreduce python hadoop-streaming

来源：https://stackoverflow.com/questions/24909583/is-mapreduce-usefull-for-processing-big-files-crawling-a-lot-of-pages-for-data