spark的api newhadooprdd到底做了什么？

yhuiod9q 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(404)

我知道它在内部使用mapreduce从hadoop获取输入，但是谁能用更多的细节来解释呢？谢谢。

hadoop mapreduce apache-spark

来源：https://stackoverflow.com/questions/41688650/what-does-sparks-api-newhadooprdd-really-do

2条答案

按热度按时间

cqoc49vn1#

新的hadoop rdd提供了使用新的MapReduceAPI（org.apache.hadoop.mapreduce）读取hadoop中存储的数据（例如，hdfs中的文件、hbase或s3中的源）的核心功能。
它还提供了各种其他方法来找出有关分区、inputsplits等的配置细节。
您可以访问文档以获取更详细的概述https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/rdd/newhadooprdd.html
希望这能解决你的疑问

赞(0）回复(0）举报 2021-05-30

3z6pesqy2#

你的想法是对的。 HadoopRDD rdd提供读取hadoop中存储的数据的核心功能（例如，hdfs中的文件、*hbase中的源代码或s3）。它使用 HadoopPartition . 当计算hadooprdd时，您可以看到日志 Input split: 例子： INFO HadoopRDD: Input split: file:/Users/jacek/dev/oss/spark/README.md:0+1784 在分区执行时设置属性：
此任务尝试的任务id mapred.tip.id 任务尝试的id
mapred.task.id mapred.task.is.map true mapred.task.partition 拆分id mapred.job.id 这个 HadoopRDD 什么都做不了 checkpoint() 打电话。
您可以在hadooprdd.scala中看到comment部分，每个属性都有很好的解释性。

赞(0）回复(0）举报 2021-05-29

我来回答

spark的api newhadooprdd到底做了什么？

2条答案

相关问题

热门标签

最新问答