spark的api newhadooprdd到底做了什么?

yhuiod9q  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(404)

我知道它在内部使用mapreduce从hadoop获取输入,但是谁能用更多的细节来解释呢?谢谢。

cqoc49vn

cqoc49vn1#

新的hadoop rdd提供了使用新的MapReduceAPI(org.apache.hadoop.mapreduce)读取hadoop中存储的数据(例如,hdfs中的文件、hbase或s3中的源)的核心功能。
它还提供了各种其他方法来找出有关分区、inputsplits等的配置细节。
您可以访问文档以获取更详细的概述https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/rdd/newhadooprdd.html
希望这能解决你的疑问

3z6pesqy

3z6pesqy2#

你的想法是对的。 HadoopRDD rdd提供读取hadoop中存储的数据的核心功能(例如,hdfs中的文件、*hbase中的源代码或s3)。它使用 HadoopPartition . 当计算hadooprdd时,您可以看到日志 Input split: 例子: INFO HadoopRDD: Input split: file:/Users/jacek/dev/oss/spark/README.md:0+1784 在分区执行时设置属性:
此任务尝试的任务id mapred.tip.id 任务尝试的id
mapred.task.id mapred.task.is.map true mapred.task.partition 拆分id mapred.job.id 这个 HadoopRDD 什么都做不了 checkpoint() 打电话。
您可以在hadooprdd.scala中看到comment部分,每个属性都有很好的解释性。

相关问题