我知道它在内部使用mapreduce从hadoop获取输入,但是谁能用更多的细节来解释呢?谢谢。
cqoc49vn1#
新的hadoop rdd提供了使用新的MapReduceAPI(org.apache.hadoop.mapreduce)读取hadoop中存储的数据(例如,hdfs中的文件、hbase或s3中的源)的核心功能。它还提供了各种其他方法来找出有关分区、inputsplits等的配置细节。您可以访问文档以获取更详细的概述https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/rdd/newhadooprdd.html希望这能解决你的疑问
3z6pesqy2#
你的想法是对的。 HadoopRDD rdd提供读取hadoop中存储的数据的核心功能(例如,hdfs中的文件、*hbase中的源代码或s3)。它使用 HadoopPartition . 当计算hadooprdd时,您可以看到日志 Input split: 例子: INFO HadoopRDD: Input split: file:/Users/jacek/dev/oss/spark/README.md:0+1784 在分区执行时设置属性:此任务尝试的任务id mapred.tip.id 任务尝试的idmapred.task.id mapred.task.is.map true mapred.task.partition 拆分id mapred.job.id 这个 HadoopRDD 什么都做不了 checkpoint() 打电话。您可以在hadooprdd.scala中看到comment部分,每个属性都有很好的解释性。
HadoopRDD
HadoopPartition
Input split:
INFO HadoopRDD: Input split: file:/Users/jacek/dev/oss/spark/README.md:0+1784
mapred.tip.id
mapred.task.is.map
mapred.task.partition
mapred.job.id
checkpoint()
2条答案
按热度按时间cqoc49vn1#
新的hadoop rdd提供了使用新的MapReduceAPI(org.apache.hadoop.mapreduce)读取hadoop中存储的数据(例如,hdfs中的文件、hbase或s3中的源)的核心功能。
它还提供了各种其他方法来找出有关分区、inputsplits等的配置细节。
您可以访问文档以获取更详细的概述https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/rdd/newhadooprdd.html
希望这能解决你的疑问
3z6pesqy2#
你的想法是对的。
HadoopRDD
rdd提供读取hadoop中存储的数据的核心功能(例如,hdfs中的文件、*hbase中的源代码或s3)。它使用HadoopPartition
. 当计算hadooprdd时,您可以看到日志Input split:
例子:INFO HadoopRDD: Input split: file:/Users/jacek/dev/oss/spark/README.md:0+1784
在分区执行时设置属性:此任务尝试的任务id
mapred.tip.id
任务尝试的idmapred.task.id
mapred.task.is.map
truemapred.task.partition
拆分idmapred.job.id
这个HadoopRDD
什么都做不了checkpoint()
打电话。您可以在hadooprdd.scala中看到comment部分,每个属性都有很好的解释性。