spark中的血统是什么？

nfg76nw0 于 2021-05-29 发布在 Hadoop

关注(0)|答案(3)|浏览(546)

沿袭如何帮助重新计算数据？
例如，我让几个节点分别计算30分钟的数据。如果一个在15分钟后失败，我们是否可以再次使用lineage重新计算在15分钟内处理的数据，而不需要再次给出15分钟？

hadoop apache-spark data-lineage

来源：https://stackoverflow.com/questions/45751113/what-is-lineage-in-spark

3条答案

按热度按时间

ttp71kqs1#

在spark中，沿袭图是现有rdd和新rdd之间的依赖关系图。这意味着rdd之间的所有依赖关系都将记录在一个图中，而不是原始数据。
来源：什么是谱系图

赞(0）回复(0）举报 2021-05-29

yrefmtwq2#

调用转换（Map或过滤器等）时，spark不会立即执行它，而是为每个转换创建一个沿袭。沿袭将跟踪所有转换必须应用于该rdd上的内容，包括从何处读取数据。
例如，考虑以下示例

val myRdd = sc.textFile("spam.txt")
val filteredRdd = myRdd.filter(line => line.contains("wonder"))
filteredRdd.count()

sc.textfile（）和myrdd.filter（）不会立即执行，只有在对rdd-here filtereddd.count（）调用操作时才会执行。
操作用于将结果保存到某个位置或显示它。还可以使用命令filtereddd.todebugstring（filtereddd是这里的rdd）打印rdd沿袭信息。此外，dag可视化以非常直观的方式显示完整的图形，如下所示：

赞(0）回复(0）举报 2021-05-29

j13ufse23#

所有关于血统的理解都在 RDD .
让我们回顾一下：
RDD是数据元素的不可变分布式集合，可以跨计算机集群存储在内存或磁盘中。数据在集群中的多台计算机之间进行分区，这些计算机可以与提供转换和操作的低级api并行操作。RDD是容错的，因为它们跟踪数据沿袭信息，以便在发生故障时自动重建丢失的数据
因此，主要有两件事需要了解：
血统是如何在RDD中传承下来的？
内部Spark是如何产生的？
不幸的是，这些主题在一个单一的答案中要讨论的时间相当长。我建议您花一些时间阅读它们以及下面这篇关于数据沿袭的文章。
现在回答你的问题和疑问：
如果执行器无法计算您的数据，15分钟后，它将返回到您的最后一个检查点，无论是来自源还是内存和/或磁盘中的缓存。
因此，这不会节省你刚才提到的15分钟！

赞(0）回复(0）举报 2021-05-29

我来回答

spark中的血统是什么？

3条答案

相关问题

热门标签

最新问答