是否可以在单个数据流源上并行执行一组不同的转换?
例如:我可能读取一个文件并得到一个数据流。是否可以执行1。还原键和其他操作2。减少键盘和窗口以及更多3。一些其他的聚合和更多
上述3组操作是独立的,必须与单个源分开执行。问题是,改组的效果如何?假设,所有3个步骤都不需要重新洗牌,它们是并行评估的,而不是其中一个步骤需要重新洗牌。这将导致两种不同的结果?
试着理解Spark工作的流程。是否可以并行运行多个需要重新洗牌的不同转换?在这种情况下,最好同时运行多个spark作业?
是否可以在单个数据流源上并行执行一组不同的转换?
例如:我可能读取一个文件并得到一个数据流。是否可以执行1。还原键和其他操作2。减少键盘和窗口以及更多3。一些其他的聚合和更多
上述3组操作是独立的,必须与单个源分开执行。问题是,改组的效果如何?假设,所有3个步骤都不需要重新洗牌,它们是并行评估的,而不是其中一个步骤需要重新洗牌。这将导致两种不同的结果?
试着理解Spark工作的流程。是否可以并行运行多个需要重新洗牌的不同转换?在这种情况下,最好同时运行多个spark作业?
暂无答案!
目前还没有任何答案,快来回答吧!