我在一个项目上工作,必须跟踪文件转换的沿袭。假设一个名为sometextfile.txt的文件在多个配置单元操作下运行,并在最后阶段根据需要生成一些出色的结果。
case:1 file 就像(如果我在文件上应用配置单元操作)
文件-->fileafteraction1-->fileafteraction2-->finalresultantfile
在本例中,我使用的是hivehook,它存储与应用于file.com的中间进程相关的数据,比如在一个文本文件中,并且从该文本文件沿袭引擎代码读取并生成最终文件的沿袭。
现在,由于技术堆栈中涉及到spark,客户端也可以在文件上应用spark操作。
case:2 same 事情发生在文件,但现在它的Spark行动。
问题-是否有任何方法可以获取文件在转换开始和结束之间发生了什么的中间信息。
到目前为止,我从web上得到的是spark转换vomits中间图,但在我的例子中,客户端将应用spark操作而不是spark转换。如果你有足够的带宽,那就来吧。
2条答案
按热度按时间bqujaahr1#
样条线可以为你追踪血统。
92dk7w1h2#
https://issues.apache.org/jira/browse/spark-18127
此功能将在spark 2.2中实现