当人们通过dataframeapi加载数据时,我试图检查spark访问的字段和文件。具体来说,我可以记录如下内容:
"User A", "File1.csv", "cola, colb, colc"
"User A", "File2.csv", "cola, colb, colc"
我一直在尝试使用sparksessionextensions来实现这一点,但我一直在努力寻找有关如何实现这一点的文档和示例。有什么可以推荐的吗?
当人们通过dataframeapi加载数据时,我试图检查spark访问的字段和文件。具体来说,我可以记录如下内容:
"User A", "File1.csv", "cola, colb, colc"
"User A", "File2.csv", "cola, colb, colc"
我一直在尝试使用sparksessionextensions来实现这一点,但我一直在努力寻找有关如何实现这一点的文档和示例。有什么可以推荐的吗?
1条答案
按热度按时间34gzjxbg1#
好吧,最后解决了。需要注入一个自定义优化器规则,然后截获一个logicalrelationplan,这将提供模式信息。从那里我可以匹配“relation”属性并检查它是否是hadoopfsrelation类型,如果是,那么我可以提取根路径和输入文件(以及其他内容)。
现在我只需要解决如何重新编写查询