我有一个sparksql函数,它在hdfs目录中生成temp文件。我想在函数运行时打印所有目录和文件。
下面是函数:
spark.sql(s"INSERT INTO ${table} VALUES ....")
当函数/查询运行时,我想查看在hdfs目录下生成的文件。因为这些文件是临时的,所以我想在查询运行时多次列出目录。
FileSystem.get( sc.hadoopConfiguration ).listStatus( new Path("hdfs:///mypath")).foreach( x => println(x.getPath ))
我是scala编程新手,实在找不到并行运行的方法。
1条答案
按热度按时间jk9hmnmh1#
当然。你可以把它包起来
spark.sql(query)
在一个scala.concurrent.Future[Unit]
.然后,当它执行时,您可以看到它创建的文件。
请记住,您每次都会查看整个文件列表。