如问题所示,我在一个列表中有一个s3路径列表
s3_paths = ["s3a://somebucket/1/file1.xml", "s3a://somebucket/3/file2.xml"]
我正在使用pyspark,想知道如何将所有这些xml文件加载到dataframe中?类似于下面的示例。
df = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(s3_paths)
我能够读取单个文件,但希望找到加载所有文件的最佳方法。
3条答案
按热度按时间nkoocmlb1#
您可以检查以下github repo。
https://github.com/databricks/spark-xml
fhity93d2#
@jxc在问题评论中的回答是最佳解决方案:
下面是一个使用玩具数据集的示例:
34gzjxbg3#
把清单打开