aws glue job从打开特定文件的\u options()创建\u dynamic \u frame \u?

vecaoik1  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(398)

如果使用create\u dynamic\u frame\u from \u catalog(),则提供数据库名称和表名称,例如,从粘合爬虫创建的,它有效地命名特定的输入文件。我希望能够做同样的(命名一个特定的输入文件)没有爬虫和数据库。
我尝试使用create\u dynamic\u frame\u from\u options(),但是“path”连接选项显然不允许我命名文件。有什么办法吗?

vhipe2zx

vhipe2zx1#

iiuc,您想从一个特定的s3路径读取多个文件,并希望文件名在您的Dataframe中。您可以通过使用spark会话并将其读取为pysparkDataframe来实现这一点

from pyspark.sql.functions import input_file_name
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session

path = 's3://bucket/folder'
df = spark.read.csv(path)
df = df.withColumn('FileName', input_file_name())

相关问题