将Pyspark dataframe列值与另一列中的int中的limit值进行拆分

polhcujo 于 2023-06-21 发布在 Spark

关注(0)|答案(1)|浏览(125)

我有一个pyspark dataframe，它包含一列字符串值（任意长度和子目录数量的完整文件路径），第二列整数：

\[...., "c:\\somedir\\somedir2\\somefile.someext", 3, ...\]
\[...., "c:\\somedir\\somedir2\\\\somedir3\\someotherfile.someext", 2, ...\]
etc.  
etc.  
etc.

...with column labels \[..., "thepath", "the_int", ...\]

我正在尝试创建一个新列，它使用"the_int"列中的值作为pyspark.sql.functions.split中的"limit"参数，如下所示：

from pyspark.sql import functions as F

# other code here

df1 = df1.withColumn("the_new_column", F.split("the_path", r'\\', df1.the_int))

但是我得到了一个'TypeError：Column is not iterable 'exception，因为我将作为limit参数传递给F.split。
我对pyspark太陌生了，不知道为什么（我不完全理解这个异常，或者我在这里实际上在做什么）。但是，有没有一个快速的修复，我可以做的"df1.the_int"，让它像一个整数在那里？
如果我用一个整数值来替换"df. the_int"，代码就可以工作了......所以split命令语法是正确的，我认为我正确地使用了withColumn......但是以我的方式检索"the_int"行的值是个问题。

pyspark

来源：https://stackoverflow.com/questions/76503295/splitting-pyspark-dataframe-column-values-with-limit-value-from-int-in-another-c

1条答案

按热度按时间

5cnsuln71#

不能直接将列传递给split，因为limit会排除int值，但是您传递的是Column类型，因此您会看到异常。
要绕过这一点，您可以使用expr或getItem，这取决于您的用例和预期结果。

数据生成

s = StringIO("""
the_path|the_int
c:\\somedir\\somedir2\\somefile.someext|3
c:\\somedir\\somedir2\\somefile.someext|2
c:\\somedir\\somedir2\\somefile.someext|1
c:\\somedir\\somedir2\\somedir3\\somedir4\\somedir5\\somefile.someext|5
c:\\somedir\\somedir2\\somedir3\\somedir4\\somedir5\\somefile.someext|10
""")

df = pd.read_csv(s,delimiter='|')

sparkDF = sql.createDataFrame(df)

sparkDF.show(truncate=False)

+---------------------------------------------------------------+-------+
|the_path                                                       |the_int|
+---------------------------------------------------------------+-------+
|c:\somedir\somedir2\somefile.someext                           |3      |
|c:\somedir\somedir2\somefile.someext                           |2      |
|c:\somedir\somedir2\somefile.someext                           |1      |
|c:\somedir\somedir2\somedir3\somedir4\somedir5\somefile.someext|5      |
|c:\somedir\somedir2\somedir3\somedir4\somedir5\somefile.someext|10     |
+---------------------------------------------------------------+-------+

表达式

sparkDF.withColumn("the_new_column", F.expr("""SPLIT(the_path,'''\\\\\\\\''',the_int)""")).show()

+--------------------+-------+--------------------+
|            the_path|the_int|      the_new_column|
+--------------------+-------+--------------------+
|c:\somedir\somedi...|      3|[c:, somedir, som...|
|c:\somedir\somedi...|      2|[c:, somedir\some...|
|c:\somedir\somedi...|      1|[c:\somedir\somed...|
|c:\somedir\somedi...|      5|[c:, somedir, som...|
|c:\somedir\somedi...|     10|[c:, somedir, som...|
+--------------------+-------+--------------------+

GetItem

sparkDF.withColumn("the_new_column", F.split(F.col('the_path'),"\\\\").getItem(F.col('the_int'))).show(truncate=False)

+---------------------------------------------------------------+-------+----------------+
|the_path                                                       |the_int|the_new_column  |
+---------------------------------------------------------------+-------+----------------+
|c:\somedir\somedir2\somefile.someext                           |3      |somefile.someext|
|c:\somedir\somedir2\somefile.someext                           |2      |somedir2        |
|c:\somedir\somedir2\somefile.someext                           |1      |somedir         |
|c:\somedir\somedir2\somedir3\somedir4\somedir5\somefile.someext|5      |somedir5        |
|c:\somedir\somedir2\somedir3\somedir4\somedir5\somefile.someext|10     |null            |
+---------------------------------------------------------------+-------+----------------+

赞(0）回复(0）举报 2023-06-21

我来回答

将Pyspark dataframe列值与另一列中的int中的limit值进行拆分

1条答案

数据生成

表达式

GetItem

相关问题

热门标签

最新问答