我是python和spark的初学者。在创建 DataFrame
从 CSV
文件,我想知道如何修剪列。我试过:
df = df.withColumn("Product", df.Product.strip())
``` `df` 是我的Dataframe, `Product` 是我表中的一列
但我总是看到错误: `Column object is not callable` 你有什么建议吗?
我是python和spark的初学者。在创建 DataFrame
从 CSV
文件,我想知道如何修剪列。我试过:
df = df.withColumn("Product", df.Product.strip())
``` `df` 是我的Dataframe, `Product` 是我表中的一列
但我总是看到错误: `Column object is not callable` 你有什么建议吗?
5条答案
按热度按时间q35jwt9p1#
ogsagwnx2#
从1.5版开始,spark sql提供了两个特定的函数来修剪空白,
ltrim
以及rtrim
(在数据框文档中搜索“trim”);你需要导入pyspark.sql.functions
第一。举个例子:l0oc07j23#
pyspark版本的strip函数称为trim。trim将“为指定的字符串列从两端修剪空格”。确保先导入函数,然后将要修剪的列放入函数中。
以下应起作用:
luaexgnf4#
我是这样对待自由民主党的:
输出如下所示:
xeufq47z5#
如果需要对Dataframe中的所有列执行此操作。