pyspark 列对象不可调用[重复]

0aydgbwb  于 12个月前  发布在  Spark
关注(0)|答案(1)|浏览(103)

此问题在此处已有答案

PySpark: TypeError: 'Column' object is not callable(2个答案)
contains pyspark SQL: TypeError: 'Column' object is not callable(1个答案)
'Column' object is not callable when showing a single spark column(2个答案)
4天前关闭.

plt.figure(figsize=(10, 6))
plt.scatter(df['age'],df['concrete_strength'])
plt.title('Scatter Plot of Age vs. Concrete Compressive Strength')
plt.xlabel('Age(days)')
plt.ylabel('Concrete Compressive Strength (MPa)')
plt.grid(True)
plt.show()

我得到了列对象的错误是不可调用的数据结构。我尝试索引和同样的事情来

6kkfgxo0

6kkfgxo01#

你不能直接在一个spark Column对象上使用Python函数,除非它打算在Column对象/表达式上操作。一个解决方案是udf(使用定义的函数):

@udf
def plot(df):
  plt.figure(figsize=(10, 6))
  plt.scatter(df['age'],df['concrete_strength'])
  plt.title('Scatter Plot of Age vs. Concrete Compressive Strength')
  plt.xlabel('Age(days)')
  plt.ylabel('Concrete Compressive Strength (MPa)')
  plt.grid(True)
  plt.show()

字符串

相关问题