访问PySpark Dataframe 中的特定项

ruyhziif  于 2023-04-11  发布在  Spark
关注(0)|答案(2)|浏览(85)

如何在PySpark Dataframe 中访问某个列的某个索引处的值,例如,我想访问名为“Category”的列的索引5处的值,如何在PySpark语法中做到这一点?

zsbz8rwp

zsbz8rwp1#

像这样的事

value = df.where(df.index == 5).select('Category').collect()[0]['Category']
                                         #assuming 'index' is index column
yvgpqqbh

yvgpqqbh2#

来自@mayank的答案是好的,如果索引列不存在,只需继续。
csv文件中的数据将其保存为demo_date.csv:

job number,from_date,to_date
1,01-10-2010,31-12-9999
2,02-10-2010,31-12-9999
3,03-10-2010,31-12-9999

验证码:

from pyspark.sql import SparkSession
from pyspark.sql.functions import col,lit

spark = SparkSession.builder.appName('Basics').getOrCreate()
df = spark.read.csv('demo_date.csv', header=True)
#df.show()

val = df.where(col('job number') == lit(2)).select('job number').collect()[0]['job number']

print(val)

楼上为我工作。

相关问题