如何在PySpark Dataframe 中访问某个列的某个索引处的值,例如,我想访问名为“Category”的列的索引5处的值,如何在PySpark语法中做到这一点?
zsbz8rwp1#
像这样的事
value = df.where(df.index == 5).select('Category').collect()[0]['Category'] #assuming 'index' is index column
yvgpqqbh2#
来自@mayank的答案是好的,如果索引列不存在,只需继续。csv文件中的数据将其保存为demo_date.csv:
job number,from_date,to_date 1,01-10-2010,31-12-9999 2,02-10-2010,31-12-9999 3,03-10-2010,31-12-9999
验证码:
from pyspark.sql import SparkSession from pyspark.sql.functions import col,lit spark = SparkSession.builder.appName('Basics').getOrCreate() df = spark.read.csv('demo_date.csv', header=True) #df.show() val = df.where(col('job number') == lit(2)).select('job number').collect()[0]['job number'] print(val)
楼上为我工作。
2条答案
按热度按时间zsbz8rwp1#
像这样的事
yvgpqqbh2#
来自@mayank的答案是好的,如果索引列不存在,只需继续。
csv文件中的数据将其保存为demo_date.csv:
验证码:
楼上为我工作。