Uber数据分析使用databricks pyspark抛出可疑错误

14ifxucb 于 2023-06-21 发布在 Spark

关注(0)|答案(1)|浏览(92)

Uber问题要求找到每个地下室有更多行程的日子。模式和2行数据如下图所示enter image description here
我在下面使用的代码，但无法执行最后一行“finaldf.show（）。这里是错误的屏幕截图。enter image description here
需要帮助吗

from pyspark.sql import SparkSession
from pyspark.sql.functions import expr, sum, rank
from pyspark.sql.window import Window

spark = SparkSession.builder \
    .appName("first") \
    .getOrCreate()

df1 = spark.read.format("csv") \
    .option("header", "true") \
    .load("dbfs:/FileStore/tables/uber.csv")

df2 = df1.withColumn("trips",col("trips").cast("integer"))

finaldf = df2.withColumn("Day", expr("DATE_FORMAT(TO_DATE(DATE,'MM/dd/yyyy'),'EEE')")) \
    .groupBy("dispatching_base_number", "Day") \
    .agg(sum("trips")).alias("Sum") \
    .withColumn("rnk", rank().over(Window.partitionBy("dispatching_base_number").orderBy("Sum"))) \
    .filter("rnk = 1") \
    .drop("rnk")

finaldf.show()

pyspark

来源：https://stackoverflow.com/questions/76467887/uber-data-analysis-using-databricks-pyspark-throwing-suspicious-error

1条答案

按热度按时间

68bkxrlz1#

即使我得到了同样的错误，当我运行你的代码。

这是因为你的date输入是1/1/2017，给出的表达式是MM/dd/yyyy。你需要这样给予M/d/yyyy
代码：

finaldf = data.withColumn("Day", expr("DATE_FORMAT(TO_DATE(DATE,'M/d/yyyy'),'EEE')")) \
.groupBy("dispatching_base_number", "Day") \
.agg(sum("trips").alias("Sum")) \
.withColumn("rnk", rank().over(Window.partitionBy("dispatching_base_number").orderBy("Sum"))) \
.filter("rnk =  1") \
.drop("rnk")

finaldf.show()

输出：

赞(0）回复(0）举报 2023-06-21

我来回答

Uber数据分析使用databricks pyspark抛出可疑错误

1条答案

相关问题

热门标签

最新问答