数据块中带有rsd参数的approx_count_distinct pyspark聚集函数

yfwxisqw 于 2022-11-25 发布在 Apache

关注(0)|答案(1)|浏览(102)

在数据块中，当我用'rsd'参数运行approx_count_distinct函数时，它返回错误消息。它没有这个参数也能工作。

数据集

+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|James        |Sales     |3000  |
|Michael      |Sales     |4600  |
|Robert       |Sales     |4100  |
|Maria        |Finance   |3000  |
|James        |Sales     |3000  |
|Scott        |Finance   |3300  |
|Jen          |Finance   |3900  |
|Jeff         |Marketing |3000  |
|Kumar        |Marketing |2000  |
|Saif         |Sales     |4100  |
+-------------+----------+------+

代码

from pyspark.sql.functions import approx_count_distinct 
df.agg(approx_count_distinct(col("salary"))).alias("salaryDistinct")

错误消息

py4j.Py4JException: Method approx_count_distinct([class org.apache.spark.sql.Column, class java.lang.Integer]) does not exist

apache-spark

来源：https://stackoverflow.com/questions/74516368/approx-count-distinct-pyspark-agg-function-with-rsd-argument-in-databricks

1条答案

按热度按时间

zujrkrfu1#

我复制了上面的内容，得到了同样的错误。

当我们将rsd值指定为整数时，会发生上述错误。根据pyspark.sql.functions.approx_count_distinct（），rsd值应为float。

给定浮点数时的期望结果。

赞(0）回复(0）举报 2022-11-25

我来回答

数据块中带有rsd参数的approx_count_distinct pyspark聚集函数

1条答案

相关问题

热门标签

最新问答