python pyspark -select中的if语句

u3r8eeie 于 2023-02-18 发布在 Python

关注(0)|答案(3)|浏览(166)

以下代码查找 Dataframe df中所有列的最大长度。

- 问题**：在下面的代码中，我们如何检查字符串列的最大长度？

from pyspark.sql.functions import col, length, max

df=df.select([max(length(col(name))) for name in df.schema.names])

python

来源：https://stackoverflow.com/questions/75487022/pyspark-if-statement-inside-select

3条答案

按热度按时间

t40tm48m1#

您可以添加一个测试df.schema的dataType的条件。例如：

from pyspark.sql.types import StringType

df = spark.createDataFrame(
    [
        (1, '2', '1'),
        (1, '4', '2'),
        (1, '2', '3'),
    ],
    ['col1','col2','col3']
)

df.select([
    max(length(col(schema.name))).alias(f'{schema.name}_max_length') 
    for schema in df.schema 
    if schema.dataType == StringType()
])
    
+---------------+---------------+
|col2_max_length|col3_max_length|
+---------------+---------------+
|              1|              1|
+---------------+---------------+

赞(0）回复(0）举报 2023-02-18

abithluo2#

除了使用schema.names，您还可以使用schema.fields返回StructField的列表，您可以迭代该列表并获取每个字段的名称和类型。

df.select([max(length(col(field.name))) for field in df.schema.fields if field.dataType.typeName == "string"])

赞(0）回复(0）举报 2023-02-18

2ul0zpep3#

df = df.select([max(length(col(name))) for (name, type) in df.dtypes if type == 'string'])

赞(0）回复(0）举报 2023-02-18

我来回答

python pyspark -select中的if语句

3条答案

相关问题

热门标签

最新问答