python—对前两个字符为大写的列值进行筛选

ljsrvy3e 于 2021-05-22 发布在 Spark

关注(0)|答案(1)|浏览(432)

我正在尝试使用pyspark筛选一个表，其中一列的所有值的前两个字符都以两个大写字母开头，例如“utrecht”、“new york”等
这是我尝试过的，但完全失败了：

df_filtered=df.filter(F.col("column_name").isUpper())

我也试过：

df_filtered=df.filter(str.isupper,"affiliation_city")

导致以下错误：
filter（）接受2个位置参数，但给出了3个
我是pyspark的新手，所以任何建议都将不胜感激。
提前谢谢！

python apache-spark pyspark filtering uppercase

来源：https://stackoverflow.com/questions/64367695/filter-on-column-values-of-which-first-two-characters-are-uppercase

1条答案

按热度按时间

fumotvh31#

您可以使用下面的substr函数和upper函数来查看substr是否为upper
你带着前两个字母 substr 如果此子字符串 upper(F.col("test").substr(1, 2)) 并将其过滤为

df.filter(
   F.col("test").substr(1, 2) == F.upper(F.col("test").substr(1, 2))
).show()

如果您想要更大的灵活性（但这不是最好的方法），可以使用python isupper（）函数创建一个返回true/false的自定义项

from pyspark.sql.functions import udf
from pyspark.sql.types import BooleanType

upp  = udf(lambda x: x[0:2].isupper() if x!= None else False,BooleanType())

df.filter(upp('affiliation_city')).show()

赞(0）回复(0）举报 2021-05-23

我来回答

python—对前两个字符为大写的列值进行筛选

1条答案

相关问题

热门标签

最新问答