在pyspark中定义udf的返回类型

3htmauhk  于 2022-11-28  发布在  Spark
关注(0)|答案(1)|浏览(181)

我正在创建一个基于以下函数的UDF:

def return_output(column):
    return {'features':{'site':'a.com', 'test':column, 'test_vocab':['a','b','c']}

但我不确定如何定义返回类型
列的一个示例是{"句子":[0,1,2],"另一个":[0,1,2 ]}
因此最终输出如下所示:

{'features':{'home_page':'a.com', 'test':{"sentence":[0,1,2],"another_one":[0,1,2]}
, 'test_vocab':['a','b','c']}

我应该如何定义这个输出的返回类型?

swvgeqrz

swvgeqrz1#

这看起来非常像 JSON,所以正确的类型应该是StructType-您可以在这里阅读更多信息-https://spark.apache.org/docs/3.1.3/api/python/reference/api/pyspark.sql.types.StructType.html#structtype

相关问题