我正在创建一个基于以下函数的UDF:
def return_output(column):
return {'features':{'site':'a.com', 'test':column, 'test_vocab':['a','b','c']}
但我不确定如何定义返回类型
列的一个示例是{"句子":[0,1,2],"另一个":[0,1,2 ]}
因此最终输出如下所示:
{'features':{'home_page':'a.com', 'test':{"sentence":[0,1,2],"another_one":[0,1,2]}
, 'test_vocab':['a','b','c']}
我应该如何定义这个输出的返回类型?
1条答案
按热度按时间swvgeqrz1#
这看起来非常像 JSON,所以正确的类型应该是
StructType
-您可以在这里阅读更多信息-https://spark.apache.org/docs/3.1.3/api/python/reference/api/pyspark.sql.types.StructType.html#structtype