我有一个pyspark dataframe,其中包含属于某些事务(项目名称、类别、价格等)的项目数据,我想创建一个新列,该列将收集所有这些属性并将它们放入python sdk类中,该类稍后将用于上载。我认为这需要输出用户定义类型(udt)的用户定义函数。基本上我要做的就是把这个df:
item_name | item_upc | item_price
---------------------------------
'A' |1 |34
并将其转化为:
item_name | item_upc | item_price| sdk_object
----------------------------------------------
'A' |1 |34 | SDKObject(item_name='A', item_upc = 1, item_price = 34)
我想知道:
这可能吗?
如果是,如何生成udt?你有什么我可以效仿的例子吗?
暂无答案!
目前还没有任何答案,快来回答吧!