在Apache Spark上,我有一个pandas_udf函数,它应该返回一个pd。系列如何将其存档?
我试探着:
@pandas_udf(ArrayType(LongType()), PandasUDFType.SCALAR_ITER) # Only works with spark 3.0
def udf(iterator):
...
return pd.Series([1,2,3,4,5])
字符串
这给出了例外:
pyarrow.lib.ArrowNotImplementedError: NumPyConverter doesn't implement <list<item: int64>> conversion.
型
2条答案
按热度按时间ws51t4hk1#
如果你想实现这样的目标:
字符串
那么下面就可以了。
的数据
sgtfey8w2#
这是我这边的一个错误。来自pandas udf的模式类型