在PySpark中使用函数

qyzbxkaa  于 2022-11-25  发布在  Apache
关注(0)|答案(1)|浏览(165)

我在一个rdd上应用了一个函数,其中rdd的每个元素都有两个列表。

def update(x,y)
  return x[0]-y[0]

上面的代码给出了一个应用了上面公式的rdd。但我真正想做的是:

def update(x,y):
  alist.append(x[0])

如果将此函数应用于rdd的每个元素,

rdd.map(lambda x: update(x[0],x[1]))

它不更新列表。我该怎么做呢?我想基于应用于每个元素的逻辑来更新列表。
我试图写一个代码,只保留最小的数字在内存中。

q3qa4bjr

q3qa4bjr1#

def update(x,y):
    alist = alist.append(x[0])
    return alist

相关问题