我在评估flink处理数据的批处理。举个简单的例子,假设我有2000个点,我想使用scipy提供的功能通过fir滤波器。scipy过滤器是一个简单的函数,它接受一组系数和要过滤的数据并返回数据。有没有可能在flink中创建一个转换来处理这个问题?看起来flink变换是逐点应用的,但我可能遗漏了一些东西。
lymgl2op1#
这当然是可能的。flink已经有了一个pythonapi(beta版),您可能想使用它。关于你的第二个问题:flink可以一点一点地应用一个函数,也可以做其他事情。这取决于你定义的是什么样的函数。例如, filter , project , map , flatMap 应用于每个记录; max , min , reduce 等应用于一组记录(这些组通过 groupBy ). 还可以使用 join , cross ,或 cogroup . 请查看文档中可用转换的列表:https://ci.apache.org/projects/flink/flink-docs-release-1.0/apis/batch/dataset_transformations.html
filter
project
map
flatMap
max
min
reduce
groupBy
join
cross
cogroup
1条答案
按热度按时间lymgl2op1#
这当然是可能的。flink已经有了一个pythonapi(beta版),您可能想使用它。
关于你的第二个问题:flink可以一点一点地应用一个函数,也可以做其他事情。这取决于你定义的是什么样的函数。例如,
filter
,project
,map
,flatMap
应用于每个记录;max
,min
,reduce
等应用于一组记录(这些组通过groupBy
). 还可以使用join
,cross
,或cogroup
. 请查看文档中可用转换的列表:https://ci.apache.org/projects/flink/flink-docs-release-1.0/apis/batch/dataset_transformations.html