如何在spark.net中实现分布式组合(n选择k)?

dojqjjoe  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(442)

我有一个项目,我有一个大的c(100,20)的组合与小工作正在为每个组合集数。
我使用spark.net和visual studio作为我的技术(请参阅下面的设置):https://docs.microsoft.com/en-us/dotnet/spark/tutorials/get-started
net有一个带有sql类型命令的Dataframe。我假设我需要执行一个sql类型的命令来创建n choose k组合,并使用一个用户定义的worker函数来处理这些组合。
问题是,将spark.net与Dataframe一起使用时,代码看起来是什么样的?如果Dataframe不支持n choose k选项,是否有其他选项来保持组合的生成分布?

ws51t4hk

ws51t4hk1#

我的基本问题在spark dotnet github区域得到了回答
https://github.com/dotnet/spark/issues/627
通过在两个Dataframe上使用交叉连接,我能够创建组合。这可能不是最好的办法,也许其他人会提出更好的解决办法。
对于n,选择k,这将是使用n集的k个交叉连接。

相关问题