ApacheFlink数据集api:如何将flink数据集与其自身合并到一个新的数据集?

mjqavswn  于 2021-06-25  发布在  Flink
关注(0)|答案(1)|浏览(478)

我有一个字符串类型的一维数据集:

DataSet<String> x = //['dog','cat','sheep']

我想将所有字符串与这个数据集中的其他字符串进行比较,以分析不同的字符串相似性算法。因此,我需要一个具有以下结构的结果数据集:

DataSet<Tuple2<String,String>> y = //[{'dog','cat'},{'dog','sheep'},{'cat','sheep'}]

在此数据集上,可以应用flatmap函数(或类似函数)来比较字符串。
我的问题是我不知道我必须使用哪种转换。也许转变不是处理这个问题的正确方法。
在纯java中,我简单地使用了如下两个循环:

for(int i = 0; i < x.length() ; i++){
    for(int j = i+1 ; i< x.length(); j++){
        //do something with x[i] and x[j]
    }
}
mwkjh3gx

mwkjh3gx1#

x、 十字形应该可以。这将执行默认交叉。

相关问题