我们如何利用mapreduce或spark解决二和算法作为大数据问题？

bihw5rsg 于 2021-07-15 发布在 Hadoop

关注(0)|答案(1)|浏览(420)

假设数字的列表/数组存在于一个非常庞大的数据文件中，我们需要找到与特定数字“k”匹配的一对和。我知道如何解决它通常使用数据结构，但我无法想到一种方法来解决它利用hadoopmr或Spark特别。
假设一个文件有1,2,3,6,7,7,8,9我的思考过程：-将数据考虑到一个Dataframe中，然后再向其中添加一个列来标识差异，即如果i<=k/2，则k-i else i。现在，我对上述数据的Dataframe如下所示：
号码号码21928377778899
一旦创建了df，我就计划根据数字2用key聚合数据。但我无法假设聚合逻辑。任何帮助都将不胜感激。

hadoop mapreduce pyspark

来源：https://stackoverflow.com/questions/65670954/how-can-we-solve-a-two-sum-algorithm-as-a-big-data-problem-leveraging-mapreduce

1条答案

按热度按时间

pgccezyw1#

假设您有一个名为 numbers.txt 如下所示：

你可以这样实现你的目标：

int desiredSum = 15;
SparkSession spark = SparkSession
        .builder()
        .appName("My App")
        .master("local[*]")
        .getOrCreate();
Dataset<Row> rdd = spark
        .read()
        .text("numbers")
        .withColumnRenamed("value", "number")
        .withColumn("number", col("number").cast(DataTypes.LongType));
rdd.createOrReplaceTempView("myTable");
spark.sql("select first.number, second.number as number_2 from myTable  first inner join myTable second on first.number + second.number =" + desiredSum + " where first.number <= second.number").show();

+------+--------+
|number|number_2|
+------+--------+
|     5|      10|
|     7|       8|
|     6|       9|
+------+--------+

或者，如果数据很小，您可以使用spark中的笛卡尔积实现您的目标，如下所示：

int desiredSum = 15;
SparkSession spark = SparkSession
        .builder()
        .appName("My App")
        .master("local[*]")
        .getOrCreate();
Dataset<Row> rdd = spark
        .read()
        .text("numbers.txt")
        .withColumnRenamed("value", "number")
        .withColumn("number", col("number").cast(DataTypes.LongType));
Dataset<Row> joinedRdd = rdd.crossJoin(rdd.withColumnRenamed("number", "number_2")).filter("number <= number_2");
UserDefinedFunction mode = udf((UDF2<Long, Long, Object>) Long::sum, DataTypes.LongType);
joinedRdd = joinedRdd.withColumn("sum", mode.apply(col("number"), col( "number_2"))).filter("sum = " + desiredSum);
joinedRdd.show();

结果如下：

+------+--------+---+
|number|number_2|sum|
+------+--------+---+
|     5|      10| 15|
|     7|       8| 15|
|     6|       9| 15|
+------+--------+---+

**take into account the Order of time and space complexity when you use Cross join**

赞(0）回复(0）举报 2021-07-15

我来回答

我们如何利用mapreduce或spark解决二和算法作为大数据问题？

1条答案

相关问题

热门标签

最新问答