pyspark写入文件后缺少字节

qxsslcnc 于 2022-12-19 发布在 Apache

关注(0)|答案(1)|浏览(202)

我正在尝试使用pyspark加载一个文本文件，对它进行排序，然后将排序后的数据写入另一个文本文件。
我有一个简单的脚本，可以正确地读入数据，按键排序，然后将其写入输出文件。

#!/usr/bin/python3
import sys
from pyspark.sql import SparkSession

if len(sys.argv) != 5:
    print("Usage: ./sorter.py -i [input filename] -o [output filename]")
    sys.exit(1)

input_filename = sys.argv[2]

output_filename = sys.argv[4]

spark = SparkSession.builder \
                    .master("local[*]") \
                    .appName("sorter") \
                    .getOrCreate()

input_rdd = spark.sparkContext.textFile(input_filename)

print("# partitions: {}".format(input_rdd.getNumPartitions()))

sorted_list = input_rdd.map(lambda x: (x[:10], x[:])) \
                        .sortByKey() \
                        .collect()

with open(output_filename, "w") as ofile:
    for line in sorted_list:
        ofile.write(line[1] + '\n')

输出文件看起来排序正确。但是，输入是使用gensort生成的，输出是使用valsort验证的，并且当运行./valsort output_file时，我的计算机输出

sump pump fatal error: pfunc_get_rec: partial record of 90 bytes found at end of input

我手动创建了一个正确的输出文件，当我将其与pysark生成的输出文件进行比较时，它发现与vimdiff没有差异，当我运行diff并输出时，它认为文件完全不同

output/spark_output.txt output/correct_output.txt differ: byte 99, line 1

当我对它们运行cmp时

apache-spark

来源：https://stackoverflow.com/questions/74779397/bytes-missing-after-pyspark-writes-to-file

1条答案

按热度按时间

rfbsl7qr1#

Gensort在每行末尾附加一个回车符（也称为\r和^M），但在读入输入文件时不知何故没有捕获这些回车符。使用以下代码可以解决问题：

ofile.write(line[1] + '\r\n')

赞(0）回复(0）举报 2022-12-19

我来回答

pyspark写入文件后缺少字节

1条答案

相关问题

热门标签

最新问答