使用sparkcontext.wholetextfiles读取文件非常慢

xvw2m8pv 于 2021-07-13 发布在 Java

关注(0)|答案(0)|浏览(137)

我正试图从lichess数据库读取pgn文件：https://database.lichess.org/. 2013-01文件为16.1mb，读取时间约为8秒。2014-07是176mb，16分钟后仍未完成。这是令人担忧的，因为我真的需要使用最新的文件，这是27.3gb为我的最终输出。

def parse_game_file(game_file):
    from pyspark.sql import functions as F

    load_start = perf_counter()
    basefile = spark.sparkContext.wholeTextFiles(game_file, 10).toDF()
    load_stop = perf_counter()
    print("Time to load file:", round(load_stop - load_start,2))

df = parse_game_file('lichess_db_standard_rated_2014-07.pgn')

它挂在绳子上 basefile = spark.sparkContext.wholeTextFiles(game_file, 10).toDF() 我在google colab上运行这个，并且确实可以访问google云平台，我认为这会更快，但是我很惊讶google colab不能处理一个只有176mb的文件。
谢谢。

python apache-spark

来源：https://stackoverflow.com/questions/67288058/reading-files-with-sparkcontext-wholetextfiles-is-very-slow

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

使用sparkcontext.wholetextfiles读取文件非常慢

暂无答案！

相关问题

热门标签

最新问答