使用sparkcontext.wholetextfiles读取文件非常慢

xvw2m8pv  于 2021-07-13  发布在  Java
关注(0)|答案(0)|浏览(137)

我正试图从lichess数据库读取pgn文件:https://database.lichess.org/. 2013-01文件为16.1mb,读取时间约为8秒。2014-07是176mb,16分钟后仍未完成。这是令人担忧的,因为我真的需要使用最新的文件,这是27.3gb为我的最终输出。

def parse_game_file(game_file):
    from pyspark.sql import functions as F

    load_start = perf_counter()
    basefile = spark.sparkContext.wholeTextFiles(game_file, 10).toDF()
    load_stop = perf_counter()
    print("Time to load file:", round(load_stop - load_start,2))

df = parse_game_file('lichess_db_standard_rated_2014-07.pgn')

它挂在绳子上 basefile = spark.sparkContext.wholeTextFiles(game_file, 10).toDF() 我在google colab上运行这个,并且确实可以访问google云平台,我认为这会更快,但是我很惊讶google colab不能处理一个只有176mb的文件。
谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题