解决“Kryo序列化失败：缓冲区溢出”Spark异常

cfh9epnr 于 2023-02-24 发布在 Apache

关注(0)|答案(4)|浏览(399)

我正在尝试运行Spark（Java）代码并收到错误

org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: 27".

其他帖子建议将缓冲区设置为最大值。当我尝试将最大缓冲区值设置为512MB时，我得到了错误

java.lang.ClassNotFoundException: org.apache.spark.serializer.KryoSerializer.buffer.max', '512'

我怎样才能解决这个问题？

apache-spark

来源：https://stackoverflow.com/questions/37709770/resolving-kryo-serialization-failed-buffer-overflow-spark-exception

4条答案

按热度按时间

iq0todco1#

属性名称正确，spark.kryoserializer.buffer.max，值应包括单位，因此在您的情况下为512m。
此外，根据您设置配置的位置，您可能必须写入--conf spark.kryoserializer.buffer.max=512m，例如，使用spark-submit或在Oozie工作流操作的<spark-opts>...</spark-opts>内。

赞(0）回复(0）举报 2023-02-24

kmbjn2e32#

请尝试使用“spark.kryoserializer.buffer.max.mb“、“512“，而不是**spark.kryoserializer.buffer.max"、“512MB**”

赞(0）回复(0）举报 2023-02-24

nimxete23#

你可以在创建spark会话时在spark配置中设置为

SparkSession.builder
.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
.config("spark.kryoserializer.buffer.max", "512m")

也可以将spark提交命令作为

spark-submit \
--verbose \
--name "JOB_NAME" \
--master MASTER_IP \
--conf "spark.kryoserializer.buffer.max=512m" \
main.py

赞(0）回复(0）举报 2023-02-24

ttcibm8c4#

这是一个老问题，但第一次击中当我谷歌，所以回答这里帮助他人。
对于Spark 3.2（在Azure Synapse环境中，但不确定这是否重要），我尝试了所有这些组合，但唯一能将大Spark DataFrame转换为Pandas（）的组合是spark.kryoserializer.buffer.max=512。数字后面没有字母，结尾没有“.mb”。

赞(0）回复(0）举报 2023-02-24

我来回答

解决“Kryo序列化失败：缓冲区溢出”Spark异常

4条答案

相关问题

热门标签

最新问答