我正在尝试使用pyspark在规模上运行sciket学习模型的“预测”方法。该模型在复杂的目录结构中提供了支持特征工程和实用方法。python脚本从其相对路径加载序列化模型。
我已经创建了一个包含所有这些代码和序列化模型的zip文件,并通过sparkcontext中的addpyfiles方法传递它。
问题是,当支持python的代码试图从通过os.path.abspath方法转换为绝对路径的相对路径加载模型时,序列化文件位于zip文件中。因此,序列化模型的加载失败。
我曾尝试解压该文件并将其添加到udf中worker节点上的python路径中,但由于找不到模块,因此无法工作。有没有其他方法可以更改工作节点上的python路径以指向新解压的目录?
暂无答案!
目前还没有任何答案,快来回答吧!