对蔚蓝数据湖挂载路径进行Spark读写的单元测试

mbzjlibv 于 2022-10-07 发布在 Spark

关注(0)|答案(1)|浏览(110)

我对单元测试非常陌生，我需要为Spark读写函数编写一个单元测试。

我有一个函数，例如：

def read_file(path, format, logger):
   df = spark.read.load(path, format = format)
   etc.....
   return df

现在我需要为这个函数编写单元测试/模拟ADLS位置。

我已经检查了下面的链接，它使用补丁来模拟blobServiceClient，但我不确定这对我是否有用，因为它使用的是Python的打开函数。

甚至有可能嘲笑ADLS吗？如果可能，如何嘲笑？

有没有人能帮我一下。任何帮助都将不胜感激。

1条答案

确保HDFS在本地可用。如果您在Windows上运行测试，请确保阅读此自述文件https://github.com/steveloughran/winutils

该回购引用了更新版本的另一个回购。这两个GitHub贡献者是Hadoop团队的一部分，这些是我在本地环境中使用的二进制文件。

完成此设置后，您可以传递本地路径。它们可以是本地Linux或Windows路径。