从databricks笔记本从azure data lake storage gen1获取嵌套文件夹的大小

jpfvwuh4  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(522)

我想从databricks笔记本中获取文件夹大小的详细信息。
我们可以通过putty运行hadoop fs-lh{root folder path}来实现同样的功能。此命令将返回根文件夹中所有文件夹的可读大小。pfb样品:

我试着在笔记本上运行类似的hadoop命令,如下所示,但hadoop没有安装在驱动程序节点中,我相信:

当我尝试ls{root folder path}时。我得到的文件夹大小为0。这是因为dbutils只为文件提供大小值。文件夹硬编码为0.pfb示例:

请告诉我获取细节的最佳方法。

7uhlpewt

7uhlpewt1#

在azuredatabricks中,这是预期的行为。
对于文件,它显示实际的文件大小。
对于目录,它显示大小=0
对于损坏的文件,显示大小=0

您可以使用azure databricks cli获取更多详细信息:

下面的文章“用pyspark计算azuredatalake中文件夹的总存储大小”解释了如何递归地将adls gen1中的存储大小和文件和文件夹数计算到databricks中。

相关问题