我想从databricks笔记本中获取文件夹大小的详细信息。
我们可以通过putty运行hadoop fs-lh{root folder path}来实现同样的功能。此命令将返回根文件夹中所有文件夹的可读大小。pfb样品:
我试着在笔记本上运行类似的hadoop命令,如下所示,但hadoop没有安装在驱动程序节点中,我相信:
当我尝试ls{root folder path}时。我得到的文件夹大小为0。这是因为dbutils只为文件提供大小值。文件夹硬编码为0.pfb示例:
请告诉我获取细节的最佳方法。
1条答案
按热度按时间7uhlpewt1#
在azuredatabricks中,这是预期的行为。
对于文件,它显示实际的文件大小。
对于目录,它显示大小=0
对于损坏的文件,显示大小=0
您可以使用azure databricks cli获取更多详细信息:
下面的文章“用pyspark计算azuredatalake中文件夹的总存储大小”解释了如何递归地将adls gen1中的存储大小和文件和文件夹数计算到databricks中。