我正在尝试从databricks笔记本连接到hdfs位置以获取文件详细信息。
下面是我试图获得的代码
%fs ls dbfs:/mnt/<mount>/dev/data/audit/
我得到了大小为0的结果。并且只审核文件夹的详细信息,不审核其任何子文件夹。
审核文件夹还有5个子文件夹,其中包含文件。我想得到每个子文件夹中的文件数和这5个子文件夹的总大小。
我在scala中尝试了下面的dbutils,但它没有任何函数来获取文件数或文件大小。
有没有办法从databricks笔记本中获得hdfs中文件夹和子文件夹的大小?
有没有办法从databricks笔记本中获取hdfs中文件夹和子文件夹中的文件数?
1条答案
按热度按时间xu3bshqb1#
世界上没有简单的方法
dbutils
返回目录的大小或目录中的文件数。但是,可以递归地迭代目录进行计算。1递归计算的文件数:
2文件夹的总大小
我希望这有帮助