每一个我都很理解。但主要的区别是什么?两种方法是否都将数据保存在磁盘上?如果我将一个非分布式系统挂载到databricks dbfs呢?
bfnvny8b1#
我认为在hdfs中,数据被持久保存在本地服务器上,但是在dbfs中,它们使用s3作为存储,基本上从计算中取出存储。wasb(windowsazure存储blob)做同样的事情,并将存储带到blob。请看这个。这就是它所说的“databricks文件系统(dbfs)是安装在databricks集群上的分布式文件系统。dbfs中的文件将保留到s3,因此即使终止集群,也不会丢失数据。”
1条答案
按热度按时间bfnvny8b1#
我认为在hdfs中,数据被持久保存在本地服务器上,但是在dbfs中,它们使用s3作为存储,基本上从计算中取出存储。wasb(windowsazure存储blob)做同样的事情,并将存储带到blob。请看这个。
这就是它所说的“databricks文件系统(dbfs)是安装在databricks集群上的分布式文件系统。dbfs中的文件将保留到s3,因此即使终止集群,也不会丢失数据。”