我有两个两个Azure容器src
和dst
。src
包含图像文件,它安装在/dbfs/mnt/
内的数据结构上。我有一个单独的框架,其中我们有src
和dst
路径Map。
我尝试做的是使用spark将数据从挂载的src
容器复制到dest
容器。我可以很容易地从src读取数据,因为它是挂载的,但是如何使用纯spark方式复制数据。我知道我可以使用dbutils
dbutils.fs.cp(src_path, dest_path)
字符串
但是我不确定它有多快。而且我们不能在spark函数中使用dbutils工具。
我已经为服务主体配置了所有需要的访问权限。
1条答案
按热度按时间cxfofazt1#
为了读取图像(或blob),对于此用例,您可以探索以下方法:
第一个月
1.使用pyspark在嵌入式框架中读取数据二进制内容(docs)
1.编写一个UDF或Pandas UDF,应用于每个行的框架(基本上是一个I/O函数
lambda x:process_image(x)
)CASE 2: You just need to move files from one container to another
个1.编写一个UDF/ Pandas UDF函数,使用Azure存储客户端库来操作存储帐户中的文件。