如何通过Databricks将大型文件从一个目录复制到另一个目录，而Data Lake中的时间更短？

Question

我正在尝试将20GB文件从一个文件夹复制到Azure Data Lake中的另一个文件夹，并希望通过Data Bricks实现它。我已经尝试了下面的代码，但它花了一个多小时。谁能建议我如何用不到20分钟的时间实现这一目标？

import shutil, os
shutil.copytree("/dbfs/mnt/storage1/ABC/", "/dbfs/mnt/storage1/copied/")

Answer 1

尝试使用azure.datalake.store库，更多详细信息：https://github.com/Azure/azure-data-lake-store-python

这应该可以防止数据库下载并重新上传文件。

Answer 2

最好的选择是使用dbutils.fs。

这会为你做到：

 dbutils.fs.cp ("/mnt/storage1/ABC/", "/mnt/storage1/copied/", recurse=True)