我正在尝试将20GB文件从一个文件夹复制到Azure Data Lake中的另一个文件夹,并希望通过Data Bricks实现它。我已经尝试了下面的代码,但它花了一个多小时。谁能建议我如何用不到20分钟的时间实现这一目标?
import shutil, os
shutil.copytree("/dbfs/mnt/storage1/ABC/", "/dbfs/mnt/storage1/copied/")
尝试使用azure.datalake.store库,更多详细信息:https://github.com/Azure/azure-data-lake-store-python
这应该可以防止数据库下载并重新上传文件。
最好的选择是使用dbutils.fs。
这会为你做到:
dbutils.fs.cp ("/mnt/storage1/ABC/", "/mnt/storage1/copied/", recurse=True)