如何通过Databricks将大型文件从一个目录复制到另一个目录,而Data Lake中的时间更短?

问题描述 投票:1回答:2

我正在尝试将20GB文件从一个文件夹复制到Azure Data Lake中的另一个文件夹,并希望通过Data Bricks实现它。我已经尝试了下面的代码,但它花了一个多小时。谁能建议我如何用不到20分钟的时间实现这一目标?

import shutil, os
shutil.copytree("/dbfs/mnt/storage1/ABC/", "/dbfs/mnt/storage1/copied/")
python-3.x azure-data-lake databricks
2个回答
0
投票

尝试使用azure.datalake.store库,更多详细信息:https://github.com/Azure/azure-data-lake-store-python

这应该可以防止数据库下载并重新上传文件。


0
投票

最好的选择是使用dbutils.fs。

这会为你做到:

 dbutils.fs.cp ("/mnt/storage1/ABC/", "/mnt/storage1/copied/", recurse=True)
© www.soinside.com 2019 - 2024. All rights reserved.