从根AZStorage Blob复制数百万个文件到子文件夹

问题描述 投票:3回答:1

我有多个Azure存储Blob容器,每个容器都包含超过100万个JSON文件,其中包括根目录。不可能使用(不令人震惊),因此尝试使用Data Factory使用文件中的时间戳将它们移动到多个文件夹,以创建YYYY-MM-DD / HH文件夹设置为分区系统。但是我尝试过的每一种方法都会因超时/项目限制过多而失败。需要打开每个文件,获取时间戳,并使用它使用时间戳数据将文件移动到动态路径。有想法吗?

更新:我能够解决这个问题,但是我不会将其称为“答案”,所以我将仅更新问题。为了创建较小的集合,我将管道参数化为接受文件名通配符。然后,我创建了另一个管道,该管道使用0-9,a-z数组将其用作数据集上的参数。蛮力解决方法...假设必须有一个更好的解决方案,但这暂时有效。

azure azure-data-factory-2 azure-blob-storage
1个回答
0
投票

阅读文档:Move data to and from Azure Blob storage

以下文章描述了如何使用不同的技术在Azure Blob存储之间来回移动数据。


根据您的情况,我建议您使用支持.NET, Java, Node.js, Python, Go, PHP, Ruby.的SDK

相信我,如果您想从AzureBlob迁移数据,DataFactory不是一个好方法,它会使问题变得更加复杂。(这是我从AzureBlob迁移超过1亿个JSON文件(超过2TB)后的建议)

© www.soinside.com 2019 - 2024. All rights reserved.