我有多个Azure存储Blob容器,每个容器都包含超过100万个JSON文件,其中包括根目录。不可能使用(不令人震惊),因此尝试使用Data Factory使用文件中的时间戳将它们移动到多个文件夹,以创建YYYY-MM-DD / HH文件夹设置为分区系统。但是我尝试过的每一种方法都会因超时/项目限制过多而失败。需要打开每个文件,获取时间戳,并使用它使用时间戳数据将文件移动到动态路径。有想法吗?
更新:我能够解决这个问题,但是我不会将其称为“答案”,所以我将仅更新问题。为了创建较小的集合,我将管道参数化为接受文件名通配符。然后,我创建了另一个管道,该管道使用0-9,a-z数组将其用作数据集上的参数。蛮力解决方法...假设必须有一个更好的解决方案,但这暂时有效。
阅读文档:Move data to and from Azure Blob storage
以下文章描述了如何使用不同的技术在Azure Blob存储之间来回移动数据。
根据您的情况,我建议您使用支持.NET, Java, Node.js, Python, Go, PHP, Ruby.的SDK
相信我,如果您想从AzureBlob迁移数据,DataFactory
不是一个好方法,它会使问题变得更加复杂。(这是我从AzureBlob迁移超过1亿个JSON文件(超过2TB)后的建议)