通过 ADF 将数据从 SFTP 复制到 ADLS Gen 2

问题描述 投票:0回答:1

我在 SFTP 服务器中有大约 200GB 的 .gz 格式数据。我需要通过 ADF 将其复制到 ADLS 中。 可以吗。?需要采用什么数据集文件格式。文件格式也应该是adls中相同的.gz格式。这里不需要任何改造。

另外,这里的数据区域重要吗?

除了 ADF 之外,还有其他更快的方法吗?

azure azure-data-factory sftp azure-databricks azure-data-lake
1个回答
1
投票

您可以将复制活动与 SFTP 连接器 一起使用,并将该连接器用于源数据集。

  • 在源数据集中输入压缩类型为
    gzip(.gz)

enter image description here

源数据集配置

{
"name": "DelimitedText66",
"properties": {
"linkedServiceName": {
"referenceName": "LS-SFTP",
"type": "LinkedServiceReference"
},
"annotations": [],
"type": "DelimitedText",
"typeProperties": {
"location": {
"type": "AzureBlobFSLocation",
"fileName": "Book1.xlsx.gz",
"fileSystem": "con1"
},
"columnDelimiter": ",",
"compressionCodec": "gzip",
"escapeChar": "\\",
"quoteChar": "\""
},
"schema": [
{
"type": "String"
},
{
"type": "String"
}
]
}
}
  • 同理,为ADLS创建链接服务,创建sink数据集。
  • 在复制活动中使用这些数据集并执行从 SFTP 复制到 ADLS 的管道。

数据的区域在这里很重要吗?

这取决于您的 SFTP 服务器和 ADLS 帐户的位置。如果SFTP服务器和ADLS账号在同一个区域,数据传输可能会更快。

参考:

  1. azure-docs/connector-sftp.md 在 main · MicrosoftDocs/azure-docs (github.com)
  2. azure-docs/connector-azure-data-lake-storage.md 位于 main · MicrosoftDocs/azure-docs (github.com)
© www.soinside.com 2019 - 2024. All rights reserved.