azure-data-lake 相关问题

Azure Data Lake Analytics是Microsoft Azure中的三大数据服务套件:HDInsight,Data Lake Store和Data Lake Analytics。这些完全托管的服务使得易于上手和轻松扩展以Hive,Pig,Spark,Storm和U-SQL编写的大数据作业。要了解更多信息,请访问:https://azure.microsoft.com/en-us/solutions/data-lake/

Azure synapse 中的外部表 - 删除 parquet 文件时出现错误

我正在通过 databricks 将 parquet 文件写入 azure 数据湖存储系统。 我使用以下内容来编写镶木地板文件: Culture_split.write.partitionBy("文件名").mode('over...

回答 1 投票 0

从 Databricks 数据湖中的文件夹中读取最新文件

我有以下代码: 目录路径 = "dbfs:/mnt/x_file_directory" 文件= dbutils.fs.ls(目录路径) latest_file = max(文件, key=lambda f:f.modificationTime) 最新文件路径 =

回答 1 投票 0

将数据写入数据湖gen2以消耗电量

如果我们有一些来自营销平台的每小时数据以及行为数据(将其视为 CSV 文件中的事件或行)。 我想将其放入第二代数据湖中,目的是

回答 2 投票 0

将 xml 字符串写入 Azure 数据湖存储

当我尝试将 xml 字符串写入 azure datalake 存储时,我收到错误,因为找不到文件。我正在使用带有 python 的突触笔记本来写入文件。 Synapse 笔记本和数据湖存储...

回答 2 投票 0

在 Azure 数据工厂中创建触发器期间使用参数来定位文件

我正在尝试创建一个触发器,用于在 ADF 中启动管道: 我想要设置触发器的文件夹可以有不同的路径: 202001/测试/TriggerFolder 202002/测试/TriggerFolder

回答 1 投票 0

Apache Flink Azure ABFS 文件接收器错误(流)- UnsupportedFileSystemException:方案“文件”没有文件系统

我们将 Apache Flink 版本 1.17.1 与 Scala 结合使用。 我们正在尝试将流数据写入 ABFS 文件系统。 请参阅 Scala 中的简单示例代码。 对象简单流{ val 环境 =

回答 1 投票 0

Azure Databricks 中的数据集连接

我已在 Azure 数据工厂中发布了数据集,但无法访问数据块中的数据集。 该数据集是从连接到 AWS S3 的服务发布的。 这是照片...

回答 1 投票 0

如何确定 Azure Data Lake 中文件夹和子目录中存储的数据的总存储大小?

我已将数据存储在Azure数据湖中的不同文件夹和子文件夹中。我想知道存储的数据大小。 下面是我们可以在 azure data bricks 中运行以重复运行的函数...

回答 1 投票 0

如何使用笔记本将数据从Azure Data Lake加载到Microsoft Lakehouse?

我的情况是这样的: 我的 Azure 帐户中有一个存储,其中包含 Dynamics 365 F&O 中的表,并且有一个包含列名称和类型的 JSON 文件。 这是“头”文件,我...

回答 1 投票 0

对于 Python 3.8 Azure 数据湖 Gen 2,如何检查文件系统上是否存在文件?

我正在使用 Python 3.8、Azure Data Lake gen 2 和以下插件... 天蓝色存储blob==12.4.0 天蓝色存储文件数据湖==12.1.1 如何检查文件系统上是否存在特定路径?我

回答 3 投票 0

将 Spark DF 写入 parquet 时出错(Parquet 列无法转换。列:[word_c],预期:StringType,发现:INT64

我有几个 parquet 文件分布在不同的文件夹中,我使用以下命令将它们读入 Databricks 上的 Spark DF: df = Spark.read.option("mergeSchema", "true&

回答 2 投票 0

从 Azure Datalake 下载时是否可以设置块大小?

我正在尝试从 Azure Datalakes 下载文件,并且希望能够配置我认为合适的块大小。问题是,我在文档中找不到任何相关信息。 为了阿兹...

回答 1 投票 0

Azure Databricks 群集配置

对于迁移,我希望利用 azure databricks 将 azure sql 数据库迁移到 adls。 整个数据库将包含大约 4000 个表,总大小约为 2.5 TB。 我想要...

回答 1 投票 0

在 AzureML 中的 Azure DataLake 中写入文件

我正在使用“数据资产”将数据从azure datalake读取到azureML工作区。 但我想知道如何在 azure datalake 中写入数据。我有一个 pandas 数据框并且想要

回答 1 投票 0

如何在Azure中检查创建的存储帐户V2是否具有Data Lake gen2属性?

我对 Azure 非常陌生,想知道如何检查资源组中可用的现有存储帐户 V2 是否具有 Data Lake Gen2 类型。 我知道创建数据湖的过程...

回答 3 投票 0

使用 AzureStor R 库与 ADLSgen2 资源交互

我想 (i) 使用 RStudio 列出位于 ADLSgen2 存储帐户容器中的特定目录的内容,以及 (ii) 读取以 DataFr 形式存储在该目录中的 csv...

回答 1 投票 0

如何从 Spark 数据框中提取值并将其作为列添加到第二个数据框中?

我有 2 个大型 Spark 数据帧 df1 和 df2。 df1 有一列的 colName 名称只有一个不同的值。我需要将此列添加到 df2.我想知道什么是最有效的......

回答 1 投票 0

Azure Synapse 中 Delta Lake 和 Lake 数据库之间的区别

我正在 Azure Synapse 中构建 Lakehouse 架构,并且在使用 Delta-lake 还是 Lake 数据库之间犹豫不决。 两者似乎具有大致相同的功能 - 我可以使用 Spark 执行 ETL 任务...

回答 2 投票 0

ADLS2 Blob 存储“上次修改日期”生成时间戳

我有一个数据集成过程,可将多个文件引入 ADLS2 Blob。 有趣的是,一些文件到达较晚(较晚出现在 Blob 中),但 Last Modified Da 较早......

回答 1 投票 0

Data Lake Gen2 升级

早上好, 我在将标准 Azure 存储帐户升级到 Data Lake Gen2 升级时遇到问题。我在验证过程中不断收到此错误。 “:账户属性的值为

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.