databricks 相关问题

有关Databricks统一分析平台的问题

确保跨数据块中的两个增量表进行事务写入

我想在数据块中创建/更新两个增量表。但是,我希望它们同时创建,这样就永远不会发生以下情况: 用户查询表1和表2并得到...

回答 1 投票 0

PySparkTypeError:[CANNOT_INFER_SCHEMA_FOR_TYPE] 无法推断类型的架构:`str`。对于spark.createDataFrame(dataframe)

我有一个 pyspark.pandas.frame.DataFrame。我需要将其写入 Hive_metastore 表,但无法这样做。我有一个如下所示的数据框: df: (df.dtypes) COL-a int32 日期...

回答 1 投票 0

无法在工作区中的文件夹中创建文件

我正在尝试创建一个脚本,使用 JSON_DUMP 将字典数据转换为 str 数据。这将写入 Workspace/Users/[email protected]/Result 路径下的 .txt 文件中。查询是

回答 0 投票 0

在 Databricks 中使用后续 dbt 中间层时无法获取 SAS 令牌

我们尝试在进入集市层之前使用多个相互连续的中间层,主要是为了可重用性。 但是,我们经常遇到 sas 令牌错误:“无法获取...

回答 1 投票 0

如何将带有占位符的字符串从一个笔记本传递到databricks中的另一个笔记本

我试图在notebook1中将变量声明为带有占位符的字符串,并在spark.sql中的notebook2中调用该变量。但在 {' 处出现语法错误 在笔记本1中: qry =“选择{id}...

回答 1 投票 0

多个用户同时运行一个仪表板

我有一个带有不同小部件的数据块仪表板。它有两个根据用户输入(小部件)而变化的三图。我想与多个用户共享此仪表板以单独运行它,并且

回答 2 投票 0

Spark SparkFiles.get() 返回驱动程序路径而不是工作程序路径

我正在通过外部可执行文件管道传输 RDD 的分区。我使用sparkContext.addFiles(),以便工作人员可以使用可执行文件。 当我尝试运行代码时,我得到...

回答 1 投票 0

“Spark”未定义 - 创建 Python UDF

我正在尝试在Databricks中创建一个python UDF。虽然下面的代码部署得很好,但当我尝试通过向其传递合法参数来调用该函数时,出现错误。我知道逻辑是正确的

回答 1 投票 0

使用适用于 Python 的 Databricks SQL 连接器从 Databricks 中执行的查询获取 query_id

我正在使用Python的Databricks SQL连接器来执行查询(cursor.execute(query)),并希望获取每个查询的执行时间。我已经探索过重试的选项...

回答 1 投票 0

如何从突触中的DeltaLiveTables(Databricks)获取pipeline_id?

我有一个 DeltaLiveTables (DLT) 的 pipeline_name ,我需要使用 synapse 获取 DLT 的 Pipeline_id 吗?突触中可以使用哪种活动来获取它? 我尝试使用网络活动

回答 1 投票 0

Pyspark 代码在 Databricks 上的 UDF 中不起作用

当我尝试在 Databricks 中部署 UDF 时,我试图了解幕后发生的情况。我希望这个 UDF 能够被其他人使用,并且我计划稍后用更多的逻辑来扩展它。 康西...

回答 1 投票 0

Databricks DBX 和资产包:支持在容器/存储帐户中存储配置文件

我正在尝试部署使用 yaml 文件配置的 Databricks 工作流程。目前我正在使用 dbx。有什么方法可以代替在本地项目中使用 YAML 文件吗

回答 1 投票 0

如何找到决策树分类的特征名称?

我正在尝试查找决策树的特征信息。更具体地说,如果 183 出现在我的树可视化中,我希望能够分辨出它是什么。我尝试过 dtModel。

回答 2 投票 0

指定保留增量表的“x 版本”?

VACUUM 将删除不再处于表事务日志最新状态且早于保留阈值的增量表数据文件。该保留阈值可以是特定的...

回答 1 投票 0

如何测试 Databricks 结构化流中的端到端延迟?

我是结构化流媒体新手,并尝试在结构化流媒体中读取数据进行性能测试 我想测试不同的场景,例如,不同的集群大小、不同的数量......

回答 1 投票 0

对于从 databricks 集群到 Azure SQL DB 的 BCP 加载,无法实现大于 16kb 的网络数据包大小

我正在尝试通过 BCP 实用程序将数据从 azure databricks 集群加载到 azure 托管 sql server 实例。这里我使用Apache Spark + Python进行数据处理并编写最终的

回答 1 投票 0

如何获取单个合并行,其中包含从应用于驱动列的条件中筛选出的值?

考虑下表 person_details 这将是我的输入 ID 姓名 信任名称 年龄 年龄信任 1 约翰·多伊 90 无效的 无效的 1 约翰·D. 50 25 90 1 无效的 0 二十几岁 50 这里null代表ac...

回答 1 投票 0

WHERE 条件中的 UPPER 在 Apache Spark 3.5.0 中对于 Mysql ENUM 列不起作用

我已经将我的spark作业从spark 3.3.1升级到spark 3.5.0,我正在查询Mysql数据库并应用 UPPER(列) = UPPER(值) 在后续的sql查询中。它在 Spark 中按预期工作......

回答 1 投票 0

Source=Microsoft.DataTransfer.Common,''Type=Newtonsoft.Json.JsonReaderException,Message=错误的 JSON 转义序列:\A

我正在尝试使用 Azure 数据工厂从 API 源加载 json 数据。 我收到以下错误,whcih 是错误的 json 转义序列。 错误代码=JsonInvalidDataFormat,'类型=Microsoft.DataTransfer。

回答 1 投票 0

有没有办法在pyspark/sql databricks中创建uniqueidentifier类型的列?

我们正在将存储过程从 Synapse 迁移到 Databricks。 因此,在突触中有一个表,其中有一列“uniqueidentifier”类型。当我们对此列突触进行 MAX 计算时...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.