databricks 相关问题

有关Databricks统一分析平台的问题

在 Azure Databricks 中使用 LXML 库 (Python) 解析 XML 文件

我正在尝试使用数据块中的 LXML 库解析多个 xml 文件。 问题陈述 - 我在 ADLS 中每 2 分钟收到 1000 多个 xml 文件。我正在尝试使用 ...

回答 0 投票 0

在一个 PySpark 列中使用索引位置或条件来提取另一个列中的值

我是 PySpark/Python 的新手。我正在尝试创建一个新列,并将数组中的一个字符串放在另一个数组列中频率最高的列中。 我尝试使用以下 df....

回答 0 投票 0

查找上次购买该商品的日期

我想创建多个列(大约 40 个)上次购买此 div/dep 的日期。 下面是几个字段,如果我能想到在我可以做的 40 个剩余字段中只创建几个字段 加入交易表...

回答 0 投票 0

Unity Catalog 未在此集群上启用

我正在尝试在 Databricks 上设置 Unity Catalog,为此我创建了一个运行时版本为 11.3 且单用户为访问模式的新集群。我试着跑 %sql 如果不存在则创建目录...

回答 1 投票 0

chromedriver w/selenium 数据块中的环境管理

我在笔记本上写了一个复杂的webscraper,需要很长时间才能运行。我已经开始使用 databricks,我想在我的 databricks 集群中运行这个脚本,这样我就可以运行 scraper

回答 0 投票 0

Terraform Databricks 计划无法安装提供商 databrickslabs/databricks - 校验和列表没有提供商的 SHA-256 哈希

我正在使用 terraform 创建数据块作业。当我使用提供程序 databrickslabs/databricks 版本 0.6.2 时,作业已成功创建。因为我需要使用数据源“

回答 0 投票 0

如果满足条件则写入事件中心接收器

我是数据块和使用 azure 事件中心的新手。我的自我任务是将消息路由到适当的 EventHub Sink。我正在用这个流程练习它: 定义丰富: 如果 vehicleIssue.NM== 1:

回答 0 投票 0

PRESTO SQL 转换为 Databricks SQL

我正在将 PRESTO sql 转换为 databricks sql。你能帮我转换以下子查询吗? PSF_PIVOT 作为(选择 A.PATIENT_ID,A.REPORT_ID,A.VISIT_DATE,A.DISEASE_GROUP,

回答 1 投票 0

How to set up external hive meta store in databricks with below configuration?

我尝试了下面的代码来为 azure sql server 创建一个外部元存储 但是收到无法实例化的错误和配置单元版本问题。 spark.hadoop.javax.jdo.option.

回答 1 投票 0

如何从 pyspark 的列中的地址中找到坐标?

我需要从给定的地址列生成经度和纬度列。我该怎么做? 从 geopy.extra.rate_limiter 导入 RateLimiter 定位器= Nominatim(user_agent ='myGeocoder')

回答 0 投票 0

有没有办法更改 Databricks Mlflow 上的默认工件存储路径?

我有一个安装到 Databricks 的云存储,我想将所有模型工件存储在那里,而无需在创建新实验时指定它。 有没有办法配置 Databri...

回答 0 投票 0

根据我提供的Percentile表获取列的Percentile

我在 DataBricks 上使用 Pyspak。我已经得到了基于训练样本的百分位表。现在,我想使用一个表来获取测试数据集的百分位数。例如:我有

回答 0 投票 0

为什么 DetlaTable vacum 不删除不再在增量日志中的非常旧的文件

由于应该清理增量日志(永远保留 Delta Lake 的增量日志事务数据)和 Vacuum 检查增量日志以决定删除什么(https://docs.databricks.com/sql/language-

回答 0 投票 0

DLT 中的 create_streaming_live_table 创建一个 VIEW 而不是增量表

我有以下代码并且能够作为 DLT 管道成功运行 @dlt.table( 名称 = 源表 ) def source_ds(): 返回 spark.table(f"{raw_db_name}.{

回答 2 投票 0

计算数据块中的百分位数

任何人都可以帮忙并告诉错误在哪里?我究竟做错了什么? (数据块) 即使来自 databricks www 的示例也不起作用并产生如下相同的错误。 有没有其他的...

回答 2 投票 0

我们可以使用 Databricks Jobs API“立即运行”设置任务明智的参数吗

我的工作有多项任务,例如 Task1 -> Task2。我正在尝试使用 api“立即运行”来调用作业。任务详情如下 Task1 - 它执行带有一些输入参数的记事本...

回答 2 投票 0

特殊字符CASE表达式

我尝试创建一个 CASE 表达式来识别特殊字符,然后转换数据以说明电子邮件地址的变化。 到目前为止,我的 CASE 表达式构建如下: ...

回答 0 投票 0

PySpark 到 pandas DataFrame 错误:objecthas no attribute 'dtype'

我现在一直在尝试不同的方法和配置来使用 .toPandas() 创建一个 pandas DataFrame,我可以在其上从我的 PySpark DataFrame 执行常规的 Python 命令。但是,我一直...

回答 0 投票 0

如何使用 pyspark 从 url 读取短暂的镶木地板文件?

如何从 JSON 响应中的 Delta Sharing Rest Api 获取的 URL 读取镶木地板文件(短期镶木地板文件)。 尝试过熊猫,它工作正常。 但必须使用 PySpark 阅读。

回答 0 投票 0

Databricks 中的 PySpark 表转换为 pandas 时出错

我正在使用 Databricks 并想使用 df.toPandas() 命令将我的 PySpark DataFrame 转换为 pandas 数据帧。 但是,我不断收到此错误: /databricks/spark/python/pyspark/sql/pandas/conver...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.