databricks 相关问题

有关Databricks统一分析平台的问题

在 Azure Databricks 中使用 LXML 库 (Python) 解析 XML 文件

我正在尝试使用数据块中的 LXML 库解析多个 xml 文件。问题陈述 - 我在 ADLS 中每 2 分钟收到 1000 多个 xml 文件。我正在尝试使用 ...

xml pyspark databricks cluster-computing lxml

回答 0 投票 0

在一个 PySpark 列中使用索引位置或条件来提取另一个列中的值

我是 PySpark/Python 的新手。我正在尝试创建一个新列，并将数组中的一个字符串放在另一个数组列中频率最高的列中。我尝试使用以下 df....

python pyspark databricks

回答 0 投票 0

查找上次购买该商品的日期

我想创建多个列（大约 40 个）上次购买此 div/dep 的日期。下面是几个字段，如果我能想到在我可以做的 40 个剩余字段中只创建几个字段加入交易表...

sql azure pyspark pivot databricks

回答 0 投票 0

Unity Catalog 未在此集群上启用

我正在尝试在 Databricks 上设置 Unity Catalog，为此我创建了一个运行时版本为 11.3 且单用户为访问模式的新集群。我试着跑 %sql 如果不存在则创建目录...

databricks databricks-unity-catalog

回答 1 投票 0

chromedriver w/selenium 数据块中的环境管理

我在笔记本上写了一个复杂的webscraper，需要很长时间才能运行。我已经开始使用 databricks，我想在我的 databricks 集群中运行这个脚本，这样我就可以运行 scraper

python selenium-webdriver selenium-chromedriver databricks

回答 0 投票 0

Terraform Databricks 计划无法安装提供商 databrickslabs/databricks - 校验和列表没有提供商的 SHA-256 哈希

我正在使用 terraform 创建数据块作业。当我使用提供程序 databrickslabs/databricks 版本 0.6.2 时，作业已成功创建。因为我需要使用数据源“

azure terraform databricks azure-databricks terraform-provider-azure

回答 0 投票 0

如果满足条件则写入事件中心接收器

我是数据块和使用 azure 事件中心的新手。我的自我任务是将消息路由到适当的 EventHub Sink。我正在用这个流程练习它：定义丰富：如果 vehicleIssue.NM== 1:

python databricks

回答 0 投票 0

PRESTO SQL 转换为 Databricks SQL

我正在将 PRESTO sql 转换为 databricks sql。你能帮我转换以下子查询吗？ PSF_PIVOT 作为（选择 A.PATIENT_ID，A.REPORT_ID，A.VISIT_DATE，A.DISEASE_GROUP，

sql pivot-table databricks aggregate-functions presto

回答 1 投票 0

How to set up external hive meta store in databricks with below configuration?

我尝试了下面的代码来为 azure sql server 创建一个外部元存储但是收到无法实例化的错误和配置单元版本问题。 spark.hadoop.javax.jdo.option.

apache-spark hive databricks azure-databricks hive-metastore

回答 1 投票 0

如何从 pyspark 的列中的地址中找到坐标？

我需要从给定的地址列生成经度和纬度列。我该怎么做？从 geopy.extra.rate_limiter 导入 RateLimiter 定位器= Nominatim（user_agent ='myGeocoder'）

python pyspark databricks

回答 0 投票 0

有没有办法更改 Databricks Mlflow 上的默认工件存储路径？

我有一个安装到 Databricks 的云存储，我想将所有模型工件存储在那里，而无需在创建新实验时指定它。有没有办法配置 Databri...

databricks mlflow

回答 0 投票 0

根据我提供的Percentile表获取列的Percentile

我在 DataBricks 上使用 Pyspak。我已经得到了基于训练样本的百分位表。现在，我想使用一个表来获取测试数据集的百分位数。例如：我有

pyspark apache-spark-sql databricks databricks-sql aws-databricks

回答 0 投票 0

为什么 DetlaTable vacum 不删除不再在增量日志中的非常旧的文件

由于应该清理增量日志（永远保留 Delta Lake 的增量日志事务数据）和 Vacuum 检查增量日志以决定删除什么（https://docs.databricks.com/sql/language-

apache-spark databricks delta-lake delta

回答 0 投票 0

DLT 中的 create_streaming_live_table 创建一个 VIEW 而不是增量表

我有以下代码并且能够作为 DLT 管道成功运行 @dlt.table( 名称 = 源表 ) def source_ds(): 返回 spark.table(f"{raw_db_name}.{

databricks azure-databricks delta-live-tables

回答 2 投票 0

计算数据块中的百分位数

任何人都可以帮忙并告诉错误在哪里？我究竟做错了什么？（数据块）即使来自 databricks www 的示例也不起作用并产生如下相同的错误。有没有其他的...

sql databricks percentile

回答 2 投票 0

我们可以使用 Databricks Jobs API“立即运行”设置任务明智的参数吗

我的工作有多项任务，例如 Task1 -> Task2。我正在尝试使用 api“立即运行”来调用作业。任务详情如下 Task1 - 它执行带有一些输入参数的记事本...

databricks databricks-rest-api

回答 2 投票 0

特殊字符CASE表达式

我尝试创建一个 CASE 表达式来识别特殊字符，然后转换数据以说明电子邮件地址的变化。到目前为止，我的 CASE 表达式构建如下： ...

postgresql databricks

回答 0 投票 0

PySpark 到 pandas DataFrame 错误：objecthas no attribute 'dtype'

我现在一直在尝试不同的方法和配置来使用 .toPandas() 创建一个 pandas DataFrame，我可以在其上从我的 PySpark DataFrame 执行常规的 Python 命令。但是，我一直...

python pandas apache-spark pyspark databricks

回答 0 投票 0

如何使用 pyspark 从 url 读取短暂的镶木地板文件？

如何从 JSON 响应中的 Delta Sharing Rest Api 获取的 URL 读取镶木地板文件（短期镶木地板文件）。尝试过熊猫，它工作正常。但必须使用 PySpark 阅读。

azure pyspark databricks

回答 0 投票 0

Databricks 中的 PySpark 表转换为 pandas 时出错

我正在使用 Databricks 并想使用 df.toPandas() 命令将我的 PySpark DataFrame 转换为 pandas 数据帧。但是，我不断收到此错误： /databricks/spark/python/pyspark/sql/pandas/conver...

python pandas apache-spark pyspark databricks

回答 0 投票 0

databricks 相关问题

最新问题