有关Databricks统一分析平台的问题
在 Azure Databricks 中使用 LXML 库 (Python) 解析 XML 文件
我正在尝试使用数据块中的 LXML 库解析多个 xml 文件。 问题陈述 - 我在 ADLS 中每 2 分钟收到 1000 多个 xml 文件。我正在尝试使用 ...
在一个 PySpark 列中使用索引位置或条件来提取另一个列中的值
我是 PySpark/Python 的新手。我正在尝试创建一个新列,并将数组中的一个字符串放在另一个数组列中频率最高的列中。 我尝试使用以下 df....
我想创建多个列(大约 40 个)上次购买此 div/dep 的日期。 下面是几个字段,如果我能想到在我可以做的 40 个剩余字段中只创建几个字段 加入交易表...
我正在尝试在 Databricks 上设置 Unity Catalog,为此我创建了一个运行时版本为 11.3 且单用户为访问模式的新集群。我试着跑 %sql 如果不存在则创建目录...
chromedriver w/selenium 数据块中的环境管理
我在笔记本上写了一个复杂的webscraper,需要很长时间才能运行。我已经开始使用 databricks,我想在我的 databricks 集群中运行这个脚本,这样我就可以运行 scraper
Terraform Databricks 计划无法安装提供商 databrickslabs/databricks - 校验和列表没有提供商的 SHA-256 哈希
我正在使用 terraform 创建数据块作业。当我使用提供程序 databrickslabs/databricks 版本 0.6.2 时,作业已成功创建。因为我需要使用数据源“
我是数据块和使用 azure 事件中心的新手。我的自我任务是将消息路由到适当的 EventHub Sink。我正在用这个流程练习它: 定义丰富: 如果 vehicleIssue.NM== 1:
我正在将 PRESTO sql 转换为 databricks sql。你能帮我转换以下子查询吗? PSF_PIVOT 作为(选择 A.PATIENT_ID,A.REPORT_ID,A.VISIT_DATE,A.DISEASE_GROUP,
How to set up external hive meta store in databricks with below configuration?
我尝试了下面的代码来为 azure sql server 创建一个外部元存储 但是收到无法实例化的错误和配置单元版本问题。 spark.hadoop.javax.jdo.option.
我需要从给定的地址列生成经度和纬度列。我该怎么做? 从 geopy.extra.rate_limiter 导入 RateLimiter 定位器= Nominatim(user_agent ='myGeocoder')
有没有办法更改 Databricks Mlflow 上的默认工件存储路径?
我有一个安装到 Databricks 的云存储,我想将所有模型工件存储在那里,而无需在创建新实验时指定它。 有没有办法配置 Databri...
根据我提供的Percentile表获取列的Percentile
我在 DataBricks 上使用 Pyspak。我已经得到了基于训练样本的百分位表。现在,我想使用一个表来获取测试数据集的百分位数。例如:我有
为什么 DetlaTable vacum 不删除不再在增量日志中的非常旧的文件
由于应该清理增量日志(永远保留 Delta Lake 的增量日志事务数据)和 Vacuum 检查增量日志以决定删除什么(https://docs.databricks.com/sql/language-
DLT 中的 create_streaming_live_table 创建一个 VIEW 而不是增量表
我有以下代码并且能够作为 DLT 管道成功运行 @dlt.table( 名称 = 源表 ) def source_ds(): 返回 spark.table(f"{raw_db_name}.{
任何人都可以帮忙并告诉错误在哪里?我究竟做错了什么? (数据块) 即使来自 databricks www 的示例也不起作用并产生如下相同的错误。 有没有其他的...
我们可以使用 Databricks Jobs API“立即运行”设置任务明智的参数吗
我的工作有多项任务,例如 Task1 -> Task2。我正在尝试使用 api“立即运行”来调用作业。任务详情如下 Task1 - 它执行带有一些输入参数的记事本...
我尝试创建一个 CASE 表达式来识别特殊字符,然后转换数据以说明电子邮件地址的变化。 到目前为止,我的 CASE 表达式构建如下: ...
PySpark 到 pandas DataFrame 错误:objecthas no attribute 'dtype'
我现在一直在尝试不同的方法和配置来使用 .toPandas() 创建一个 pandas DataFrame,我可以在其上从我的 PySpark DataFrame 执行常规的 Python 命令。但是,我一直...
如何使用 pyspark 从 url 读取短暂的镶木地板文件?
如何从 JSON 响应中的 Delta Sharing Rest Api 获取的 URL 读取镶木地板文件(短期镶木地板文件)。 尝试过熊猫,它工作正常。 但必须使用 PySpark 阅读。
Databricks 中的 PySpark 表转换为 pandas 时出错
我正在使用 Databricks 并想使用 df.toPandas() 命令将我的 PySpark DataFrame 转换为 pandas 数据帧。 但是,我不断收到此错误: /databricks/spark/python/pyspark/sql/pandas/conver...