databricks 相关问题

有关Databricks统一分析平台的问题

以更有效的方式删除Blob中的文件夹

假设我将从databricks的blob中删除一个文件夹。但是,如果文件夹不为空,则使用dbutils.fs.rm(“ wabs:// .... / ...

回答 1 投票 0

解析作为json对象的列

我想查询作为JSON对象的此列。 | x | y | z | -------------------------------------------------- -------------- | 1 | ...

回答 1 投票 0

Databricks计划作业的Cron表达式

我需要安排数据块中的作业,该作业应每天在上午6点,6.15、6.30、6.45、7、7.15、7.30、7.45和8am运行。我正在使用下面的表达式,但是它不是在上午8点运行。反正有...

回答 1 投票 0

有人可以解释下面的代码片段中发生了什么吗?我试图理解下面的Scala代码

import org.apache.spark.sql.functions._ def expr(myCols:Set [String],allCols:Set [String])= allCols.toList.map {case x if myCols.contains(x)=> col (x)case x => lit(null).as(x)}

回答 1 投票 0

阅读CSV时是否可以选择从第2行或以下行开始?

我正在使用以下示例代码将一堆CSV文件读取到数据框中。 val df = spark.read.format(“ csv”).option(“ sep”,“ |”).option(“ inferSchema”,“ true”).option(“ header”,“ false”)...] >

回答 2 投票 1

从“数据框”列中提取标签

我有一个数据帧,其中包含来自Azure消费Databricks python笔记本的数据。我在这里只显示cols / rows的子集。 [Row(ResourceRate ='0.029995920244854',PreTaxCost ='0.719902085876484',...

回答 2 投票 0

如何在数据砖上运行python3?

我尝试在databricks(社区版本)上运行我的机器学习代码,并且需要使用Orange3数据挖掘库。但是,当我尝试创建orange3库时,它给出了这样的错误:...

回答 1 投票 1

Databricks:访问特定vnet后面的存储帐户

我想对数据块提供一些建议,以访问仅允许从特定子网访问的Blob存储帐户。谢谢

回答 1 投票 0

火花中有长血统(DAG)的问题

我们通常使用Spark作为存储在S3或HDFS上的数据的处理引擎。我们使用Databricks和EMR平台。我经常面临的问题之一是,当任务规模增加时,工作绩效是...

回答 1 投票 -2

databricks:检查安装点是否已经安装

如何在安装到databricks python中之前检查安装点是否已经安装? dbutils.fs.mount谢谢

回答 2 投票 0

带有Python脚本的Azure Databricks

我是Python新手。需要有关Azure数据块的帮助。场景:当前我正在使用HDInsight集群提交火花作业,并且它们使用带有类和...

回答 1 投票 0

无法在Databricks中为ADLS Gen2创建安装点

我们正在尝试通过服务主体创建从Azure Databricks到ADLS Gen2的安装点。服务主体具有适当的资源级别和数据级别访问权限。挂载点是...

回答 1 投票 0

为什么我的用户在Databricks中没有IAM角色?

我在Databricks中创建了一个分配了IAM角色的用户,但最后它没有IAM角色,我想解决该问题。 我通过以下方式创建了用户: 然后我得到了成功的创造: 我...

回答 0 投票 0

如何在DBFS中保存和下载本地csv?

由于SQL查询,我正在尝试保存csv文件,并通过Databricks发送到Athena。该文件应该是大约4-6 GB(约40m行)的大表。我正在执行以下步骤:创建PySpark ...

回答 1 投票 0

如何通过使用databrick向scala(spark)中的xml标签添加属性和值

我需要使用数据块在Spark Scala的显示名称标签中将“ xml:lang”作为属性添加,并将“ shirt”作为值添加。请帮忙。例如- 衬衫

回答 1 投票 0

如何在通过scala databrick生成的XML文件的rowTag中写入/添加属性

我必须创建类似 书是行标记的结构。我在scala中使用databrick编写XML。 df.repartition(1).write .format(“ com.databricks.spark.xml”).option(“ ...

回答 1 投票 1

Databricks结果缓存

Databricks是否具有结果缓存的概念?当我运行SQL查询时,它会将结果集缓存在某处以进行亚秒级访问吗?还是只有Delta Lake缓存?我找不到...

回答 1 投票 0

是否可以在spark的SELECT或WHERE语句中使用字符串?

我正在处理一些文本数据,并将它们转换为可解释的命令,这些命令将用作WHERE语句的参数,但是我得到了一个字符串,但我不知道如何使用它。例如...

回答 1 投票 0

将大RDS文件写入sparklyr数据帧-数据块

我正在尝试将数据块中加载的R数据帧转换为Sparklyr数据帧,但是我认为通常使用的copy_to函数无法处理文件大小。我需要转换的文件...

回答 1 投票 1

[Databricks中的Z顺序

是对z顺序优化进行重新聚类,还是Databricks中的手动过程,或者在后台运行的过程在插入数据后以异步方式对集群索引进行重新排序...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.