databricks 相关问题

有关Databricks统一分析平台的问题

从Databricks(python)对Azure SQL数据库中的表执行更新/覆盖]]

在Azure Databricks中,该表已经在Azure SQL仓库中创建,我想对Azure SQL数据库中的现有数据库执行更新,或者在我运行我的工作时覆盖它的内容...

回答 1 投票 0

使用JDBC从Pyspark更新表

我有一个小的日志数据框,其中包含有关在给定笔记本中执行的ETL的元数据,该笔记本是Azure DataFactory中管理的较大ETL管道的一部分。不幸的是,它...

回答 1 投票 1

是否有可能制作Azure数据块解决方案的“图像”或“快照”,“服务”?

我有个主意。也许真的关闭了。但是...我想创建一个Azure DB解决方案,对其进行设置,安装所需的库,部署模型,数据库等等。一旦全部测试,我就会...

回答 1 投票 0

[尝试使用apache spark加载模块时出现Databricks错误

我正在Databricks中使用笔记本。如果有帮助,可以使用python 3设置笔记本。一切正常,我可以从Azure存储提取数据。但是,当我运行时:import org.apache ....

回答 1 投票 -2

如何将整个python应用程序添加到Azure数据块中并运行它?

我们有一个用Python编写的功能模型。我想一次复制所有代码并从azure databricks运行它-我看到有一种方法可以从azure数据工厂运行python代码,但是我看到它的...

回答 1 投票 0

不匹配的输入'('预期 ((第3行,pos 28)

我的代码看起来像这样,我不知道为什么会引发错误,出现这种情况后该错误在第3行中,有人可以帮忙吗?谢谢SELECT CASE WHEN(CASE WHEN ...

回答 1 投票 0

Databricks Delta Lake + ADSL + Presto

[Databricks刚刚发布了Delta Lake和Presto集成的公开预览。我是Azure的新手,该链接多次提及EMR和Athena,但缺少Azure关键字。所以我要问一个...

回答 1 投票 0

将字符串类型转换为Spark sql中的数组类型

我在Databricks的Spark SQL中有表,并且有一个列作为字符串。我将新列转换为Array数据类型,但仍将其转换为一个字符串。数据类型是表模式列中的数组类型,列为...

回答 3 投票 0


对于GBTClassifier,如何在pyspark中绘制ROC曲线?

我正在尝试绘制梯度增强模型的ROC曲线。我看过这篇文章,但它似乎不适用于GBTclassifier模型。 pyspark提取ROC曲线?我正在使用数据集...

回答 1 投票 0

如何在Spark Scala中更快地处理.gz文件?

我正在读取.gz文件,如val df = spark.read..format(“ csv”).option(“ header”,“ true”).option(“ delimiter”,“ |”).load(“ filepath .gz“)df.createOrReplaceTempView(” df“)当我...

回答 4 投票 -3

如何在数据块中分解数据框架构

我有一个应分解的架构,以下是该架构|-CaseNumber:字符串(nullable = true)|-客户:数组(nullable = true)| |-元素:struct(containsNull = true)| | ...

回答 1 投票 0

Azure Databricks,如何将csv自动下载到本地网络驱动器?

我的工作当前实现了Azure Databricks。是否可以定期将我的数据帧作为csv自动下载到本地网络驱动器路径?例如,我们公司...

回答 1 投票 0

PySpark可以处理os.walk来遍历子文件夹吗?

我测试了几个示例代码,这些示例列出了特定文件夹(如下)中的所有文件。但是,没有人可以使用通配符处理子文件夹的迭代。第一次尝试:import sys,os ...

回答 1 投票 0

如何爆炸火花数据帧

我分解了一个嵌套的架构,但没有得到想要的东西,在分解之前,它看起来像这样:df.show()+ ---------- + ---------- ------------------------------------------------ + |案例编号| ...

回答 1 投票 1

将日期变量插入带有字符串文件路径(read.csv)的Dataframe中

我正在完成一个要将csv文件提取到Dataframe中的过程。此文件是每天运行的增量文件,存储在Azure DataLake存储中。 DF =(spark .read.option(“ ...

回答 1 投票 0

遍历目录中的文件,并使用文件名作为变量,并将文件路径分配给变量

我试图使用Pyspark遍历文件夹并获取DataBricks中文件的名称和这些文件的路径。突然想到了一个想法,就是如果我们可以将文件的名称设置为...

回答 2 投票 2

如何在不使用CLI的情况下从Databricks文件系统下载文件?

我从Databricks笔记本中保存了一个文件,如下所示:joblib.dump(rf,'/dbfs/FileStore/model.pkl',compress = 9)如何在不使用CLI的情况下将其下载到本地文件系统?我尝试如下:...

回答 1 投票 0

在Spark中实施SCD类型2

试图在Spark 2.4.4中实现SCD Type 2逻辑。我有两个数据框;一个包含“现有数据”,另一个包含“新传入数据”。输入和预期输出如下。什么...

回答 3 投票 0

在Spark中实施CDC类型2

试图在Spark 2.4.4中实现CDC 2类逻辑。我有两个数据框;一个包含“现有数据”,另一个包含“新传入数据”。输入和预期输出如下。什么...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.