databricks 相关问题

有关Databricks统一分析平台的问题

将数据帧另存为csv文件(在数据块中处理,然后将其上传到Azure Datalake Blob存储中

我有一个csv文件存储在azure datalake存储器中,我通过在我的databricks集群中安装datalake帐户将其导入到databricks中,在进行了预处理之后,我想将csv重新存储在...中]] >> [[

回答 1 投票 0

Databricks CSV多次读取

假设我具有以下具有以下内容的csv文件file_20190901.csv col1 col2 col3 data 20190901 A file_20190902.csv col1 col2 col3 data ...

回答 1 投票 -1

Databricks:Python生成带有日期的数组

是否可以生成具有以下日期格式的数组,如以下datearray = [“ 20190901”,“ 20190902” ...…..,“ 20190930”]如果我输入日期范围,它将自动执行产生。 ...

回答 2 投票 -1

Spark SQL-别名为在列名中使用逗号的列

我必须使用Spark SQL将临时视图中的数据存储在数据块中,并以逗号分隔的格式存储到数据帧中。因此,对于临时视图中的多列,数据框只需要存储一列,其中...

回答 1 投票 0

如何通过REST API设置作业权限?

我正在使用服务帐户在Databricks上创建自动集群作业,这是提取管道的一部分。我想授予某些用户权限,以便他们可以监视作业的进度(例如:...

回答 1 投票 1

CDAP与Azure的数据砖

有使用Azure的数据砖作为CDAP作业处理火花簇人尝试。 CDAP文档详细介绍了如何将其添加到Azure的HDInsight,但只是想知道有没有配置CDAP的方式...

回答 1 投票 0

计算和按日期汇总数据/时间

我有这样一个数据帧的工作:ID |时间戳|事件| DEVICEID 1 | 2019年2月5日8:00:00 |连接| 1 2 | 2019年2月5日8时00分05秒|断开| 1我使用...

回答 1 投票 0

如何内PySpark写三角洲表时使用ZORDER集群?

我想写一个非常大的PySpark数据框,下面我看到在建议https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks- delta.html然而,...

回答 1 投票 0

Azure的Databricks - 无法读取笔记本简单Blob存储文件

我已经设置了databricks运行5.1版集群(包括Apache的星火2.4.0,斯卡拉2.11)和Python 3,我还装Hadoop的蔚蓝库(Hadoop的蔚3.2.0)群集。我正在努力 ...

回答 1 投票 0

从触发气流Databricks工作,而无需启动新的集群

我使用的气流触发databricks工作。我有运行databricks工作很多DAG和我哗哗不得不仅使用一个群集,而不是很多,因为我的理解,这将减少...

回答 1 投票 1

如何使数据帧从存储在pyspark链路数据?

静态数据存储提供的链接:https://assets.datacamp.com/production/course_4452/datasets/airports.csv我用的urllib获得字符串格式的数据,然后转换数据成RDD ...

回答 1 投票 -3

Azure的Databricks无/ FileStore的用户和/

我刚刚创建在Azure上一个Databricks工作区,并配置了Databricks CLI访问令牌。一切正常。 Blob存储坐骑,JDBC数据库访问和CLI。但是:文件系统...

回答 1 投票 0

[R版本Azure上Databricks

Azure的Databricks目前运行[R版本3.4.4(2018年3月15日),这在我看来是不可接受的,因为在CRAN的最新版本 - [R 3.5.2是(2018年12月20日)。我的问题是:是否有可能对我来说...

回答 2 投票 1

Spark-sql Pivoting至少对于获取的批量数据没有按预期工作

透视在大多数情况下不能正常工作,即增加源表记录。 source_df + --------------- + ------------------- + ------------ -------- + ------------------- ------------------- + + - ...

回答 2 投票 0

如何将python变量传递给azure databricks notebookbles中的shell脚本。

如何将python变量从%python cmd传递到shell脚本%sh,在azure databricks notebook中?

回答 1 投票 0

Databricks CLI不能在Ubuntu 18.04上安装

我已经在Ubuntu 16.04和Mac上成功安装了databricks cli。当我尝试在Ubuntu 18.04(Azure VM)上安装它时,它看起来很好,然后当我尝试调用...

回答 2 投票 1

如何在拼花元数据中查看最小/最大索引?

我正在尝试使用镶木地板的最小/最大指数。我在这里跟着问题/答案:Spark Parquet统计(最小/最大)集成scala> val foo = spark.sql(“select id,cast(id ...

回答 2 投票 4

Spark - 如何更改合并的镶木地板文件的名称

因此,当将镶木地板文件写入s3时,我可以使用以下代码更改目录名称:spark_NCDS_df.coalesce(1).write.parquet(s3locationC1 +“parquet”)现在,当我输出这个时,...

回答 1 投票 2

使用python的数据库不能使用fs模块AttributeError:模块'dbutils'没有属性'fs'

我第一次使用azure databricks读取一些文件并尝试使用python和dbutils.fs.ls(“/ mnt”)但是我得到一个错误,说dbutils没有fs模块。我正在读...

回答 1 投票 1

Databricks - 创建永久用户定义函数(UDF)

我能够创建一个UDF函数并使用spark.UDF方法注册到spark。但是,这仅适用于每个会话。如何在群集启动时自动注册python UDF功能?这些......

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.