databricks 相关问题

有关Databricks统一分析平台的问题

授予用户/组在Databricks Workspace中对所有笔记本的读取权限

我试图将用户的访问权限授予工作区内的所有笔记本,即用户笔记本和共享。有没有办法在一个声明中批准?谢谢,萨西。

回答 1 投票 0

Azure databricks spark - 写入blob存储

我有一个包含两列的数据框--filepath(blobs的wasbs文件路径),字符串,并希望将每个字符串写入具有该文件名的单独blob。我怎样才能做到这一点?

回答 2 投票 1

如何从Map中检索派生类?

给定相应的类名作为键,我必须检索存储在Map中的Derived类对象。如下所示,特质Caluclator类PreScoreCalculator(数据:Seq [Int])扩展了Caluclator类......

回答 3 投票 1

Databricks PySpark Job一直被取消

我在Azure上使用Databricks笔记本,我有一个非常好的Pyspark笔记本,昨天整天运行良好。但是在那天结束的时候,我注意到我有些奇怪......

回答 4 投票 3

从spark代码更改单个作业的临时路径

我有多个要并行执行的作业,它们使用动态分区将每日数据附加到同一路径中。我面临的问题是在...期间创建的临时路径

回答 1 投票 0

DataFrame到RDD [(String,String)]的转换

我想在Databricks中将org.apache.spark.sql.DataFrame转换为org.apache.spark.rdd.RDD [(String,String)]。有人可以帮忙吗?背景(也是一个更好的解决方案也欢迎):我有一个卡夫卡......

回答 1 投票 0

如何在数据库中显示所有视图

我使用CREATE [OR REPLACE] [[GLOBAL] TEMPORARY] VIEW来创建一些视图。我想展示所有观点。以下命令不起作用。显示视图但是当我使用show tables时结果......

回答 1 投票 0

Azure DataBricks Stream foreach因NotSerializableException而失败

我想继续详细说明数据集流的行(最初由Kafka发起):基于我想要更新Radis散列的条件。这是我的代码片段(lastContacts是...的结果

回答 1 投票 0

将Scala连接转换为Azure DW到PySpark

我正在尝试更新ADW上的表,但到目前为止我发现的唯一路径是通过scala,我不是很熟悉,我希望与PySpark具有相同的功能。 ...

回答 1 投票 -1

如何在火花罐中使用dbutils.secrets

所以我现在正试图为我的Databricks开发环境设置秘密。我已经使用Databricks-cli成功设置了这些。我现在正试图在我的火花罐中使用这些(用scala编写)......

回答 2 投票 0

Pyspark加入不需要5个位置参数?

我正在Pyspark的5个列上实现LEFT JOIN。但是它会抛出一个错误,如下所示TypeError:join()需要2到4个位置参数,但是5个被赋予了代码实现:...

回答 1 投票 0

Spark:无法从输出中创建新列,从另一列填充一列空值

我试图用ColX中的值填充ColY中的空值,同时将输出存储为我的DataFrame Col_new中的新列。我在databricks中使用pyspark,但我对这个很新....

回答 2 投票 0

Spark在字符串中获取当前日期

我对Spark和Databricks相对较新,并且使用下面的代码以正确的格式获取日期,然后可以附加到文件名字符串。 %scala //获取文件名的日期...

回答 1 投票 1

HDFS和Databricks DBFS之间的主要区别是什么?

我完全理解每个人。但哪些是主要差异?两者都保留磁盘上的数据吗?如果我将非分布式系统安装到数据库DBFS,该怎么办?

回答 1 投票 -2

Databricks:我如何获得当前笔记本的路径?

Databricks很聪明,但是你如何确定当前笔记本的路径?网站上的指南没有帮助。它建议:%scala dbutils.notebook.getContext.notebookPath res1:...

回答 1 投票 3

如何使用PySpark从数据框中提取单个(列/行)值?

这是我的火花代码。它工作正常并返回2517.我想要做的就是打印“2517度”...但我不确定如何将2517提取到变量中。我只能显示数据帧但不能...

回答 1 投票 0

在pyspark中,如果不存在1个路径,则读取csv文件会失败。我们怎能避免这种情况?

在pyspark中读取来自不同路径的csv文件即使一条路径不存在也会失败。 Logs = spark.read.load(Logpaths,format =“csv”,schema = logsSchema,header =“true”,mode =“DROPMALFORMED”); ...

回答 1 投票 0

我正在尝试返回一个查询,它将为我提供所有用户的倒数第二个delivery_dates

我正在使用数据库数据库,我必须编写一个查询,它将返回所有用户的倒数第二个订单的delivery_date(所以倒数第二个delivery_date)。我有所有......

回答 2 投票 1

解析存储在Python Spark中的表列中的JSON

我正在尝试解析JSON并使用Python Spark向DataFrame添加一个列:tableDF = spark.sql(“select * from transaction”)stats_df = parseJSONCols(tableDF)def parseJSONCols(df):res = df ...

回答 1 投票 0

PySpark - 在S3中存储的CSV上运行dataframe.sql时获取BufferOverflowException

当我在S3中存储的CSV上尝试Spark SQL查询时,我收到了BufferOverflowException。以下是CSV和数据模式的链接。我实际上在S3中使用GZIP压缩CSV。来自......

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.