databricks 相关问题

有关Databricks统一分析平台的问题

DataFrame到RDD [(String,String)]的转换

我想在Databricks中将org.apache.spark.sql.DataFrame转换为org.apache.spark.rdd.RDD [(String,String)]。有人可以帮忙吗?背景(也是一个更好的解决方案也欢迎):我有一个卡夫卡......

回答 1 投票 0

如何在数据库中显示所有视图

我使用CREATE [OR REPLACE] [[GLOBAL] TEMPORARY] VIEW来创建一些视图。我想展示所有观点。以下命令不起作用。显示视图但是当我使用show tables时结果......

回答 1 投票 0

Azure DataBricks Stream foreach因NotSerializableException而失败

我想继续详细说明数据集流的行(最初由Kafka发起):基于我想要更新Radis散列的条件。这是我的代码片段(lastContacts是...的结果

回答 1 投票 0

将Scala连接转换为Azure DW到PySpark

我正在尝试更新ADW上的表,但到目前为止我发现的唯一路径是通过scala,我不是很熟悉,我希望与PySpark具有相同的功能。 ...

回答 1 投票 -1

如何在火花罐中使用dbutils.secrets

所以我现在正试图为我的Databricks开发环境设置秘密。我已经使用Databricks-cli成功设置了这些。我现在正试图在我的火花罐中使用这些(用scala编写)......

回答 2 投票 0

Pyspark加入不需要5个位置参数?

我正在Pyspark的5个列上实现LEFT JOIN。但是它会抛出一个错误,如下所示TypeError:join()需要2到4个位置参数,但是5个被赋予了代码实现:...

回答 1 投票 0

Spark:无法从输出中创建新列,从另一列填充一列空值

我试图用ColX中的值填充ColY中的空值,同时将输出存储为我的DataFrame Col_new中的新列。我在databricks中使用pyspark,但我对这个很新....

回答 2 投票 0

Spark在字符串中获取当前日期

我对Spark和Databricks相对较新,并且使用下面的代码以正确的格式获取日期,然后可以附加到文件名字符串。 %scala //获取文件名的日期...

回答 1 投票 1

HDFS和Databricks DBFS之间的主要区别是什么?

我完全理解每个人。但哪些是主要差异?两者都保留磁盘上的数据吗?如果我将非分布式系统安装到数据库DBFS,该怎么办?

回答 1 投票 -2

Databricks:我如何获得当前笔记本的路径?

Databricks很聪明,但是你如何确定当前笔记本的路径?网站上的指南没有帮助。它建议:%scala dbutils.notebook.getContext.notebookPath res1:...

回答 1 投票 3

如何使用PySpark从数据框中提取单个(列/行)值?

这是我的火花代码。它工作正常并返回2517.我想要做的就是打印“2517度”...但我不确定如何将2517提取到变量中。我只能显示数据帧但不能...

回答 1 投票 0

在pyspark中,如果不存在1个路径,则读取csv文件会失败。我们怎能避免这种情况?

在pyspark中读取来自不同路径的csv文件即使一条路径不存在也会失败。 Logs = spark.read.load(Logpaths,format =“csv”,schema = logsSchema,header =“true”,mode =“DROPMALFORMED”); ...

回答 1 投票 0

我正在尝试返回一个查询,它将为我提供所有用户的倒数第二个delivery_dates

我正在使用数据库数据库,我必须编写一个查询,它将返回所有用户的倒数第二个订单的delivery_date(所以倒数第二个delivery_date)。我有所有......

回答 2 投票 1

解析存储在Python Spark中的表列中的JSON

我正在尝试解析JSON并使用Python Spark向DataFrame添加一个列:tableDF = spark.sql(“select * from transaction”)stats_df = parseJSONCols(tableDF)def parseJSONCols(df):res = df ...

回答 1 投票 0

PySpark - 在S3中存储的CSV上运行dataframe.sql时获取BufferOverflowException

当我在S3中存储的CSV上尝试Spark SQL查询时,我收到了BufferOverflowException。以下是CSV和数据模式的链接。我实际上在S3中使用GZIP压缩CSV。来自......

回答 1 投票 2

Databricks集群每次启动时都会安装所有软件包

我一直在使用Python / R处理Databricks笔记本。一旦完成工作,我们需要终止集群以节省成本。 (因为我们正在使用机器)。所以我们也要开始......

回答 1 投票 1

使用多个RowTag在Spark中读取XML文件

我想在Apache Spark Dataframes中读取一个包含3个不同RowTag的巨大XML文件。 RowTag = XML元素,您将其解释为Spark中的一行。标签包含不同的数据......

回答 3 投票 -1

在PySpark并行执行上下文中使用JAR依赖项

这是一个PySpark / Databricks项目:我编写了一个Scala JAR库,并通过一个简单的Python包装器将其函数公开为UDF;一切都在我的PySpark笔记本中运行。 ...

回答 1 投票 1

如何在Azure Databricks群集上登录SSH

我使用以下ubuntu命令来访问SSH登录,因为ssh user @ hostname_or_IP能够看到主节点主机名但无法从Azure Databricks集群获取用户名请参阅此...

回答 3 投票 6

如何通过pyspark检查blob是否存在

我试图在数据存储器中将blob存储文件抓取到我的python代码中,只要它存在。如何通过pyspark检查它是否存在?

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.