databricks 相关问题

有关Databricks统一分析平台的问题

TypeError:无法pickle生成器对象:由于不可序列化的生成器返回类型(dict_key),Spark collect()失败

我有一个库函数,它返回一个包含生成器的复合对象,这些生成器无法被pickle(尝试pickle生成错误TypeError:无法pickle dict_keys对象)。当我试着......

回答 1 投票 1

使用dataframe.withColumn和变量似乎不起作用

我正在尝试编写如下语句:profileId =“some value”df.withColumn(“ProfileId”,col(profileId))并在DataBricks上获得AnalysisException。据我所知,这......

回答 1 投票 0

如何使用Python递归地对包含子文件夹的文件夹中的文件名进行排序

我是Python新手并使用Databricks。我有一个包含多个子文件夹的文件夹,其中包含文件名如下的文件:输入(A_B)===== 1_1.json.gz 1_22.json.gz 7_33.json.gz 1_4.json.gz ...

回答 1 投票 1

如何将日志从Azure Databricks重定向到另一个目标?

我们可以使用一些帮助来解决如何将Spark驱动程序和工作日志发送到Azure Databricks外部的目的地,例如Azure Blob存储或使用Eleastic-beats进行弹性搜索。配置时......

回答 1 投票 2

Databricks中的显式表分区如何影响写入性能?

我们有以下场景:我们有一个包含大约的现有表。 150亿条记录。它没有在创建时明确分区。我们正在用分区创建此表的副本,...

回答 2 投票 5

如何使用Spark从DBFS目录加载和处理多个csv文件

我想在从DBFS(Databricks FileSystem)读取的每个文件上运行以下代码。我在文件夹中的所有文件上测试了它,但是我想对...中的每个文件进行类似的计算。

回答 1 投票 2

如何使用ARM模板创建Databricks Cluster

我想使用ARM模板创建Databricks Cluster。是否支持?如果支持请提供一些参考。以下是使用ARM模板创建Databricks工作区的代码“...

回答 2 投票 0

无法在Databricks R Notebook中安装RGLPK

我在安装R包时遇到以下问题。上下文:我正在研究优化问题,我必须使用RGLPK包来实现线性编程所需的功能。这是 ...

回答 1 投票 0

在Azure Databricks中的日期范围之间读取镶木地板文件的有效方法

我想知道下面的伪代码是否是从PySpark(Azure Databricks)中存储在Azure Data Lake中的日期范围之间读取多个镶木地板文件的有效方法。注意:镶木地板文件是......

回答 1 投票 1

PySpark,在数据帧中创建没有“类别”的数据帧的折线图

我在databricks上运行以下代码:dataToShow = jDataJoined。\ withColumn('id',monotonically_increasing_id())。\ filter((jDataJoined.containerNumber =='SUDU8108536'))。\ select(col('id') ...

回答 1 投票 0

Databricks - 在Python中创建函数(UDF)

我怎么能创建一个类似于https://docs.databricks.com/spark/latest/spark-sql/language-manual/create-function.html#create-function的函数,但在python中定义函数?我已经做了 ...

回答 1 投票 2

Databricks集群未初始化Azure库时出错:模块'lib'没有属性'SSL_ST_INIT'

我使用Azure DataBricks笔记本和Azure库来获取Blob存储中的文件列表。此任务已计划,并在完成作业后终止集群,并在新运行时再次启动。 ...

回答 1 投票 0

写入SQL DW的Databricks / Spark数据正在删除表并重新创建它

在Azure SQL DW中,我有一个空表(比如表T1)。假设T1有4列C1,C2,C3和C4(C4不为空)我在Databricks中有一个数据帧(比如df1),它有C1,C2和C3的数据我...

回答 1 投票 0

使用Python在Databricks中使用XGBoost

所以最近我一直在使用Mlib Databricks集群,看到根据文档,XGBoost可用于我的集群版本(5.1)。这个集群正在运行Python 2.我感觉......

回答 1 投票 0

将S3安装到数据库

我正在尝试理解mount是如何工作的。我有一个名为myB的S3存储桶,其中有一个名为test的文件夹。我使用var AwsBucketName =“myB”val挂载MountName =“myB”我的问题是:它做到了......

回答 2 投票 2

Azure Databrick的UI定义

我很想知道Databricks ARM模板中的uiDefinitionUri用于什么,应该提供什么样的文件。我可以看到字符串是输入类型,值是“...

回答 1 投票 0

Pyspark UDF比较稀疏向量

我正在尝试编写一个pyspark UDF,它将为我比较两个稀疏向量。我想写的是:从pyspark.sql.functions导入udf从pyspark.sql.types导入ArrayType,...

回答 1 投票 0

如何在Databricks /%运行中引用笔记本的路径?

我熟悉Databricks中的%run magic命令,但笔记本实际上在哪里?使用%sh pwd的rootdir似乎是/ databricks / driver。让Python寻找笔记本......

回答 1 投票 3

使用事件中心将数据流式传输到Azure Databricks

我想将消息从Twitter应用程序发送到Azure事件中心。但是,我得到一个错误,而不是java.util.concurrent.ExecutorService使用java.util.concurrent ....

回答 1 投票 0

在没有Spark群集的情况下运行Azure Databricks

我已经使用了Domino Data Lab一段时间了,我可以用一台机器启动Python或R会话,而不使用Spark。是否可以使用Azure Databricks进行相同的操作?那就是......

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.