databricks 相关问题

有关Databricks统一分析平台的问题

如何使用Pyspark并行处理多个实木复合地板文件?

我正在使用Azure Databricks,并且对Pyspark和大数据不熟悉。这是我的问题:我在Azure Databricks的目录中有几个实木复合地板文件。我想将这些文件读取到pyspark ...

回答 1 投票 0

如何根据字符数解析字符串?

我正在尝试解析字符串并将结果附加到数据框中的新字段?在SQL中,它将像这样工作。更新myDF SET theyear = SUBSTRING(文件名,52,4),SET themonth = SUBSTRING(...

回答 2 投票 1

为grep -i shell命令抛出rdd.pipe抛出java.lang.IllegalStateException吗?

[我正在运行在RDD Spark操作中使用管道的代码:我尝试过以下代码段:// PIPE-在spark val中运行外部外壳脚本val x = sc.parallelize(Array(“ A”,“ Ba”,“ C“,” AD“))val y ...

回答 1 投票 0

在“数据块”中“ BigInteger将超出支持的范围”插入插入失败

在像这样的数据块中运行插入覆盖时:INSERT OVERWRITE my_target_table SELECT * FROM my_source_table我收到错误:SQL语句错误:SparkException:作业中止。 ...

回答 1 投票 0

将Databricks中的R Notebook中的csv文件写入Azure blob存储吗?

我有一个用数据块创建的R笔记本,其中运行了一些代码。 R脚本创建一个csv文件,我需要将其上传到特定的存储帐户blob容器。要访问Blob存储,我...

回答 1 投票 0

通过从旧数据框pyspark中选择列将列附加到新创建的数据框中

我正在阅读JSON,我有一个字典(dictn),其键告诉我应该从JSON df中选择哪些列。我正在尝试创建一个新的df,然后将其键从...

回答 1 投票 0

什么触发了Spark中的工作?

我正在学习Spark在Databricks内部的工作方式。我了解改组是如何导致工作阶段的,但我不了解是什么原因导致了工作。我以为这种关系是每个动作一项,但是...

回答 2 投票 1

在数据块中使用Pyspark(Python)联接不起作用

使用Pyspark进行的内部联接不适用于使用分区的csv,常规csv和SQL表创建的数据帧。例如:当我尝试在使用分区csv(...)创建的数据帧上应用内部联接时

回答 1 投票 0

Delta Lake:内部增补如何工作?

在我们的数据管道中,我们从数据源中提取CDC事件,并将这些更改以AVRO格式写入“增量数据”文件夹中。然后定期运行Spark作业以合并此“增量...

回答 1 投票 2

pySpark ETL跨越许多文件

我需要对数千个历史文件运行一个简单的ETL流程。我将在Azure Databricks中的pySpark中进行此操作。群集自动扩展到28GB。有关更多背景信息,请参见28GB ...

回答 1 投票 0

如何重命名Databricks中的列

您如何重命名Databricks中的列?以下内容不起作用:ALTER TABLE mySchema.myTable更改COLUMN old_name new_name int它返回错误:ALTER TABLE CHANGE COLUMN不是...

回答 1 投票 0

如何从Databricks连接到HDInsight Hadoop群集

您能帮我从Databricks笔记本中找到与HDInsight Hadoop集群(首先是HDFS)进行交互的正确方法吗?现在,我尝试使用pyarrow库,如下所示:hdfs1 = ...

回答 2 投票 0

从Spark到雪花的连接

我写这不是为了问问题,而是分享知识。我正在使用Spark连接到雪花。但是我无法访问雪花。 ...

回答 1 投票 6

创建PySpark数据框,而无需更改列名

我正在使用CTAS下面的命令使用SparkSQL创建表。创建作为ORC位置存储的表TBL2“ dbfs:/ loc” TBLPROPERTIES(“ orc.compress” =“ SNAPPY”)AS SELECT Col1,ColNext2,...

回答 1 投票 1

可视化数据块上的气流DAG

我想在数据块上运行气流DAG。我已经在databricks上安装了apache-airflow 1.9.0(python3软件包)。在databricks笔记本中,我使用了:%sh airflow list_dags我得到了--------...

回答 1 投票 0

[导入数据块中的python依赖项(无法导入模块)

我有一个示例项目mypackg,结构如下:-mypackg *应用程序代码* __init__.py * file1.py * file2.py * dbutils * __init__.py * file3.py ...

回答 1 投票 0

尝试在数据块上运行气流,但出现错误

我正在尝试对数据块使用气流。我已经从https://pypi.org/project/apache-airflow/安装了apache-airflow 1.10.6。我在databricks上使用python3.6。但是,我收到了错误消息:import ...

回答 1 投票 0

使用Scala将DF写入SQL Server表中

我正在尝试使用下面的代码。 import com.microsoft.azure.sqldb.spark.config.Config import com.microsoft.azure.sqldb.spark.connect._ //获取DataFrame集合(val集合)val config = ...

回答 1 投票 0

Databricks SFTP-空指针

我正在使用位于以下位置的库:https://github.com/springml/spark-sftp使用命令(当然使用我的凭据):df.write。格式(“ com.springml.spark.sftp”)。 option(“ host”,...

回答 1 投票 1

当我尝试在Spark(Scala)的一列中将句号“。”替换为“-”时,它将所有字符替换为“-”

val df3 = df2.withColumn(“ Current Ver”,regexp_replace(col(“ Current Ver”),“。”,“-”))df3.show()例如-如果列包含“ 2.4.0” ,执行命令后,输出为“ ------”。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.