有关Databricks统一分析平台的问题
我正在使用Azure Databricks,并且对Pyspark和大数据不熟悉。这是我的问题:我在Azure Databricks的目录中有几个实木复合地板文件。我想将这些文件读取到pyspark ...
我正在尝试解析字符串并将结果附加到数据框中的新字段?在SQL中,它将像这样工作。更新myDF SET theyear = SUBSTRING(文件名,52,4),SET themonth = SUBSTRING(...
为grep -i shell命令抛出rdd.pipe抛出java.lang.IllegalStateException吗?
[我正在运行在RDD Spark操作中使用管道的代码:我尝试过以下代码段:// PIPE-在spark val中运行外部外壳脚本val x = sc.parallelize(Array(“ A”,“ Ba”,“ C“,” AD“))val y ...
在“数据块”中“ BigInteger将超出支持的范围”插入插入失败
在像这样的数据块中运行插入覆盖时:INSERT OVERWRITE my_target_table SELECT * FROM my_source_table我收到错误:SQL语句错误:SparkException:作业中止。 ...
将Databricks中的R Notebook中的csv文件写入Azure blob存储吗?
我有一个用数据块创建的R笔记本,其中运行了一些代码。 R脚本创建一个csv文件,我需要将其上传到特定的存储帐户blob容器。要访问Blob存储,我...
通过从旧数据框pyspark中选择列将列附加到新创建的数据框中
我正在阅读JSON,我有一个字典(dictn),其键告诉我应该从JSON df中选择哪些列。我正在尝试创建一个新的df,然后将其键从...
我正在学习Spark在Databricks内部的工作方式。我了解改组是如何导致工作阶段的,但我不了解是什么原因导致了工作。我以为这种关系是每个动作一项,但是...
使用Pyspark进行的内部联接不适用于使用分区的csv,常规csv和SQL表创建的数据帧。例如:当我尝试在使用分区csv(...)创建的数据帧上应用内部联接时
在我们的数据管道中,我们从数据源中提取CDC事件,并将这些更改以AVRO格式写入“增量数据”文件夹中。然后定期运行Spark作业以合并此“增量...
我需要对数千个历史文件运行一个简单的ETL流程。我将在Azure Databricks中的pySpark中进行此操作。群集自动扩展到28GB。有关更多背景信息,请参见28GB ...
您如何重命名Databricks中的列?以下内容不起作用:ALTER TABLE mySchema.myTable更改COLUMN old_name new_name int它返回错误:ALTER TABLE CHANGE COLUMN不是...
如何从Databricks连接到HDInsight Hadoop群集
您能帮我从Databricks笔记本中找到与HDInsight Hadoop集群(首先是HDFS)进行交互的正确方法吗?现在,我尝试使用pyarrow库,如下所示:hdfs1 = ...
我写这不是为了问问题,而是分享知识。我正在使用Spark连接到雪花。但是我无法访问雪花。 ...
我正在使用CTAS下面的命令使用SparkSQL创建表。创建作为ORC位置存储的表TBL2“ dbfs:/ loc” TBLPROPERTIES(“ orc.compress” =“ SNAPPY”)AS SELECT Col1,ColNext2,...
我想在数据块上运行气流DAG。我已经在databricks上安装了apache-airflow 1.9.0(python3软件包)。在databricks笔记本中,我使用了:%sh airflow list_dags我得到了--------...
我有一个示例项目mypackg,结构如下:-mypackg *应用程序代码* __init__.py * file1.py * file2.py * dbutils * __init__.py * file3.py ...
我正在尝试对数据块使用气流。我已经从https://pypi.org/project/apache-airflow/安装了apache-airflow 1.10.6。我在databricks上使用python3.6。但是,我收到了错误消息:import ...
我正在尝试使用下面的代码。 import com.microsoft.azure.sqldb.spark.config.Config import com.microsoft.azure.sqldb.spark.connect._ //获取DataFrame集合(val集合)val config = ...
我正在使用位于以下位置的库:https://github.com/springml/spark-sftp使用命令(当然使用我的凭据):df.write。格式(“ com.springml.spark.sftp”)。 option(“ host”,...
当我尝试在Spark(Scala)的一列中将句号“。”替换为“-”时,它将所有字符替换为“-”
val df3 = df2.withColumn(“ Current Ver”,regexp_replace(col(“ Current Ver”),“。”,“-”))df3.show()例如-如果列包含“ 2.4.0” ,执行命令后,输出为“ ------”。