spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

禁用火花催化剂优化器

为了给出一些背景知识,我试图在Spark上使用和不使用Spark的催化剂优化器来运行TPCDS基准测试。对于较小数据集的复杂查询,我们可能会花费更多时间来优化...

回答 2 投票 5

展平嵌套的Spark Dataframe

有没有办法压缩任意嵌套的Spark Dataframe?我所看到的大部分工作都是针对特定架构编写的,我希望能够通过不同的方式将Dataframe一般扁平化。

回答 3 投票 6

将Pandas DataFrame转换为Spark DataFrame

我曾经问过一个关于如何将scipy稀疏矩阵转换为pyspark.sql.dataframe.DataFrame的问题,并在阅读了所提供的答案以及本文后取得了一些进展。一世 ...

回答 2 投票 7

在Spark上生成确定性ID列

我使用Spark窗口函数row_number()为具有嵌套结构的复杂DataFrame生成ID。然后,我提取部分DataFrame以创建多个表作为输出,...

回答 1 投票 1

如何在Pyspark中使用collect()方法将pyspark.rdd.PipelinedRDD转换为数据框?

我有pyspark.rdd.PipelinedRDD(Rdd1)。当我在做Rdd1.collect()时,它给出的结果如下。 [(10,{3:3.616726727464709,4:2.9996439803387602,5:1.6767412921625855}),(1,{3:2 ....

回答 4 投票 1

将PipelinedRDD转换为数据帧

我正在尝试将pyspark中的pipelinedRDD转换为数据帧。这是代码片段:newRDD = rdd.map(lambda row:Row(row .__ fields __ [“tag”])(row +(tagScripts(row),)))df = newRDD.toDF()...

回答 1 投票 0

如何在Spark中增加小数精度?

我有一个大型DataFrame,由~550列双精度和两列long(id)组成。正在从csv读入550列,我添加了两个id列。我做的唯一其他事情......

回答 1 投票 3

如何在Apache Spark中并行运行两个SparkSql查询

首先,让我在spark上的.scala文件中编写我想要执行的代码部分。这是我的源文件。它有四个字段的结构化数据val inputFile = sc.textFile(“hdfs:// Hadoop1:9000 / ...

回答 4 投票 1

根据列的最大值过滤火花数据帧

我想做这样的事情:df .withColumn(“newCol”, ).filter(s“”“newCol> $ {(math.min(max(”newCol“)。asInstanceOf [Double],10))}”“”)异常我得到:org.apache ....

回答 3 投票 0

Apache Spark记录扩展计划

我想记录df.explain(true)我想看看物理和逻辑计划。我没有在文档中的任何地方找到如何使用log4j.properties查看它的源代码...

回答 1 投票 2

Spark scala删除仅包含空值的列

有没有办法删除只包含空值的spark dataFrame的列? (我正在使用scala和Spark 1.6.2)目前我正在这样做:var validCols:List [String] = List()for(...

回答 2 投票 6

按火花组分组

我有一个包含4列co1,col2,col3和col4的数据框。我需要:基于键col1和col2对数据帧进行分组然后将其他列(如col3和col4)分组,并显示col3和col4的计数。 ...

回答 3 投票 2

Pyspark:显示数据框列的直方图

在pandas数据框中,我使用以下代码绘制列的直方图:my_df.hist(column ='field_1')在pyspark数据框中是否可以实现相同的目标? (我在 ...

回答 5 投票 14

如何解决Spark中的AnalysisException:resolved属性

val rdd = sc.parallelize(Seq((“vskp”,Array(2.0,1.0,2.1,5.4)),(“length”,Array(1.5,0.5,0.9,3.7))),(“length”,Array( 1.5,0.5,0.9,3.2)),(“tvm”,数组(8.0,2.9,9.1,2.5))))val df1 = rdd.toDF(“id”,“vals”......

回答 6 投票 14

解压缩列表以从火花数据框中选择多个列

我有一个火花数据帧df。有没有办法使用这些列的列表选择几列? scala> df.columns res0:Array [String] = Array(“a”,“b”,“c”,“d”)我知道我能做到......

回答 7 投票 38

使用start-all.sh启动spark时出错

当我尝试使用脚本start-all.sh启动spark时,它会抛出一个错误,因为> localhost:无法启动:nice -n 0 bin / spark-class> org.apache.spark.deploy.worker.Worker - webui-port ...

回答 2 投票 2

将spark DataFrame列转换为python列表

我处理一个包含两列mvv和count的数据帧。 + --- + ----- + | mvv | count | + --- + ----- + | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |我想获得两个包含mvv值的列表和...

回答 6 投票 59

DataFrame partitionBy嵌套列

我试图在嵌套字段上调用partitionBy,如下所示:val rawJson = sqlContext.read.json(filename)rawJson.write.partitionBy(“data.dataDetails.name”)。parquet(filenameParquet)我得到以下内容...

回答 2 投票 6

如何过滤pyspark中列表中值的列?

我有一个数据帧rawdata,我必须在列X上应用值CB,CI和CR的过滤条件。所以我使用下面的代码:df = dfRawData.filter(col(“X”)。between(“CB”,“CI”,“CR”))但我是......

回答 1 投票 4

如何交叉加入2个数据帧?

我正在努力获得2个数据帧的CROSS JOIN。我正在使用spark 2.0。如何用2个数据帧实现CROSSS JOIN。编辑:val df = df.join(df_t1,df(“Col1”)=== df_t1(“col”))。join(df2,...

回答 3 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.