spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

禁用火花催化剂优化器

为了给出一些背景知识，我试图在Spark上使用和不使用Spark的催化剂优化器来运行TPCDS基准测试。对于较小数据集的复杂查询，我们可能会花费更多时间来优化...

apache-spark optimization apache-spark-sql spark-dataframe query-optimization

回答 2 投票 5

展平嵌套的Spark Dataframe

有没有办法压缩任意嵌套的Spark Dataframe？我所看到的大部分工作都是针对特定架构编写的，我希望能够通过不同的方式将Dataframe一般扁平化。

apache-spark pyspark spark-dataframe

回答 3 投票 6

将Pandas DataFrame转换为Spark DataFrame

我曾经问过一个关于如何将scipy稀疏矩阵转换为pyspark.sql.dataframe.DataFrame的问题，并在阅读了所提供的答案以及本文后取得了一些进展。一世 ...

python pandas dataframe pyspark spark-dataframe

回答 2 投票 7

在Spark上生成确定性ID列

我使用Spark窗口函数row_number（）为具有嵌套结构的复杂DataFrame生成ID。然后，我提取部分DataFrame以创建多个表作为输出，...

apache-spark apache-spark-sql spark-dataframe row-number

回答 1 投票 1

如何在Pyspark中使用collect（）方法将pyspark.rdd.PipelinedRDD转换为数据框？

我有pyspark.rdd.PipelinedRDD（Rdd1）。当我在做Rdd1.collect（）时，它给出的结果如下。 [（10，{3：3.616726727464709,4：2.9996439803387602,5：1.6767412921625855}），（1，{3：2 ....

python-3.x apache-spark pyspark apache-spark-sql spark-dataframe

回答 4 投票 1

将PipelinedRDD转换为数据帧

我正在尝试将pyspark中的pipelinedRDD转换为数据帧。这是代码片段：newRDD = rdd.map（lambda row：Row（row .__ fields __ [“tag”]）（row +（tagScripts（row），）））df = newRDD.toDF（）...

python lambda pyspark spark-dataframe rdd

回答 1 投票 0

如何在Spark中增加小数精度？

我有一个大型DataFrame，由~550列双精度和两列long（id）组成。正在从csv读入550列，我添加了两个id列。我做的唯一其他事情......

python scala apache-spark spark-dataframe bigdata

回答 1 投票 3

如何在Apache Spark中并行运行两个SparkSql查询

首先，让我在spark上的.scala文件中编写我想要执行的代码部分。这是我的源文件。它有四个字段的结构化数据val inputFile = sc.textFile（“hdfs：// Hadoop1：9000 / ...

scala apache-spark apache-spark-sql spark-dataframe

回答 4 投票 1

根据列的最大值过滤火花数据帧

我想做这样的事情：df .withColumn（“newCol”，）.filter（s“”“newCol> $ {（math.min（max（”newCol“）。asInstanceOf [Double]，10））}”“”）异常我得到：org.apache ....

scala apache-spark spark-dataframe

回答 3 投票 0

Apache Spark记录扩展计划

我想记录df.explain（true）我想看看物理和逻辑计划。我没有在文档中的任何地方找到如何使用log4j.properties查看它的源代码...

apache-spark spark-dataframe

回答 1 投票 2

Spark scala删除仅包含空值的列

有没有办法删除只包含空值的spark dataFrame的列？（我正在使用scala和Spark 1.6.2）目前我正在这样做：var validCols：List [String] = List（）for（...

scala null spark-dataframe

回答 2 投票 6

按火花组分组

我有一个包含4列co1，col2，col3和col4的数据框。我需要：基于键col1和col2对数据帧进行分组然后将其他列（如col3和col4）分组，并显示col3和col4的计数。 ...

scala apache-spark spark-dataframe

回答 3 投票 2

Pyspark：显示数据框列的直方图

在pandas数据框中，我使用以下代码绘制列的直方图：my_df.hist（column ='field_1'）在pyspark数据框中是否可以实现相同的目标？（我在 ...

python pyspark spark-dataframe jupyter-notebook

回答 5 投票 14

如何解决Spark中的AnalysisException：resolved属性

val rdd = sc.parallelize（Seq（（“vskp”，Array（2.0,1.0,2.1,5.4）），（“length”，Array（1.5,0.5,0.9,3.7））），（“length”，Array（ 1.5,0.5,0.9,3.2）），（“tvm”，数组（8.0,2.9,9.1,2.5））））val df1 = rdd.toDF（“id”，“vals”......

java scala spark-dataframe

回答 6 投票 14

解压缩列表以从火花数据框中选择多个列

我有一个火花数据帧df。有没有办法使用这些列的列表选择几列？ scala> df.columns res0：Array [String] = Array（“a”，“b”，“c”，“d”）我知道我能做到......

apache-spark apache-spark-sql spark-dataframe

回答 7 投票 38

使用start-all.sh启动spark时出错

当我尝试使用脚本start-all.sh启动spark时，它会抛出一个错误，因为> localhost：无法启动：nice -n 0 bin / spark-class> org.apache.spark.deploy.worker.Worker - webui-port ...

scala apache-spark spark-dataframe

回答 2 投票 2

将spark DataFrame列转换为python列表

我处理一个包含两列mvv和count的数据帧。 + --- + ----- + | mvv | count | + --- + ----- + | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |我想获得两个包含mvv值的列表和...

python apache-spark pyspark spark-dataframe

回答 6 投票 59

DataFrame partitionBy嵌套列

我试图在嵌套字段上调用partitionBy，如下所示：val rawJson = sqlContext.read.json（filename）rawJson.write.partitionBy（“data.dataDetails.name”）。parquet（filenameParquet）我得到以下内容...

apache-spark apache-spark-sql spark-dataframe

回答 2 投票 6

如何过滤pyspark中列表中值的列？

我有一个数据帧rawdata，我必须在列X上应用值CB，CI和CR的过滤条件。所以我使用下面的代码：df = dfRawData.filter（col（“X”）。between（“CB”，“CI”，“CR”））但我是......

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 1 投票 4

如何交叉加入2个数据帧？

我正在努力获得2个数据帧的CROSS JOIN。我正在使用spark 2.0。如何用2个数据帧实现CROSSS JOIN。编辑：val df = df.join（df_t1，df（“Col1”）=== df_t1（“col”））。join（df2，...

apache-spark apache-spark-sql spark-dataframe

回答 3 投票 2

spark-dataframe 相关问题

最新问题