spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

应用Window函数计算pySpark中的差异

我正在使用pySpark,并设置了我的数据框,其中两列代表每日资产价格,如下所示:ind = sc.parallelize(range(1,5))prices = sc.parallelize([33.3,31.1,51.2,21.3] )data = ...

回答 2 投票 15

计算pyspark数据帧的百分比

我有一个来自泰坦尼克数据的pyspark数据框,我已粘贴下面的副本。如何添加每个桶的百分比列?谢谢您的帮助!

回答 4 投票 1

Spark写csv通过zeppelin失败

Spark 2.1.1.2.6.2.0-205 Zeppelin 0.7.3我在某台机器上运行一段代码,比如服务器-A。代码完成得很好。当我通过Zeppelin运行相同的代码(连接到相同的...

回答 1 投票 1

org.apache.spark.SparkException:对于日期函数,任务不可序列化

我在scala的spark 1.6.2中实现了Kryo序列化。对于以下getdate方法,我得到了“org.apache.spark.SparkException:Task not serializable”。我正在地图中使用以下getdate函数...

回答 1 投票 0

使用多个RowTag在Spark中读取XML文件

我想在Apache Spark Dataframes中读取一个包含3个不同RowTag的巨大XML文件。 RowTag = XML元素,您将其解释为Spark中的一行。标签包含不同的数据......

回答 3 投票 -1

在Spark中获取组的最后一个值

我有一个SparkR DataFrame,如下所示:#Create R data.frame custId

回答 2 投票 5

如何在Spark窗口函数中使用降序的orderby()?

我需要一个窗口函数,它按一些键(=列名称)进行分区,按另一个列名称进行排序,并返回前x行的行。这适用于升序:def getTopX(df:...

回答 2 投票 16

将Spark数据帧列从字符串转换为日期

我有一个从sql上下文构建的spark数据帧。我使用DATE_FORMAT截断了一个datetime字段(时间,'Y / M / d HH:00:00')AS time_hourly现在列类型是一个字符串。我怎样才能转换...

回答 2 投票 1

SparkSQL数据帧保留了分区列

让我们假设我有一个JSON文件,让我们将其命名为foo,其中包含以下内容:{“a”:2,“b”:3}我的目标是根据“a”列编写分区数据。然后从我的代码我做一些事......

回答 1 投票 1

SPARK read.json抛出java.io.IOException:换行前的字节太多了

我在读取一个大的6gb单行json文件时出现以下错误:由于阶段失败而导致作业中止:阶段0.0中的任务5失败1次,最近失败:阶段0.0中丢失的任务5.0(TID 5,...

回答 2 投票 3

如何从spark数据帧中过滤掉null值

我使用以下模式在spark中创建了一个数据框:root | - user_id:long(nullable = false)| - event_id:long(nullable = false)| - invite:integer(nullable = false)| - day_diff: ...

回答 9 投票 40

在使用数据框时获取异常:java.lang.NoSuchMethodError:scala.reflect.api.JavaUniverse.runtimeMirror(Ljava / lang / ClassLoader;)

我在scala应用程序中使用数据帧并使用spark运行它时收到“java.lang.NoSuchMethodError:scala.reflect.api.JavaUniverse.runtimeMirror(Ljava / lang / ClassLoader;)”错误。但是,如果我......

回答 2 投票 6

Spark“用0替换null”性能比较

Spark 1.6.1,Scala api。对于数据帧,我需要将某个列的所有空值替换为0.我有两种方法可以做到这一点。 1. myDF.withColumn(“pipConfidence”,when($“mycol”.isNull,0).otherwise(...

回答 1 投票 7

如何将Spark中`Dataframe`的两列合并为一个2-Tuple?

我有一个包含五列的Spark DataFrame df。我想添加另一列,其值为第一列和第二列的元组。当使用withColumn()方法时,我得到了不匹配...

回答 4 投票 8

如何在PySpark Dataframe中设置显示精度

调用.show()时如何在PySpark中设置显示精度?考虑以下示例:从math import sqrt import pyspark.sql.functions as f data = zip(map(lambda x:sqrt(x),...

回答 1 投票 4

迭代Spark数据帧中的行和列

我有以下动态创建的Spark数据帧:val sf1 = StructField(“name”,StringType,nullable = true)val sf2 = StructField(“sector”,StringType,nullable = true)val sf3 = ...

回答 4 投票 12

在Pyspark展平集团

我有一个pyspark数据帧。例如,d = hiveContext.createDataFrame([(“A”,1),(“B”,2),(“D”,3),(“D”,3),(“A”,4), (“D”,3)],[“Col1”,“Col2”])+ ---- + ---- + | Col1 | Col2 | + ---- + ---- + | A | 1 | ...

回答 2 投票 2

在pyspark中的regexp_replace函数中使用字典

我想使用字典在pyspark数据帧列上执行regexp_replace操作。词典:{'RD':'ROAD','DR':'DRIVE','AVE':'AVENUE',....}这本词典将有大约270个关键...

回答 1 投票 0

Parquet vs Cassandra使用Spark和DataFrames

我已陷入这种困境,我无法选择哪种解决方案对我更好。我有一个非常大的表(几个100GB)和几个较小的(几个GB)。为了创造我的......

回答 2 投票 7

spark 2.1.0 session config settings(pyspark)

我试图覆盖spark会话/ spark上下文默认配置,但它正在挑选整个节点/群集资源。 spark = SparkSession.builder .master(“ip”)......

回答 3 投票 21

© www.soinside.com 2019 - 2024. All rights reserved.