spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

我正在使用pySpark，并设置了我的数据框，其中两列代表每日资产价格，如下所示：ind = sc.parallelize（range（1,5））prices = sc.parallelize（[33.3,31.1,51.2,21.3] ）data = ...

pyspark spark-dataframe window-functions pyspark-sql

回答 2 投票 15

计算pyspark数据帧的百分比

我有一个来自泰坦尼克数据的pyspark数据框，我已粘贴下面的副本。如何添加每个桶的百分比列？谢谢您的帮助！

apache-spark pyspark spark-dataframe

回答 4 投票 1

Spark写csv通过zeppelin失败

Spark 2.1.1.2.6.2.0-205 Zeppelin 0.7.3我在某台机器上运行一段代码，比如服务器-A。代码完成得很好。当我通过Zeppelin运行相同的代码（连接到相同的...

apache-spark spark-dataframe apache-zeppelin

回答 1 投票 1

org.apache.spark.SparkException：对于日期函数，任务不可序列化

我在scala的spark 1.6.2中实现了Kryo序列化。对于以下getdate方法，我得到了“org.apache.spark.SparkException：Task not serializable”。我正在地图中使用以下getdate函数...

scala apache-spark spark-dataframe

回答 1 投票 0

使用多个RowTag在Spark中读取XML文件

我想在Apache Spark Dataframes中读取一个包含3个不同RowTag的巨大XML文件。 RowTag = XML元素，您将其解释为Spark中的一行。标签包含不同的数据......

spark-dataframe databricks apache-spark-xml

回答 3 投票 -1

在Spark中获取组的最后一个值

我有一个SparkR DataFrame，如下所示：#Create R data.frame custId

apache-spark pyspark spark-dataframe sparkr

回答 2 投票 5

如何在Spark窗口函数中使用降序的orderby（）？

我需要一个窗口函数，它按一些键（=列名称）进行分区，按另一个列名称进行排序，并返回前x行的行。这适用于升序：def getTopX（df：...

scala apache-spark apache-spark-sql spark-dataframe

回答 2 投票 16

将Spark数据帧列从字符串转换为日期

我有一个从sql上下文构建的spark数据帧。我使用DATE_FORMAT截断了一个datetime字段（时间，'Y / M / d HH：00：00'）AS time_hourly现在列类型是一个字符串。我怎样才能转换...

apache-spark spark-dataframe

回答 2 投票 1

SparkSQL数据帧保留了分区列

让我们假设我有一个JSON文件，让我们将其命名为foo，其中包含以下内容：{“a”：2，“b”：3}我的目标是根据“a”列编写分区数据。然后从我的代码我做一些事......

apache-spark apache-spark-sql spark-dataframe

回答 1 投票 1

SPARK read.json抛出java.io.IOException：换行前的字节太多了

我在读取一个大的6gb单行json文件时出现以下错误：由于阶段失败而导致作业中止：阶段0.0中的任务5失败1次，最近失败：阶段0.0中丢失的任务5.0（TID 5，...

json apache-spark pyspark spark-dataframe bigdata

回答 2 投票 3

如何从spark数据帧中过滤掉null值

我使用以下模式在spark中创建了一个数据框：root | - user_id：long（nullable = false）| - event_id：long（nullable = false）| - invite：integer（nullable = false）| - day_diff： ...

scala apache-spark apache-spark-sql spark-dataframe

回答 9 投票 40

在使用数据框时获取异常：java.lang.NoSuchMethodError：scala.reflect.api.JavaUniverse.runtimeMirror（Ljava / lang / ClassLoader;）

我在scala应用程序中使用数据帧并使用spark运行它时收到“java.lang.NoSuchMethodError：scala.reflect.api.JavaUniverse.runtimeMirror（Ljava / lang / ClassLoader;）”错误。但是，如果我......

scala apache-spark spark-dataframe bigdata

回答 2 投票 6

Spark“用0替换null”性能比较

Spark 1.6.1，Scala api。对于数据帧，我需要将某个列的所有空值替换为0.我有两种方法可以做到这一点。 1. myDF.withColumn（“pipConfidence”，when（$“mycol”.isNull，0）.otherwise（...

apache-spark spark-dataframe

回答 1 投票 7

如何将Spark中`Dataframe`的两列合并为一个2-Tuple？

我有一个包含五列的Spark DataFrame df。我想添加另一列，其值为第一列和第二列的元组。当使用withColumn（）方法时，我得到了不匹配...

scala apache-spark-sql spark-dataframe

回答 4 投票 8

如何在PySpark Dataframe中设置显示精度

调用.show（）时如何在PySpark中设置显示精度？考虑以下示例：从math import sqrt import pyspark.sql.functions as f data = zip（map（lambda x：sqrt（x），...

pyspark spark-dataframe

回答 1 投票 4

迭代Spark数据帧中的行和列

我有以下动态创建的Spark数据帧：val sf1 = StructField（“name”，StringType，nullable = true）val sf2 = StructField（“sector”，StringType，nullable = true）val sf3 = ...

scala apache-spark apache-spark-sql spark-dataframe

回答 4 投票 12

在Pyspark展平集团

我有一个pyspark数据帧。例如，d = hiveContext.createDataFrame（[（“A”，1），（“B”，2），（“D”，3），（“D”，3），（“A”，4），（“D”，3）]，[“Col1”，“Col2”]）+ ---- + ---- + | Col1 | Col2 | + ---- + ---- + | A | 1 | ...

group-by pyspark spark-dataframe

回答 2 投票 2

在pyspark中的regexp_replace函数中使用字典

我想使用字典在pyspark数据帧列上执行regexp_replace操作。词典：{'RD'：'ROAD'，'DR'：'DRIVE'，'AVE'：'AVENUE'，....}这本词典将有大约270个关键...

regex dictionary pyspark spark-dataframe

回答 1 投票 0

Parquet vs Cassandra使用Spark和DataFrames

我已陷入这种困境，我无法选择哪种解决方案对我更好。我有一个非常大的表（几个100GB）和几个较小的（几个GB）。为了创造我的......

apache-spark cassandra spark-dataframe parquet

回答 2 投票 7

spark 2.1.0 session config settings（pyspark）

我试图覆盖spark会话/ spark上下文默认配置，但它正在挑选整个节点/群集资源。 spark = SparkSession.builder .master（“ip”）......