Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
我正在使用pySpark,并设置了我的数据框,其中两列代表每日资产价格,如下所示:ind = sc.parallelize(range(1,5))prices = sc.parallelize([33.3,31.1,51.2,21.3] )data = ...
我有一个来自泰坦尼克数据的pyspark数据框,我已粘贴下面的副本。如何添加每个桶的百分比列?谢谢您的帮助!
Spark 2.1.1.2.6.2.0-205 Zeppelin 0.7.3我在某台机器上运行一段代码,比如服务器-A。代码完成得很好。当我通过Zeppelin运行相同的代码(连接到相同的...
org.apache.spark.SparkException:对于日期函数,任务不可序列化
我在scala的spark 1.6.2中实现了Kryo序列化。对于以下getdate方法,我得到了“org.apache.spark.SparkException:Task not serializable”。我正在地图中使用以下getdate函数...
我想在Apache Spark Dataframes中读取一个包含3个不同RowTag的巨大XML文件。 RowTag = XML元素,您将其解释为Spark中的一行。标签包含不同的数据......
我有一个SparkR DataFrame,如下所示:#Create R data.frame custId
我需要一个窗口函数,它按一些键(=列名称)进行分区,按另一个列名称进行排序,并返回前x行的行。这适用于升序:def getTopX(df:...
我有一个从sql上下文构建的spark数据帧。我使用DATE_FORMAT截断了一个datetime字段(时间,'Y / M / d HH:00:00')AS time_hourly现在列类型是一个字符串。我怎样才能转换...
让我们假设我有一个JSON文件,让我们将其命名为foo,其中包含以下内容:{“a”:2,“b”:3}我的目标是根据“a”列编写分区数据。然后从我的代码我做一些事......
SPARK read.json抛出java.io.IOException:换行前的字节太多了
我在读取一个大的6gb单行json文件时出现以下错误:由于阶段失败而导致作业中止:阶段0.0中的任务5失败1次,最近失败:阶段0.0中丢失的任务5.0(TID 5,...
我使用以下模式在spark中创建了一个数据框:root | - user_id:long(nullable = false)| - event_id:long(nullable = false)| - invite:integer(nullable = false)| - day_diff: ...
我在scala应用程序中使用数据帧并使用spark运行它时收到“java.lang.NoSuchMethodError:scala.reflect.api.JavaUniverse.runtimeMirror(Ljava / lang / ClassLoader;)”错误。但是,如果我......
Spark 1.6.1,Scala api。对于数据帧,我需要将某个列的所有空值替换为0.我有两种方法可以做到这一点。 1. myDF.withColumn(“pipConfidence”,when($“mycol”.isNull,0).otherwise(...
如何将Spark中`Dataframe`的两列合并为一个2-Tuple?
我有一个包含五列的Spark DataFrame df。我想添加另一列,其值为第一列和第二列的元组。当使用withColumn()方法时,我得到了不匹配...
调用.show()时如何在PySpark中设置显示精度?考虑以下示例:从math import sqrt import pyspark.sql.functions as f data = zip(map(lambda x:sqrt(x),...
我有以下动态创建的Spark数据帧:val sf1 = StructField(“name”,StringType,nullable = true)val sf2 = StructField(“sector”,StringType,nullable = true)val sf3 = ...
我有一个pyspark数据帧。例如,d = hiveContext.createDataFrame([(“A”,1),(“B”,2),(“D”,3),(“D”,3),(“A”,4), (“D”,3)],[“Col1”,“Col2”])+ ---- + ---- + | Col1 | Col2 | + ---- + ---- + | A | 1 | ...
在pyspark中的regexp_replace函数中使用字典
我想使用字典在pyspark数据帧列上执行regexp_replace操作。词典:{'RD':'ROAD','DR':'DRIVE','AVE':'AVENUE',....}这本词典将有大约270个关键...
Parquet vs Cassandra使用Spark和DataFrames
我已陷入这种困境,我无法选择哪种解决方案对我更好。我有一个非常大的表(几个100GB)和几个较小的(几个GB)。为了创造我的......
spark 2.1.0 session config settings(pyspark)
我试图覆盖spark会话/ spark上下文默认配置,但它正在挑选整个节点/群集资源。 spark = SparkSession.builder .master(“ip”)......