spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

pyspark.sql.utils.IllegalArgumentException:u'Field“features”不存在。

我正在尝试执行随机森林分类器并使用交叉验证来评估模型。我使用pySpark。输入CSV文件作为Spark DataFrame格式加载。但我面临一个问题......

回答 2 投票 0

如何通过Spark python启用SSL连接到MySql Rds?

如何通过Spark python启用SSL连接到MySql Rds ?????我们可以用ssl连接到Mysql RDS。可以任何人告诉我们需要做什么配置?

回答 1 投票 0

有没有更好的方法来转换数组 到阵列 在pyspark

一个非常巨大的DataFrame with schema:root | - id:string(nullable = true)| - ext:array(nullable = true)| | - element:integer(containsNull = true)到目前为止,我试图爆炸数据,然后......

回答 1 投票 2

spark数据帧排序的地图列保存到hive回到随机状态

我是新来的火花,我试图在火花数据帧中使用udf排序地图类型列,之后我尝试将数据保存到hive,代码如下:val vectorHead = udf {(z:SparseVector,.. 。

回答 1 投票 1

如何使用Apache Spark加载嵌套列的csv

我有一个csv文件:name,age,phonenumbers Tom,20,“[{number:100200,area_code:555},{number:100300,area_code:444}]”Harry,20,“[{number:100400,area_code :555},{number:100500,area_code:666}]“我怎么能......

回答 1 投票 0

DataFrame Write PartitionBy - 无法参数化多个列

创建一个接受TableName和Partition列作为输入的通用代码。但是在尝试将数据帧写为分区表时遇到问题。 partAttr ='product_category_id,product_id'......

回答 1 投票 0

使用Spark读取Oracle数据库中的所有表

目标:从Spark中的oracle数据库中读取所有表。调查结果:我已经编写了读取单个表的代码。我可以多次重复使用它来读取多个表但是这将连接...

回答 1 投票 -1

如何检索从Spark UI写入的输出大小和记录等指标?

如何在任务或作业完成后立即在控制台(Spark Shell或Spark提交作业)上收集这些指标。我们使用Spark将数据从Mysql加载到Cassandra并且它非常庞大(例如:〜...

回答 1 投票 9

从包含嵌套值的Spark列中提取值[duplicate]

这是我的mongodb集合模式的一部分:| - variables:struct(nullable = true)| | - actives:struct(nullable = true)| | | - data:struct(nullable = true)| | | ...

回答 1 投票 2

在将数据写入spark scala之前,将所有null替换为空格

这就是我用“”替换所有null的方法。 val dfMainOutputFinalWithoutNull = dfMainOutputFinal.withColumn(“concatenated”,regexp_replace(col(“concatenated”),“null”,“”))。withColumnRenamed(“...

回答 2 投票 -1

Spark Avro引发:引起:java.lang.IllegalArgumentException:object不是声明类的实例

我正在尝试创建一个数据帧并以avro格式写入结果。这给出了主题中提到的IllegalArgumentException异常。如果我将其保存为...它正常工作

回答 1 投票 0

使用spark数据帧广播哈希联接

我试图在Spark 1.6.0中进行广播散列连接,但无法成功。下面是示例:val DF1 = sqlContext.read.parquet(“path1”)val DF2 = sqlContext.read.parquet(“path2”)val Join = ...

回答 1 投票 1

Spark DataFrame java.lang.OutOfMemoryError:长循环运行时超出了GC开销限制

我正在运行Spark应用程序(Spark 1.6.3集群),它对2个小数据集进行一些计算,并将结果写入S3 Parquet文件。这是我的代码:public void doWork(...

回答 2 投票 1

什么时候Spark会自动清理缓存的RDD?

已缓存的RDD使用scala终端中的rdd.cache()方法存储在内存中。这意味着它将消耗部分可用于Spark的ram ......

回答 2 投票 1

Spark:数据帧序列化

我有2个关于Spark序列化的问题,我只能通过谷歌搜索找不到答案。如何打印出当前使用的序列化程序的名称;我想知道是不是火花....

回答 1 投票 4

透过Dataframe列转换用户ID Spark [复制]

我有一个看起来像+ ------ + ------------ + ------------------ + | UserID |的数据帧属性|价值| + ------ + ------------ + ------------------ + | 123 |城市|旧金山| ...

回答 1 投票 0

如何在Scala Spark的where子句中使用UDF

我正在尝试检查数据帧中的2个双列是否相等到一定程度的精度,因此49.999999应该等于50.是否可以创建UDF并在where子句中使用它?我在用 ...

回答 2 投票 1

计算平均值和标准偏差时无值

我正在计算PySpark DataFrame中嵌套数据产品的平均值和标准差。 + ---------- + -------------------------------- + | product_PK |产品| + --------...

回答 1 投票 0

修剪Pyspark数据帧

我有一个Pyspark数据帧(原始数据帧)具有以下数据(所有列都有字符串数据类型)。在我的用例中,我不确定此输入数据框中的所有列是什么。用户刚过......

回答 3 投票 0

'插入SparkSession DataFrame'在DSX中自动将数据从整数转换为浮点数

我有一个csv文件,我使用“SparkSession DataFrame”插入到IBM Data Science Experience。 csv文件中的所有内容(标题除外)都是整数。数据框按预期工作......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.