spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

如何修复22:错误:找不到:Scala中的值SparkSession?

我是Spark的新手,我想将CSV文件读取到数据框。 Spark 1.3.0 / Scala 2.3.0到目前为止,这就是我的意思:#使用CSV软件包模块spark-shell --packages com ...启动Scala。

回答 1 投票 0

如何从Spark中的数据帧创建EdgeRDD

我在Spark中有一个数据框。每行代表一个人,我想检索其中的可能联系。链接的规则是,对于每个可能的对,如果它们具有相同的prop1:...

回答 1 投票 0

线程“ streaming-start”中的异常java.lang.NoClassDefFoundError:twitter4j / StreamListener

我正在尝试将Twitter数据流式传输为流媒体。我已经使用以下命令导出了其他jar-spark-shell --jars twitter4j-core-4.0.1.jar,spark-streaming-twitter_2.11-1.6.2.jar ...

回答 1 投票 1

功能体内的Pyspark程序失败

我是ML算法的PySpark实现的新手。我试图创建一个分类模型,可以是Logistic,Random Forest,Multiclass分类器等中的任何一个。我用...

回答 1 投票 0

如何将两个spark数据帧与结构类型可以不同的字段结合在一起?

我对Apache Spark还是很陌生,有时仍然在挣扎。我正在尝试导入一个非常复杂的json文件,并将其展平,然后再将其保存在拼花文件中。我的json文件是...

回答 1 投票 3

(Py)Spark框架中数据帧中数据的可视化

关于Spark DataFrames方法的可视化的问题。到目前为止(我使用2.0.0版),Spark DataFrames还没有任何可视化功能。通常的解决方案是收集一些...

回答 2 投票 2

Spark数据帧的计算大小-SizeEstimator提供意外结果

我正在尝试找到一种可靠的方式来以编程方式计算Spark数据帧的大小(以字节为单位)。原因是我想拥有一种方法来计算“最佳”数量的分区...

回答 4 投票 10

Spark DataFrame列上的UDF函数:并行执行

Spark DataFrame已经针对并行执行进行了优化(并行执行在后台处理,但是以下适用于Spark DataFrame列数据的UDF函数...

回答 1 投票 1

从S3中读取Spark中的实木复合地板文件

我正在以实木复合地板格式从S3读取数据,然后将这些数据作为DataFrame处理。问题是如何有效地遍历DataFrame中的行?我知道该方法收集负载...

回答 1 投票 1

SparkSQL:我可以在同一查询中爆炸两个不同的变量吗?

我有以下爆炸查询,该查询工作正常:data1 = sqlContext.sql(“从数据中选择爆炸(名称)作为名称”)我想爆炸另一个字段“颜色”,因此最终输出可能是.. 。

回答 4 投票 8

动态连接多个列上的两个spark-scala数据帧,而无需对连接条件进行硬编码

我想动态地在多个列上加入两个spark scala数据帧。 我将避免硬编码列名比较,如以下语句所示 pyspark版本中已经存在此查询的解决方案 在以下链接中...

回答 1 投票 1

使用spark df将数据写入雪花的性能问题

我正在尝试从AWS RDS系统读取数据并使用SPARK写入Snowflake。我的SPARK作业建立了与RDS的JDBC连接,并将数据提取到一个数据帧中,而另一方面又将其拉到一个相同的数据帧中。

回答 1 投票 0

星火替换所有NaN的数据帧API中为null

我有很多双(和/或浮动)列,其中确实包含NaN的一个数据帧。我想,以取代空所有的NaN(即的Float.NaN和Double.NaN)。我可以如这样做对于单个列...

回答 2 投票 1

得到的数据框星火列中的最大值的最佳方法

我试图找出让在Spark数据帧列的最大价值的最佳途径。考虑下面的例子:([(1,4),(2,5),(3,6)],[ “A”, “B”])DF = DF spark.createDataFrame .. ..

回答 10 投票 41

星火UDF - 任务不能序列异常

我想用下面的Scala代码懒VAL formattedDF = df.withColumn( “result_col”,validateudf(DF( “ID”)))VAL validateudf = UDF((ID创建UDF的:int)=> {如果(ID = = 1){“ID IS ...

回答 1 投票 1

如何处理火花数据 帧数据偏差的外部联接

我有两个数据帧和我表演上的5列外连接。下面是我的示例数据集。 uniqueFundamentalSet | ^ | PeriodId | ^ |的sourceID | ^ | StatementTypeCode | ^ | StatementCurrencyId | ^ | ...

回答 1 投票 3

使用Python的减少()来连接多个PySpark DataFrames

有谁知道为什么比使用一个for循环迭代刚刚加入同一DataFrames连接多个PySpark DataFrames在使用Python3的functools.reduce()会导致更糟糕的表现? ...

回答 2 投票 3

非空WrappedArray过滤数据帧

我的问题是,我有一个列表,这些不属于空找到。当我使用的过滤功能不为空,比我还得到每一行。我的程序代码如下所示:... VAL CSC =新...

回答 2 投票 5

添加列和作为PySpark数据帧新列

我使用PySpark和我有一堆数字列的火花数据帧。我想增加一列,是所有其他列的总和。假设我有数据框中列“A”,“B”和“C”。一世 ...

回答 4 投票 20

组内排序pyspark数据帧

我想每一个“身份证”组内排序列“时间”。数据是这样的:ID时间名132 12 132露西约翰10 15 132 78山姆凯特11 78 7 78朱莉娅2费雯丽245 22 ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.