apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何使用不同的JavaPairRDD

我有两个不同的JavaPairRdd,一个是Key1,值,第二个是key2,value。我试图实现的是合并它们,但只获得具有相同值的项目。我尝试过以下方法:......

回答 1 投票 0

如何根据Pyspark中数据框中的条件设置新的列表值?

我有一个像下面这样的DataFrame。 + --- + ------------------------------------------ + | id |特征| + --- + ------------------------------------------ + | 1 | [6.629056,0 ....

回答 2 投票 0

Spark saveAsTextFile写入空文件 - _ $ folder $到S3

rdd.saveAsTextFile(“s3n:// bucket-name / path”)正在创建一个文件夹名为空文件 - [folder-name] _ $ folder $好像这个空文件被hadoop-aws jar使用(org。 apache.hadoop)模仿......

回答 1 投票 1

Spark写镶木地板不写任何文件,只有_SUCCESS

该应用程序包括val stats = sqlContext.sql(“select id,n from myTable”)stats.write.parquet(“myTable.parquet”)这创建了dir myTable.parquet,除了空的内容之外没有其他内容...

回答 2 投票 3

如何获取集群信息来调用REST API(来自驱动程序)?

我想使用Spark REST API获取指标并发布到云监视。但是RESR API就像:val url =“http:// :4040 / API / V1 /应用/ /阶段“如果我给...

回答 1 投票 1

在重新分区时Spark OutOfMemory

我在Spark中遇到OutOfMemory Exception,这在进行重新分区时会被抛出。该程序正在处理以下步骤:JavaRDD data = sc.objectFile(this.inSource); ...

回答 1 投票 -1

PySpark安装错误

我已经按照各种博客帖子的说明,包括这个,这个,这个和这个在我的笔记本电脑上安装pyspark。然而,当我尝试从终端或jupyter笔记本使用pyspark时,我保持...

回答 1 投票 1

无尽的INFO客户端:针对Spark提交的application_xx(状态:ACCEPTED)消息的应用程序报告

当我在集群模式下使用Hadoop和Yarn提交Spark应用程序时。纱线客户端状态卡在接受状态,它永远不会更改为运行。我正在使用Centos 7 Hadoop Cluster,它有1 ...

回答 1 投票 0

Spark中的out.println()对我不起作用。一切都停留在同一条线上

当我将完全相同的代码复制到REPL中时,它可以工作,但是在scala的spark shell中,它会写入文本文件,但不会写入单独的行。 val out = new PrintWriter(“TestAverages.txt”)for(i&...

回答 1 投票 -2

驱动程序中的Spark读取orc文件不在执行程序中

我在s3中有30GB的ORC文件(24个部分* 1.3G)。我正在使用spark来阅读这个兽人并做一些操作。但是从原木开始,我观察到甚至在做任何操作之前,火花正在开启......

回答 2 投票 2

从PySpark DataFrame中删除NULL,NAN,空格

我在PySpark中有一个包含空格,Null和Nan的数据帧。我想删除任何有这些行的行。我尝试了以下命令,但似乎没有任何工作。 myDF.na.drop()。show()myDF ....

回答 1 投票 1

Spark数据集和scala.ScalaReflectionException:类型V不是类

我有以下类:case class S1(value:String,ws:Map [Int,String])case class S2(value:String,ws:Map [Int,String],dep:BS)如上图所示,这两个有一个不同的领域......

回答 1 投票 1

Apache spark java条件替换列

我试图将数据集中的列替换为值Y,如果它包含X. import org.apache.spark.sql.functions。*; public static void main(String [] args){Dataset DS; //已经......

回答 1 投票 1

使用函数返回新的Dataframe(通过转换现有的Dataframe) - spark / scala

我是Spark的新手。我试图将JSONArray读入Dataframe并对其执行一些转换。我试图通过删除一些HTML标签和一些换行符来清理我的数据。为......

回答 1 投票 0

通过索引关联RDD中的两个数组

我有一个RDD包含每行RDD [(Array [Int],Array [Double])]的两个数组。对于每一行,两个数组的大小相似。但是,每一行都有不同的n大小,n可以达到......

回答 1 投票 1

Apache Spark:在PairFlatMapFunction中,如何将元组添加回Iterable >返回类型

我是新来的。我一直在研究涉及两个数据集的代码。因此,我开始使用PairFlatMapFunction,我正在处理映射器。 JavaPairRDD ...

回答 2 投票 1

Spark Executors - 它们是java进程吗?

我是新来的火花。当我尝试在3个执行器的客户端模式下运行spark-submit时,我希望在执行ps -ef $ SPARK_HOME / bin / spark -..时显示3个java进程(因为有3个执行程序)。

回答 4 投票 0

在Python数据帧连接中动态填充列名

我正在开发一个动态脚本,可以加入任何给定的pyspark数据帧。问题是文件中的列名称会有所不同,连接条件的数量可能会有所不同。我可以循环处理这个......

回答 1 投票 0

Spark程序的Map函数中的空指针异常

我是Scala的新手,在运行一个spark程序时,我得到了null指针异常。任何人都可以指出我如何解决这个问题。 val data = spark.read.csv(“C:\\ File \\ Path.csv”)。rdd val result = data ....

回答 2 投票 -2

使用Spark解析多个JSON模式

我需要从大量有些复杂的嵌套JSON消息中收集一些关键信息,这些消息随着时间的推移而不断发展。每条消息都指的是同一类型的事件,但......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.