apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

我有两个不同的JavaPairRdd，一个是Key1，值，第二个是key2，value。我试图实现的是合并它们，但只获得具有相同值的项目。我尝试过以下方法：......

java hadoop apache-spark java-pair-rdd

回答 1 投票 0

我有一个像下面这样的DataFrame。 + --- + ------------------------------------------ + | id |特征| + --- + ------------------------------------------ + | 1 | [6.629056,0 ....

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 2 投票 0

Spark saveAsTextFile写入空文件 - _ $ folder $到S3

rdd.saveAsTextFile（“s3n：// bucket-name / path”）正在创建一个文件夹名为空文件 - [folder-name] _ $ folder $好像这个空文件被hadoop-aws jar使用（org。 apache.hadoop）模仿......

hadoop apache-spark amazon-s3 apache-spark-sql

回答 1 投票 1

Spark写镶木地板不写任何文件，只有_SUCCESS

该应用程序包括val stats = sqlContext.sql（“select id，n from myTable”）stats.write.parquet（“myTable.parquet”）这创建了dir myTable.parquet，除了空的内容之外没有其他内容...

python scala apache-spark spark-dataframe parquet

回答 2 投票 3

如何获取集群信息来调用REST API（来自驱动程序）？

我想使用Spark REST API获取指标并发布到云监视。但是RESR API就像：val url =“http：// ：4040 / API / V1 /应用/ /阶段“如果我给...

apache-spark yarn emr amazon-cloudwatch

回答 1 投票 1

在重新分区时Spark OutOfMemory

我在Spark中遇到OutOfMemory Exception，这在进行重新分区时会被抛出。该程序正在处理以下步骤：JavaRDD data = sc.objectFile(this.inSource); ...

apache-spark

回答 1 投票 -1

PySpark安装错误

我已经按照各种博客帖子的说明，包括这个，这个，这个和这个在我的笔记本电脑上安装pyspark。然而，当我尝试从终端或jupyter笔记本使用pyspark时，我保持...

python hadoop apache-spark pyspark jupyter-notebook

回答 1 投票 1

无尽的INFO客户端：针对Spark提交的application_xx（状态：ACCEPTED）消息的应用程序报告

当我在集群模式下使用Hadoop和Yarn提交Spark应用程序时。纱线客户端状态卡在接受状态，它永远不会更改为运行。我正在使用Centos 7 Hadoop Cluster，它有1 ...

hadoop apache-spark yarn

回答 1 投票 0

Spark中的out.println（）对我不起作用。一切都停留在同一条线上

当我将完全相同的代码复制到REPL中时，它可以工作，但是在scala的spark shell中，它会写入文本文件，但不会写入单独的行。 val out = new PrintWriter（“TestAverages.txt”）for（i＆...

scala apache-spark printwriter

回答 1 投票 -2

驱动程序中的Spark读取orc文件不在执行程序中

我在s3中有30GB的ORC文件（24个部分* 1.3G）。我正在使用spark来阅读这个兽人并做一些操作。但是从原木开始，我观察到甚至在做任何操作之前，火花正在开启......

apache-spark amazon-s3 orc

回答 2 投票 2

从PySpark DataFrame中删除NULL，NAN，空格

我在PySpark中有一个包含空格，Null和Nan的数据帧。我想删除任何有这些行的行。我尝试了以下命令，但似乎没有任何工作。 myDF.na.drop（）。show（）myDF ....

apache-spark pyspark apache-spark-1.6

回答 1 投票 1

Spark数据集和scala.ScalaReflectionException：类型V不是类

我有以下类：case class S1（value：String，ws：Map [Int，String]）case class S2（value：String，ws：Map [Int，String]，dep：BS）如上图所示，这两个有一个不同的领域......

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 1

Apache spark java条件替换列

我试图将数据集中的列替换为值Y，如果它包含X. import org.apache.spark.sql.functions。*; public static void main（String [] args）{Dataset DS; //已经......

java apache-spark spark-dataframe

回答 1 投票 1

使用函数返回新的Dataframe（通过转换现有的Dataframe） - spark / scala

我是Spark的新手。我试图将JSONArray读入Dataframe并对其执行一些转换。我试图通过删除一些HTML标签和一些换行符来清理我的数据。为......

html scala apache-spark dataframe data-cleansing

回答 1 投票 0

通过索引关联RDD中的两个数组

我有一个RDD包含每行RDD [（Array [Int]，Array [Double]）]的两个数组。对于每一行，两个数组的大小相似。但是，每一行都有不同的n大小，n可以达到......

arrays scala apache-spark rdd

回答 1 投票 1

Apache Spark：在PairFlatMapFunction中，如何将元组添加回Iterable >返回类型

我是新来的。我一直在研究涉及两个数据集的代码。因此，我开始使用PairFlatMapFunction，我正在处理映射器。 JavaPairRDD ...

java hadoop apache-spark rdd bigdata

回答 2 投票 1

Spark Executors - 它们是java进程吗？

我是新来的火花。当我尝试在3个执行器的客户端模式下运行spark-submit时，我希望在执行ps -ef $ SPARK_HOME / bin / spark -..时显示3个java进程（因为有3个执行程序）。

apache-spark

回答 4 投票 0

在Python数据帧连接中动态填充列名

我正在开发一个动态脚本，可以加入任何给定的pyspark数据帧。问题是文件中的列名称会有所不同，连接条件的数量可能会有所不同。我可以循环处理这个......

python apache-spark dataframe pyspark

回答 1 投票 0

Spark程序的Map函数中的空指针异常

我是Scala的新手，在运行一个spark程序时，我得到了null指针异常。任何人都可以指出我如何解决这个问题。 val data = spark.read.csv（“C：\\ File \\ Path.csv”）。rdd val result = data ....

scala dictionary apache-spark nullpointerexception

回答 2 投票 -2

使用Spark解析多个JSON模式

我需要从大量有些复杂的嵌套JSON消息中收集一些关键信息，这些消息随着时间的推移而不断发展。每条消息都指的是同一类型的事件，但......

json hadoop apache-spark apache-spark-sql

回答 1 投票 0

apache-spark 相关问题

最新问题