apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

Apache Spark 2.3.1和2.0.0的兼容性

我想使用一个用Apache Spark 2.0.0开发的应用程序（这里是GitHub repo），但我只在我的iMac上安装了Spark 2.3.1（它似乎是自制软件支持的唯一一个...

scala apache-spark apache-spark-mllib scala-breeze

回答 1 投票 1

Scala - 为什么函数返回Unit而不是RDD？ [重复]

当我实现该功能时，我希望它返回一个RDD。并可能稍后将其收集到List。但为什么它会返回Unit呢？我应该在实施中做些什么来改变它...

scala apache-spark rdd

回答 1 投票 -1

SparkR：无法创建Spark会话

我试图在Windows机器上运行SparkR。我在R Studio中运行了以下命令：库（SparkR，lib.loc = c（file.path（Sys.getenv（“SPARK_HOME”），“R”，“lib”）））这次运行成功。我是 ...

r apache-spark sparkr

回答 3 投票 1

Apache Spark错误使用hadoop将数据卸载到AWS S3

我正在使用Apache Spark v2.3.1并尝试在处理之后将数据卸载到AWS S3。像这样：data.write（）。parquet（“s3a：//”+ bucketName +“/”+ location）;配置似乎是......

java windows amazon-web-services apache-spark hadoop

回答 1 投票 1

从spark写入elasticsearch非常慢

我正在处理一个文本文件，并将转换后的行从Spark应用程序写入弹性搜索，如下所示input.write.format（“org.elasticsearch.spark.sql”）.mode（SaveMode.Append）....

apache-spark elasticsearch elasticsearch-5 elasticsearch-spark

回答 1 投票 1

为什么kryo注册不能在SparkSession中工作？

这是我的代码：public static SparkSession getTestSparkSession（String name）{SparkConf conf = new SparkConf（）。set（“spark.master”，“local”）。set（“spark.ui.port”，“8040”）.. 。

apache-spark elasticsearch serialization kryo

回答 2 投票 1

Sparklyr：如何将列表列分解为Spark表中自己的列？

我的问题与此处的问题类似，但我在实现答案时遇到问题，我无法在该帖子中发表评论。所以，我有一个包含嵌套数据的大型CSV文件，...

r apache-spark dplyr tidyr sparklyr

回答 1 投票 2

Spark＆Scala：saveAsTextFile（）异常

我是Spark＆Scala的新手，在调用saveAsTextFile（）后我得到了异常。希望有人可以帮忙...这是我的input.txt：Hello World，我是程序员Hello World，我是程序员这是......

scala apache-spark hadoop apache-spark-sql bigdata

回答 2 投票 5

Pyspark在使用大量列保存数据框时遇到问题

在Hortonworks集群上通过Jupyter笔记本使用Pyspark 1.6.2处理以下步骤时，我们遇到了一个奇怪的情况：从pyspark数据框中的ORC表读取数据透视此表...

apache-spark pyspark apache-spark-sql pivot stack-overflow

回答 1 投票 1

spark数据帧分组不计算空值

我有一个spark DataFrame，它由一个用count聚合的列分组：df.groupBy（'a'）。agg（count（“a”））。show + --------- + --- ------------- + | a | count（a）| + --------- + -------------...

sql apache-spark group-by null apache-spark-sql

回答 2 投票 1

Spark：内存繁重的连接操作的最佳实践

我有一个火花程序，涉及大型Hive表的连接操作（数百万行，数百列）。在这些连接期间使用的内存非常高。我想了解......

scala apache-spark hadoop pyspark yarn

回答 1 投票 0

PySpark 2 - 正则表达式取代之前的一切

我有一个像“_row”的记录\ n“ 日期时间：2018.06.30 ^名称：ABC ^ Se：4 ^机器：XXXXXXX ^ InnerTrace：^ AdditionalInfo：^ 我想在每个之前删除所有内容......

python apache-spark pyspark apache-spark-2.0

回答 1 投票 1

如何在Spark中将大量文件加载到一个RDD中

我使用saveAsTextFile方法来保存RDD，但它不在文件中，而是有许多部分文件如下图所示。所以，我的问题是如何将这些文件重新加载到一个RDD中。