apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

无法转换RDD [ConsumerRecord]

我有一个序列化问题，ConsumerRecord从DStream中的kafka主题中恢复。为了说明我的问题，我创建了以下示例。我创建了一个带有json值的ConsumerRecord，我......

scala apache-spark apache-kafka spark-streaming

回答 1 投票 1

Spark的纱线群集优化

我尝试为我的4节点集群配置Yarn和Spark。每个节点都有以下规格：24核23.5 GB RAM交换我配置Yarn和Spark到目前为止Spark可以执行SparkPi ...

hadoop apache-spark yarn

回答 1 投票 1

尝试从带有分隔符“|”的文件创建数据框

我想加载一个包含分隔符“|”的文本文件进入Spark中的Dataframe。一种方法是创建RDD并使用toDF来创建Dataframe。但是我想知道我是否可以直接创建DF。作为 ...

scala apache-spark dataframe

回答 2 投票 0

Scala对TimeStamp值的操作

我有时间戳的输入，基于某些条件我需要使用scala编程减1秒或减3个月输入：val date：String =“2017-10-31T23：59：59.000”输出：减1秒... 。

scala apache-spark spark-dataframe

回答 3 投票 0

Spark Streaming reduceByKeyAndWindow示例

来自https://spark.apache.org/docs/latest/streaming-programming-guide.html#window-operations，它表示reduceByKeyAndWindow“返回一个新的单元素流，通过聚合元素在...中创建

java apache-spark spark-streaming

回答 1 投票 0

选择一列的子集，然后与另一列进行比较

我在pyspark有一个csv文件，里面有大量的销售信息 - 单位，商店ID，总销售额，客户忠诚度，产品编号等。我需要比较那些客户的销售数量......

apache-spark pyspark spark-dataframe

回答 1 投票 0

为spark作业设置hbase参数

有没有办法将hbase.rpc.timeout传递给一个通过shell脚本调用的spark作业。我知道我们可以在spark作业中创建HBaseConfiguration时设置hbase.rpc.timeout值...

shell apache-spark hbase

回答 1 投票 1

PySpark RDD到数据帧，带有元组和字典列表

我在pyspark中处理了一些数据，它是一个具有这种结构的RDD [（u'991'，{'location'：'Australia'，'Age'：'27'，'Color'：Pink}），（u '993'，{'location'：'新加坡'，'年龄'：'55'，'......

python dictionary apache-spark dataframe rdd

回答 1 投票 0

使用spark数据帧/数据集/ RDD使用内部联接进行更新

我正在将ms sql server query的逻辑转换为spark。要转换的Thge查询如下：更新enc set PrUid = m.OriginalPrUid FROM CachePatDemo enc inner join #MergePreMap m on enc.PrUid = m ....

sql sql-server apache-spark apache-spark-sql

回答 1 投票 0

metaclass = ABCmeta语法无效

我使用以下代码。我的PYSPARK_PYTHON在spark-env.sh中设置为python2.7。我在代码中将它更改为python3.5。即使在改变路径后我得到以下错误。 import os os.environ [“...

python python-3.x apache-spark pyspark

回答 1 投票 -2

为spark scala中的数据框中的每个组采样不同数量的随机行

目标是为每个组在数据帧中采样（不替换）不同数量的行。要为特定组采样的行数在另一个数据帧中。示例：idDF是......

scala apache-spark apache-spark-sql spark-dataframe

回答 2 投票 3

我怎样才能获得倒排索引？

我再次使用Spark。如何使用Spark获取csv文件的反向索引？我有csv文件df.show（）+ -------- + -------------------- + ---------- ---------- + ---------- + | ID |标题| ...

apache-spark pyspark

回答 1 投票 0

Spark SQL表分区找不到文件

我有一个用于运行Spark SQL应用程序的spark集群。我正在尝试表分区的Spark SQL功能。当我提取数据时，我收到的文件未找到异常，说明...

apache-spark apache-spark-sql

回答 1 投票 0

从多个分区读取多个镶木地板文件

我试图通过pyspark从多个分区读取多个镶木地板文件，并将它们连接到一个大数据框。文件看起来像，hdfs dfs -ls / data / customers / odysseyconsultants / ...

apache-spark pyspark apache-spark-sql

回答 2 投票 2

在spark中设置textinputformat.record.delimiter

在Spark中，可以设置一些hadoop配置设置，例如， System.setProperty（“spark.hadoop.dfs.replication”，“1”）这个工作，复制因子设置为1.假设...

scala hadoop mapreduce apache-spark

回答 1 投票 5

获取第一个和最后一个项目而不使用两个连接

目前我有两个数据集，一个是父数据集，一个是子数据集。子数据集包含可以链接到父表的“parentId”列。子数据集保存有关某人的行为和父母的数据...

apache-spark spark-dataframe apache-spark-dataset

回答 1 投票 0

Apache火花消息理解

请求帮助以理解此消息.. INFO spark.MapOutputTrackerMaster：shuffle 2的输出状态大小是** 2202921 **字节2202921在这里是什么意思？我的工作是洗牌操作......

scala apache-spark

回答 1 投票 2

为什么Spark运行的内存少于可用内存？

我在具有32 GB RAM的计算机上运行带有Spark的单节点应用程序。在我运行应用程序时，可以使用超过12GB的内存。但是从火花UI和日志中，我看到......

java apache-spark pyspark spark-streaming

回答 2 投票 2

如何让groovysh与apache一起工作

我成功地使用Apache Spark和Groovy，但是我没有运气使用groovysh作为交互式火花外壳。 Groovy Shell（2.5.0-beta-3，JVM：1.8.0_161）输入'：help'或'：h'获取帮助。 ------...

apache-spark groovy groovyshell groovysh

回答 1 投票 2

使用join时，Sparkjob中超出了GC开销限制

我正在写一个火花工作，以获得按学生日期过滤的最新学生记录。但是当我用十万条记录尝试这个时，它工作得很好。但当我用大量的...运行它时

scala apache-spark apache-spark-2.0

回答 1 投票 1

apache-spark 相关问题

最新问题