apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

无法转换RDD [ConsumerRecord]

我有一个序列化问题,ConsumerRecord从DStream中的kafka主题中恢复。为了说明我的问题,我创建了以下示例。我创建了一个带有json值的ConsumerRecord,我......

回答 1 投票 1

Spark的纱线群集优化

我尝试为我的4节点集群配置Yarn和Spark。每个节点都有以下规格:24核23.5 GB RAM交换我配置Yarn和Spark到目前为止Spark可以执行SparkPi ...

回答 1 投票 1

尝试从带有分隔符“|”的文件创建数据框

我想加载一个包含分隔符“|”的文本文件进入Spark中的Dataframe。一种方法是创建RDD并使用toDF来创建Dataframe。但是我想知道我是否可以直接创建DF。作为 ...

回答 2 投票 0

Scala对TimeStamp值的操作

我有时间戳的输入,基于某些条件我需要使用scala编程减1秒或减3个月输入:val date:String =“2017-10-31T23:59:59.000”输出:减1秒... 。

回答 3 投票 0

Spark Streaming reduceByKeyAndWindow示例

来自https://spark.apache.org/docs/latest/streaming-programming-guide.html#window-operations,它表示reduceByKeyAndWindow“返回一个新的单元素流,通过聚合元素在...中创建

回答 1 投票 0

选择一列的子集,然后与另一列进行比较

我在pyspark有一个csv文件,里面有大量的销售信息 - 单位,商店ID,总销售额,客户忠诚度,产品编号等。我需要比较那些客户的销售数量......

回答 1 投票 0

为spark作业设置hbase参数

有没有办法将hbase.rpc.timeout传递给一个通过shell脚本调用的spark作业。我知道我们可以在spark作业中创建HBaseConfiguration时设置hbase.rpc.timeout值...

回答 1 投票 1

PySpark RDD到数据帧,带有元组和字典列表

我在pyspark中处理了一些数据,它是一个具有这种结构的RDD [(u'991',{'location':'Australia','Age':'27','Color':Pink}),(u '993',{'location':'新加坡','年龄':'55','......

回答 1 投票 0

使用spark数据帧/数据集/ RDD使用内部联接进行更新

我正在将ms sql server query的逻辑转换为spark。要转换的Thge查询如下:更新enc set PrUid = m.OriginalPrUid FROM CachePatDemo enc inner join #MergePreMap m on enc.PrUid = m ....

回答 1 投票 0

metaclass = ABCmeta语法无效

我使用以下代码。我的PYSPARK_PYTHON在spark-env.sh中设置为python2.7。我在代码中将它更改为python3.5。即使在改变路径后我得到以下错误。 import os os.environ [“...

回答 1 投票 -2

为spark scala中的数据框中的每个组采样不同数量的随机行

目标是为每个组在数据帧中采样(不替换)不同数量的行。要为特定组采样的行数在另一个数据帧中。示例:idDF是......

回答 2 投票 3

我怎样才能获得倒排索引?

我再次使用Spark。如何使用Spark获取csv文件的反向索引?我有csv文件df.show()+ -------- + -------------------- + ---------- ---------- + ---------- + | ID |标题| ...

回答 1 投票 0

Spark SQL表分区找不到文件

我有一个用于运行Spark SQL应用程序的spark集群。我正在尝试表分区的Spark SQL功能。当我提取数据时,我收到的文件未找到异常,说明...

回答 1 投票 0

从多个分区读取多个镶木地板文件

我试图通过pyspark从多个分区读取多个镶木地板文件,并将它们连接到一个大数据框。文件看起来像,hdfs dfs -ls / data / customers / odysseyconsultants / ...

回答 2 投票 2

在spark中设置textinputformat.record.delimiter

在Spark中,可以设置一些hadoop配置设置,例如, System.setProperty(“spark.hadoop.dfs.replication”,“1”)这个工作,复制因子设置为1.假设...

回答 1 投票 5

获取第一个和最后一个项目而不使用两个连接

目前我有两个数据集,一个是父数据集,一个是子数据集。子数据集包含可以链接到父表的“parentId”列。子数据集保存有关某人的行为和父母的数据...

回答 1 投票 0

Apache火花消息理解

请求帮助以理解此消息.. INFO spark.MapOutputTrackerMaster:shuffle 2的输出状态大小是** 2202921 **字节2202921在这里是什么意思?我的工作是洗牌操作......

回答 1 投票 2

为什么Spark运行的内存少于可用内存?

我在具有32 GB RAM的计算机上运行带有Spark的单节点应用程序。在我运行应用程序时,可以使用超过12GB的内存。但是从火花UI和日志中,我看到......

回答 2 投票 2

如何让groovysh与apache一起工作

我成功地使用Apache Spark和Groovy,但是我没有运气使用groovysh作为交互式火花外壳。 Groovy Shell(2.5.0-beta-3,JVM:1.8.0_161)输入':help'或':h'获取帮助。 ------...

回答 1 投票 2

使用join时,Sparkjob中超出了GC开销限制

我正在写一个火花工作,以获得按学生日期过滤的最新学生记录。但是当我用十万条记录尝试这个时,它工作得很好。但当我用大量的...运行它时

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.