apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

将数据加载到elasticsearch中的Spark应用程序一直挂起

我们的 Spark 应用程序将数据从 s3 加载到 Elasticsearch 时遇到了一些问题。几周以来,这些作业在 Kubernetes 中不再正确关闭。 我们工作的描述...

回答 1 投票 0

join条件中1=1是否影响inner join执行时间

连接条件中的1=1会影响内连接的执行时间吗? 假设table1是一个非常大的表,有5亿条记录。 以下 SQL 连接执行时间是否有差异...

回答 1 投票 0

spark.kubernetes.driver.request.cores、spark.kubernetes.driver.limit.cores和spark.driver.cores之间的区别

我是 Kubernetes 新手,但不是 Apache Spark。我目前正在 EKS 上开发 EMR,这本质上是 kubernetes 上的 Spark,我无法理解 Spark.kubernetes.d 之间的区别...

回答 1 投票 0

无法将 Spark 作业中的日志添加到 Spark 事件日志

我正在尝试在 Spark 事件日志中输出日志,以便可以在历史服务器中访问它们。 我尝试过两种方法 添加我自己的扩展 Serialized 的自定义记录器 扩展 org.apache...

回答 1 投票 0

Pyspark 将数据从 Kafka 主题流式传输到弹性搜索索引,在 Jupyter 笔记本中运行,导致失败

我正在通过 Jupyter Notebook 中的 Pyspark 从 Kafka 主题流式传输数据。我们正在将流写入 Elasticsearch 索引。 加载到 HDFS 时出现此错误,但工作正常。 驱动程序堆栈...

回答 1 投票 0

Spark 将 DataFrame 作为 HTTP Post 请求的正文发送

我有一个数据帧,我想将其作为 HTTP Post 请求的正文发送,最好的 Sparky 方法是什么? 如何控制HTTP请求的数量? 如果记录数变大的话

回答 2 投票 0

如何将列表转换为多列和数据框?

我今天有一个挑战,是: 拥有一个 s3 路径列表,在列表内,将其拆分并获取一个数据框,其中一列包含路径,另一列仅包含文件夹名称。 我的清单有...

回答 1 投票 0

在 PySpark 中使用 rangeBetween 考虑几个月而不是几天

我正在研究如何将这段 SQL 代码转换为 PySpark 语法。 选择平均值(某个值)超过( 按 yyyy_mm_dd 排序 前一行和当前行 3 个月的间隔范围 ) 一个...

回答 2 投票 0

将 schema_of_json() 与 from_json() 结合使用

我正在使用 Spark SQL 取消嵌套 JSON 字符串。首先,我想将 JSON 字符串列“值”合并为 STRUCT 类型。 选择 from_json(值,schema_of_json(值)) 来自我的表 这会引发

回答 1 投票 0

如何使用Docker在Spark代码和Spark容器之间建立连接?

我正在使用以下存储库为 Hadoop 和 Spark 设置 Docker:docker-hadoop-spark。我的 Docker Compose YAML 配置工作正常,并且我能够运行容器...

回答 1 投票 0

如何在spark中使用repartition()指定文件大小

我正在使用 pyspark,我有一个大型数据源,我想对其进行重新分区,并明确指定每个分区的文件大小。 我知道使用 repartition(500) 函数会将我的镶木地板分成...

回答 1 投票 0

Apache Spark - 当列可以是字符串或数组时解析 JSON

我有一个 JSON 文件,可以定义以下架构 根 |-- 导出:数组(可空 = true) | |-- 元素:结构(containsNull = true) | | |-- 计数器:long(可空 = tr...

回答 1 投票 0

Spark 从多个 SQL 数据库并行读取

我有一个场景,需要将多个 SQL 数据库(每个数据库都有自己的端点和连接)中的大型数据集加载到 Spark 集群中。考虑到这些数据集的大小(数十亿行......

回答 1 投票 0

spark 中的哈希函数

我正在尝试向数据框中添加一列,其中将包含另一列的哈希值。 我找到了这篇文档: https://spark.apache.org/docs/2.3.0/api/sql/index.html#hash 并尝试过...

回答 3 投票 0

BloomFilter mergeInPlace() 产生意外行为

下面的 Spark Scala 代码片段重现了我试图理解的行为。在较高的层次上,我们构造两个元组,每个元组包含一个 DF 和一个有关 id 列的布隆过滤器...

回答 1 投票 0

使用 Scala/Java 在 Databricks 工作区中保存文件

我的目标是使用 Databricks 运行 Spark 作业,我的挑战是我无法将文件存储在本地文件系统中,因为文件保存在驱动程序中,但是当我的执行程序尝试访问...

回答 1 投票 0

Spark 作业继续运行

我已在 ambari-server 中提交了我的 Spark 作业 使用以下命令.. ./spark-submit --class customer.core.classname --master 纱线 --numexecutors 2 --driver-内存 2g --executor-内存 2g --exe...

回答 4 投票 0

Pyspark Java 白名单类问题

我正在尝试将 hive 元存储迁移到 unity 目录中,以便我必须在现有集群中启用 unity 目录,但我们正在使用下面代码的笔记本之一现在不受支持,

回答 1 投票 0

季度最后一天

有没有办法在 PySpark 中本地选择每个季度的最后一天?例如,在包含两列的 df 中 - yyyy_mm_dd 和 sum。我如何返回每个季度最后一天的总和?...

回答 2 投票 0

Java Spark 地图为空

java Spark数据集中有一列类型为map,如何使用java Spark检查此映射的列是否为空或具有某些值。 我想过滤数据集...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.