Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
将数据加载到elasticsearch中的Spark应用程序一直挂起
我们的 Spark 应用程序将数据从 s3 加载到 Elasticsearch 时遇到了一些问题。几周以来,这些作业在 Kubernetes 中不再正确关闭。 我们工作的描述...
连接条件中的1=1会影响内连接的执行时间吗? 假设table1是一个非常大的表,有5亿条记录。 以下 SQL 连接执行时间是否有差异...
spark.kubernetes.driver.request.cores、spark.kubernetes.driver.limit.cores和spark.driver.cores之间的区别
我是 Kubernetes 新手,但不是 Apache Spark。我目前正在 EKS 上开发 EMR,这本质上是 kubernetes 上的 Spark,我无法理解 Spark.kubernetes.d 之间的区别...
无法将 Spark 作业中的日志添加到 Spark 事件日志
我正在尝试在 Spark 事件日志中输出日志,以便可以在历史服务器中访问它们。 我尝试过两种方法 添加我自己的扩展 Serialized 的自定义记录器 扩展 org.apache...
Pyspark 将数据从 Kafka 主题流式传输到弹性搜索索引,在 Jupyter 笔记本中运行,导致失败
我正在通过 Jupyter Notebook 中的 Pyspark 从 Kafka 主题流式传输数据。我们正在将流写入 Elasticsearch 索引。 加载到 HDFS 时出现此错误,但工作正常。 驱动程序堆栈...
Spark 将 DataFrame 作为 HTTP Post 请求的正文发送
我有一个数据帧,我想将其作为 HTTP Post 请求的正文发送,最好的 Sparky 方法是什么? 如何控制HTTP请求的数量? 如果记录数变大的话
我今天有一个挑战,是: 拥有一个 s3 路径列表,在列表内,将其拆分并获取一个数据框,其中一列包含路径,另一列仅包含文件夹名称。 我的清单有...
在 PySpark 中使用 rangeBetween 考虑几个月而不是几天
我正在研究如何将这段 SQL 代码转换为 PySpark 语法。 选择平均值(某个值)超过( 按 yyyy_mm_dd 排序 前一行和当前行 3 个月的间隔范围 ) 一个...
将 schema_of_json() 与 from_json() 结合使用
我正在使用 Spark SQL 取消嵌套 JSON 字符串。首先,我想将 JSON 字符串列“值”合并为 STRUCT 类型。 选择 from_json(值,schema_of_json(值)) 来自我的表 这会引发
如何使用Docker在Spark代码和Spark容器之间建立连接?
我正在使用以下存储库为 Hadoop 和 Spark 设置 Docker:docker-hadoop-spark。我的 Docker Compose YAML 配置工作正常,并且我能够运行容器...
如何在spark中使用repartition()指定文件大小
我正在使用 pyspark,我有一个大型数据源,我想对其进行重新分区,并明确指定每个分区的文件大小。 我知道使用 repartition(500) 函数会将我的镶木地板分成...
Apache Spark - 当列可以是字符串或数组时解析 JSON
我有一个 JSON 文件,可以定义以下架构 根 |-- 导出:数组(可空 = true) | |-- 元素:结构(containsNull = true) | | |-- 计数器:long(可空 = tr...
我有一个场景,需要将多个 SQL 数据库(每个数据库都有自己的端点和连接)中的大型数据集加载到 Spark 集群中。考虑到这些数据集的大小(数十亿行......
我正在尝试向数据框中添加一列,其中将包含另一列的哈希值。 我找到了这篇文档: https://spark.apache.org/docs/2.3.0/api/sql/index.html#hash 并尝试过...
BloomFilter mergeInPlace() 产生意外行为
下面的 Spark Scala 代码片段重现了我试图理解的行为。在较高的层次上,我们构造两个元组,每个元组包含一个 DF 和一个有关 id 列的布隆过滤器...
使用 Scala/Java 在 Databricks 工作区中保存文件
我的目标是使用 Databricks 运行 Spark 作业,我的挑战是我无法将文件存储在本地文件系统中,因为文件保存在驱动程序中,但是当我的执行程序尝试访问...
我已在 ambari-server 中提交了我的 Spark 作业 使用以下命令.. ./spark-submit --class customer.core.classname --master 纱线 --numexecutors 2 --driver-内存 2g --executor-内存 2g --exe...
我正在尝试将 hive 元存储迁移到 unity 目录中,以便我必须在现有集群中启用 unity 目录,但我们正在使用下面代码的笔记本之一现在不受支持,
有没有办法在 PySpark 中本地选择每个季度的最后一天?例如,在包含两列的 df 中 - yyyy_mm_dd 和 sum。我如何返回每个季度最后一天的总和?...
java Spark数据集中有一列类型为map,如何使用java Spark检查此映射的列是否为空或具有某些值。 我想过滤数据集...