apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

将数据加载到elasticsearch中的Spark应用程序一直挂起

我们的 Spark 应用程序将数据从 s3 加载到 Elasticsearch 时遇到了一些问题。几周以来，这些作业在 Kubernetes 中不再正确关闭。我们工作的描述...

apache-spark http elasticsearch kubernetes

回答 1 投票 0

join条件中1=1是否影响inner join执行时间

连接条件中的1=1会影响内连接的执行时间吗？假设table1是一个非常大的表，有5亿条记录。以下 SQL 连接执行时间是否有差异...

sql apache-spark databricks

回答 1 投票 0

spark.kubernetes.driver.request.cores、spark.kubernetes.driver.limit.cores和spark.driver.cores之间的区别

我是 Kubernetes 新手，但不是 Apache Spark。我目前正在 EKS 上开发 EMR，这本质上是 kubernetes 上的 Spark，我无法理解 Spark.kubernetes.d 之间的区别...

apache-spark kubernetes amazon-eks

回答 1 投票 0

无法将 Spark 作业中的日志添加到 Spark 事件日志

我正在尝试在 Spark 事件日志中输出日志，以便可以在历史服务器中访问它们。我尝试过两种方法添加我自己的扩展 Serialized 的自定义记录器扩展 org.apache...

apache-spark logging log4j2 amazon-emr

回答 1 投票 0

Pyspark 将数据从 Kafka 主题流式传输到弹性搜索索引，在 Jupyter 笔记本中运行，导致失败

我正在通过 Jupyter Notebook 中的 Pyspark 从 Kafka 主题流式传输数据。我们正在将流写入 Elasticsearch 索引。加载到 HDFS 时出现此错误，但工作正常。驱动程序堆栈...

apache-spark elasticsearch pyspark

回答 1 投票 0

Spark 将 DataFrame 作为 HTTP Post 请求的正文发送

我有一个数据帧，我想将其作为 HTTP Post 请求的正文发送，最好的 Sparky 方法是什么？如何控制HTTP请求的数量？如果记录数变大的话

scala rest apache-spark

回答 2 投票 0

如何将列表转换为多列和数据框？

我今天有一个挑战，是：拥有一个 s3 路径列表，在列表内，将其拆分并获取一个数据框，其中一列包含路径，另一列仅包含文件夹名称。我的清单有...

python dataframe apache-spark pyspark aws-glue

回答 1 投票 0

在 PySpark 中使用 rangeBetween 考虑几个月而不是几天

我正在研究如何将这段 SQL 代码转换为 PySpark 语法。选择平均值（某个值）超过（按 yyyy_mm_dd 排序前一行和当前行 3 个月的间隔范围 ) 一个...

sql apache-spark pyspark apache-spark-sql window-functions

回答 2 投票 0

将 schema_of_json() 与 from_json() 结合使用

我正在使用 Spark SQL 取消嵌套 JSON 字符串。首先，我想将 JSON 字符串列“值”合并为 STRUCT 类型。选择 from_json（值，schema_of_json（值））来自我的表这会引发

sql json apache-spark databricks

回答 1 投票 0

如何使用Docker在Spark代码和Spark容器之间建立连接？

我正在使用以下存储库为 Hadoop 和 Spark 设置 Docker：docker-hadoop-spark。我的 Docker Compose YAML 配置工作正常，并且我能够运行容器...

docker apache-spark hadoop docker-compose hive

回答 1 投票 0

如何在spark中使用repartition()指定文件大小

我正在使用 pyspark，我有一个大型数据源，我想对其进行重新分区，并明确指定每个分区的文件大小。我知道使用 repartition(500) 函数会将我的镶木地板分成...

apache-spark pyspark parquet partitioning

回答 1 投票 0

Apache Spark - 当列可以是字符串或数组时解析 JSON

json apache-spark pyspark

回答 1 投票 0

Spark 从多个 SQL 数据库并行读取

我有一个场景，需要将多个 SQL 数据库（每个数据库都有自己的端点和连接）中的大型数据集加载到 Spark 集群中。考虑到这些数据集的大小（数十亿行......

apache-spark pyspark apache-spark-sql

回答 1 投票 0

spark 中的哈希函数

我正在尝试向数据框中添加一列，其中将包含另一列的哈希值。我找到了这篇文档： https://spark.apache.org/docs/2.3.0/api/sql/index.html#hash 并尝试过...

scala apache-spark hash apache-spark-sql

回答 3 投票 0

BloomFilter mergeInPlace() 产生意外行为

下面的 Spark Scala 代码片段重现了我试图理解的行为。在较高的层次上，我们构造两个元组，每个元组包含一个 DF 和一个有关 id 列的布隆过滤器...

apache-spark lazy-evaluation bloom-filter

回答 1 投票 0

使用 Scala/Java 在 Databricks 工作区中保存文件

我的目标是使用 Databricks 运行 Spark 作业，我的挑战是我无法将文件存储在本地文件系统中，因为文件保存在驱动程序中，但是当我的执行程序尝试访问...

scala apache-spark databricks

回答 1 投票 0

Spark 作业继续运行

我已在 ambari-server 中提交了我的 Spark 作业使用以下命令.. ./spark-submit --class customer.core.classname --master 纱线 --numexecutors 2 --driver-内存 2g --executor-内存 2g --exe...

shell apache-spark

回答 4 投票 0

Pyspark Java 白名单类问题

我正在尝试将 hive 元存储迁移到 unity 目录中，以便我必须在现有集群中启用 unity 目录，但我们正在使用下面代码的笔记本之一现在不受支持，

apache-spark pyspark azure-databricks databricks-unity-catalog

回答 1 投票 0

季度最后一天

有没有办法在 PySpark 中本地选择每个季度的最后一天？例如，在包含两列的 df 中 - yyyy_mm_dd 和 sum。我如何返回每个季度最后一天的总和？...

python date apache-spark pyspark apache-spark-sql

回答 2 投票 0

Java Spark 地图为空

java Spark数据集中有一列类型为map，如何使用java Spark检查此映射的列是否为空或具有某些值。我想过滤数据集...

java apache-spark apache-spark-sql

回答 1 投票 0

apache-spark 相关问题

最新问题