elasticsearch-spark 相关问题

Apache Spark Structured Streaming 中 Spark UI 上的查询和阶段卡住了

我在 EMR 集群 (6.14) 上使用 Apache Spark Structured Streaming (3.1.2)。 Spark 结构化流将数据从 Apache Kafka 流式传输到 Delta Lake 表。当我打开 Spark UI 时，我看到以下内容

Kibana 无法从 Elasticsearch 节点检索版本信息。 getaddrinfo EAI_AGAIN elasticsearch

我正在尝试通过 docker-compose.yml 文件安装 kibana 和 elasticsearch，我得到了 {"type":"log","@timestamp":"2024-01-09T18:24:14+00:00 “，”标签...

Elasticsearch：何时将 omit_norms 选项设置为 false

elasticsearch 中 omit_norms 选项的良好用例是什么？我在 es 网站上找不到足够的解释。

将文档写入磁盘时，ElasticSearch(lucene) 段是必须的吗？

我想知道将文档写入磁盘时是否需要 Lucene 段。以下是文档如何从 ElasticSearch 写入磁盘的简要过程首先，将ElasticSearch文档写入...

如何记录所有执行的elasticsearch查询

我想查看针对 Elasticsearch 实例执行的所有查询。是否可以在调试模式下运行elasticsearch，或者告诉它存储针对它执行的所有查询？目的是...

Apache Spark 中的 join 和 cogroup 有什么区别

Apache Spark 中的 join 和 cogroup 有什么区别？每种方法的用例是什么？

Llama-index 如何针对 OpenSearch Elasticsearch 索引执行搜索查询？

我有以下代码，可以在 Opensearch Elasticsearch 中创建索引： def openes_initiate(文件): 端点 = getenv("OPENSEARCH_ENDPOINT", "http://localhost:9200&...

kedro ipython，如何访问spark会话

我能够在 kedro ipython 会话中加载 Spark 数据集。首先，我按照此处所述配置了 Spark 会话。然后我用 ipython --ext kedro.extras.exten 启动了 kedro ipython 会话...

在 Spark 的作业之间移动执行器的开销？

我正在阅读一篇有关 Spark 作业调度的论文，我对他们对 Spark 的概述感到困惑： Spark作业由一个DAG组成，其节点是作业的执行阶段。每个阶段代表...

Golang elasticsearch TypedClient 聚合如何循环结果

我正在使用 Elastic 的官方 Elasticsearch Go Typed Client 包来查询 uniq 服务名称，为此我构建了一个聚合搜索。查询成功，响应包含Bu...

使用elasticsearch 6过滤文档中的对象数组，删除不匹配的对象

在elasticsearch 6.0中，我创建了一个具有嵌套映射类型的索引：放置节点2 { “设置” ： { “指数” ： { “分片数量”：3， ...

将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件，所以我首先将excel文件读入pandas数据帧，然后尝试将pandas数据帧转换为spark数据帧，但我得到了...

Elasticsearch 密码重置失败并显示 https

当我尝试使用以下命令重置弹性搜索密码时（在弹性搜索的 bin 目录中）。 elasticsearch-重置密码-u弹性-i 它抛出以下错误。警告：忽略 JAVA_...

写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题（假设数据类型不正确）。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时，它失败了......

ElasticSearch 正则表达式使用“ ”

我知道ElasticSearch不使用PRCE，并且它的操作有限，但我想知道是否有什么方法可以使用在正则表达式中。例如，弹性搜索不支持 \d 但我们可以使用 [0...

我有一个elasticsearch索引，一个名为“authority”的字段，它有多个字符串值，我想要最后一个逗号后面的最后一个值？

elasticsearch 索引名称为 data1 @authority 字段有时包含多个值或单个值 “@权威”： [ “恒星”， “克里斯”， “利昂娜”， “我……

如何在intellij中设置和运行scala-spark？

我正在尝试运行使用 Intellij 来构建用 scala 编写的 Spark 应用程序。当我执行scala程序时，出现以下错误：线程“main”java.lang 中出现异常。

向 ElasticSearch 中的文档添加新字段

我在ES中有一个索引，其文档格式如下 "_id": "9hGu8IwBXomVfLb-UJJo", “_score”：1， “_来源”： { “主持人”： { &

Glue Dynamic Frame 比普通 Spark 慢得多

在下图中，我们使用三种不同配置运行相同的胶水作业，以了解如何写入 S3：我们使用动态帧写入S3 我们用纯spark框架写信给S...

将 Spark-Submit 的路径传递到 Python 脚本中

我想将我在 Spark-submit 命令行命令中使用的路径传递到我的 Python 脚本中，以便在写出文件时使用。（注意：不是当前工作目录，也不是

无法将 Spark 数据帧写入 Mongo

使用 mongo-connector 版本 10.0.1 以下是我的配置 .config("spark.mongodb.write.connection.uri","mongodb://127.0.0.1:27017/") .config("spark.mongodb.write.database&

通过全局初始化脚本启用 Databricks 集群日志

我想通过全局初始化脚本为工作区中的所有集群（新的或旧的）设置集群日志传送。我尝试通过自定义 Spark conf 添加底层 Spark 属性 - /databricks/dri...

有没有办法将图像的内容（存储在spark Dataframe中）与pyspark并行写入文件？

我有一个 Spark Dataframe，其中每一行都包含两个项目：文件名（带有扩展名，例如 .jpg）和文件的内容（以字节为单位）。我想写一个过程...

Spark SQL 不支持 JSONPATH 通配符的任何解决方法

spark.sql("""select get_json_object('{"k":{"value":"abc"}}', '$.*.value') as j""").show() 这会导致 null，而它应该返回 'a...

在结构化流 API 中跨多个集群使用共享 Kafka 主题执行 Spark 作业

我正在开发一个 Spark 项目，我需要在两个不同的集群上运行作业，两个集群都使用相同的 Kafka 主题。我希望这些作业能够有效地共享负载并平衡

Kibana_system 无法验证弹性用户

我遇到了一个不知道如何解决的问题。我已在本地安装了elasticsearch和kibana版本8.7.1，并按照本指南创建了证书： https://quachtd.com/

如何在 Cloud Composer 2 的 KerbenetesPodOperator 中指定非默认计算类

我正在 Cloud Composer 2 中使用 KurbenetesPodOperator 创建 pod 来执行 Spark 作业。默认情况下，当您使用

在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框，其中有一列，如下所示： +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...

Elastic APM 服务器在 Docker 中不可用

我正在尝试运行 apm-server 使用 apm-agent 从基于 java 的应用程序收集并发送给 Elasticsearch。这是我的撰写文件：服务：订单服务：图片：apm-java/order-service:1.0.0 ...

Elasticsearch：如何在curl 命令中使用Painless 脚本引用嵌套字段名称

我有一个轻松的脚本，可以在控制台中运行，但在curl中失败。该脚本引用嵌套字段 (event.orinal)。在 Kibana 控制台中，此语句运行良好： ctx._source.event.remove('

从spark/scala项目代码中资源文件夹中的sql文件读取查询

我在 IntelliJ 中的文件夹结构如下 src-->主-->资源-->sql-->samplequery.sql 我在文件夹 src--> main-->scala-... 中有 scala 对象文件samplequeryexecute

pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("

Spring data elasticsearch repository.count() 返回“当前令牌 (VALUE_NUMBER_INT) 不是布尔类型”

我正在将一个相当旧的应用程序从 Spring Boot 2.0.2 升级到最新的应用程序。中期目标是更新到最新版本 2 (2.7.18) 所以这可能是一个依赖版本...

Databricks Spark：java.lang.OutOfMemoryError：GC 开销超出限制 i

我正在 Databricks 集群中执行 Spark 作业。我通过 Azure 数据工厂管道触发作业，它以 15 分钟的间隔执行，因此在成功执行三到四次之后...

恢复Elasticsearch快照时出错

我使用curl 从 1 个集群创建了一个快照。当我尝试在另一个集群上使用curl 恢复快照时，第二个集群无法分配所有索引。集群 1 有 2 个节点，集群 2 有 1 个节点。我...

如何使用诗歌从 test.pypi.org 安装软件包？

我想在我的项目中使用包的预发布版本（https://test.pypi.org/project/delta-spark/2.1.0rc1/）。我正在使用诗歌来管理我的 pyproject.toml。我该怎么做呢？换句话说...

我在安装 pyspark 时遇到错误，如何修复它？

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中，出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。至

JUNIT 测试用例-Spark JDBC

我是 Java 编程的新手。我有一个从Oracle数据库读取数据的方法。现在我需要帮助使用 JUnit 框架为以下代码编写测试用例。数据集 df = Spark.read().

为什么ElasticSearch将主分片和副本分片放在同一主机上？

这是添加到现有集群测试中的新主机，触发了重新平衡过程。两个节点node-5、node-6位于新物理主机中。对于每个分片，只有一个主分片...

为什么ElasticSearch将主分片和副本分片放在同一主机上？

这是添加到现有集群测试中的新主机，触发了重新平衡过程。两个节点node-5、node-6位于新主机中。对于每个分片，只有一个主分片和一个

将 Fastq 文件直接读取到 Pandas Dataframe 中

我正在尝试将 Fastq 文件直接读入 pandas 数据帧，类似于下面的链接：将 FASTQ 文件读入 Spark 数据帧我到处搜索，但找不到可行的选择。电流...

RestHighLevelClient 在尝试向 ElasticSearch 发送请求时给出“无法识别的参数”

我正在尝试连接到我的应用程序中的一个本地 ES 系统。以前它是一个不同的集群。最近，我们的 ES 团队将其迁移到启用了基本身份验证的不同集群。我...

火花计数未给出正确结果

我是 Spark 的新手，最近了解到它会在调用某个操作时执行所有转换。在搜索过程中，我找到了一个简单的代码来测试它，结果并不符合预期。他...

如何在 PySpark 中按条件聚合相邻行进行分组

我在 Spark 数据框中进行条件分组时遇到问题下面是完整的例子我有一个数据框，已按用户和时间排序活动地点用户 0 观看

如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5？

我正在开发一个 PySpark ETL 管道应用程序，以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时，我使用本地 mas...

Spark JDBC 写入 Teradata - 如何编写并行查询

我有一个大约 2000 万行和 5 列的数据帧，我想将其写入 Teradata。我面临的问题是它需要一个绝对年龄来加载，因为我们可以使用一个分区，因为表将......

有没有办法确定日志的优先级并将其发送到elasticsearch，以优化服务器上的日志负载

需要读取我的环境中所有应用程序日志中的严重、错误和警告。如果在 1000 次警告后发生严重情况，我希望 Logstash 立即发送它，并给予较高的优先级......

在 PySpark 中执行不带 OrderBy 的窗口函数

我有一个数据框，其中数据的顺序已经正确。现在我需要在数据帧上执行诸如超前/滞后之类的窗口函数，但是根据 Spark，orderBy 是强制性的，它不允许我喜欢 lea...

有没有办法在不使用collect()的情况下将数据帧值收集为列表

我面临着如何在不使用收集方法的情况下有效过滤 Spark DataFrame 的挑战，这可能会导致大型数据集上的性能问题。具体来说，我需要过滤

Spark中同规格硬件上本地处理和集群处理有什么区别？

本地模式 vs 集群模式我是一个刚刚使用EMR的新手。我正在使用 AWS EMR。有主节点、核心节点、任务节点。为什么要使用多核/任务？我不能只用一个吗？难道是……

elasticsearch-spark 相关问题

最新问题