elasticsearch-spark 相关问题


Apache Spark Structured Streaming 中 Spark UI 上的查询和阶段卡住了

我在 EMR 集群 (6.14) 上使用 Apache Spark Structured Streaming (3.1.2)。 Spark 结构化流将数据从 Apache Kafka 流式传输到 Delta Lake 表。当我打开 Spark UI 时,我看到以下内容


Kibana 无法从 Elasticsearch 节点检索版本信息。 getaddrinfo EAI_AGAIN elasticsearch

我正在尝试通过 docker-compose.yml 文件安装 kibana 和 elasticsearch,我得到了 {"type":"log","@timestamp":"2024-01-09T18:24:14+00:00 “,”标签...


Elasticsearch:何时将 omit_norms 选项设置为 false

elasticsearch 中 omit_norms 选项的良好用例是什么?我在 es 网站上找不到足够的解释。


将文档写入磁盘时,ElasticSearch(lucene) 段是必须的吗?

我想知道将文档写入磁盘时是否需要 Lucene 段。 以下是文档如何从 ElasticSearch 写入磁盘的简要过程 首先,将ElasticSearch文档写入...


如何记录所有执行的elasticsearch查询

我想查看针对 Elasticsearch 实例执行的所有查询。是否可以在调试模式下运行elasticsearch,或者告诉它存储针对它执行的所有查询? 目的是...


Apache Spark 中的 join 和 cogroup 有什么区别

Apache Spark 中的 join 和 cogroup 有什么区别?每种方法的用例是什么?


Llama-index 如何针对 OpenSearch Elasticsearch 索引执行搜索查询?

我有以下代码,可以在 Opensearch Elasticsearch 中创建索引: def openes_initiate(文件): 端点 = getenv("OPENSEARCH_ENDPOINT", "http://localhost:9200&...


kedro ipython,如何访问spark会话

我能够在 kedro ipython 会话中加载 Spark 数据集。 首先,我按照此处所述配置了 Spark 会话。 然后我用 ipython --ext kedro.extras.exten 启动了 kedro ipython 会话...


在 Spark 的作业之间移动执行器的开销?

我正在阅读一篇有关 Spark 作业调度的论文,我对他们对 Spark 的概述感到困惑: Spark作业由一个DAG组成,其节点是作业的执行阶段。每个阶段代表...


Golang elasticsearch TypedClient 聚合如何循环结果

我正在使用 Elastic 的官方 Elasticsearch Go Typed Client 包来查询 uniq 服务名称,为此我构建了一个聚合搜索。查询成功,响应包含Bu...


使用elasticsearch 6过滤文档中的对象数组,删除不匹配的对象

在elasticsearch 6.0中,我创建了一个具有嵌套映射类型的索引: 放置节点2 { “设置” : { “指数” : { “分片数量”:3, ...


将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件,所以我首先将excel文件读入pandas数据帧,然后尝试将pandas数据帧转换为spark数据帧,但我得到了...


Elasticsearch 密码重置失败并显示 https

当我尝试使用以下命令重置弹性搜索密码时(在弹性搜索的 bin 目录中)。 elasticsearch-重置密码-u弹性-i 它抛出以下错误。 警告:忽略 JAVA_...


写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题(假设数据类型不正确)。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时,它失败了......


ElasticSearch 正则表达式使用“ ”

我知道ElasticSearch不使用PRCE,并且它的操作有限,但我想知道是否有什么方法可以使用 在正则表达式中。 例如,弹性搜索不支持 \d 但我们可以使用 [0...


我有一个elasticsearch索引,一个名为“authority”的字段,它有多个字符串值,我想要最后一个逗号后面的最后一个值?

elasticsearch 索引名称为 data1 @authority 字段有时包含多个值或单个值 “@权威”: [ “恒星”, “克里斯”, “利昂娜”, “我……


如何在intellij中设置和运行scala-spark?

我正在尝试运行使用 Intellij 来构建用 scala 编写的 Spark 应用程序。当我执行scala程序时,出现以下错误: 线程“main”java.lang 中出现异常。


向 ElasticSearch 中的文档添加新字段

我在ES中有一个索引,其文档格式如下 "_id": "9hGu8IwBXomVfLb-UJJo", “_score”:1, “_来源”: { “主持人”: { &


Glue Dynamic Frame 比普通 Spark 慢得多

在下图中,我们使用三种不同配置运行相同的胶水作业,以了解如何写入 S3: 我们使用动态帧写入S3 我们用纯spark框架写信给S...


将 Spark-Submit 的路径传递到 Python 脚本中

我想将我在 Spark-submit 命令行命令中使用的路径传递到我的 Python 脚本中,以便在写出文件时使用。 (注意:不是当前工作目录,也不是


无法将 Spark 数据帧写入 Mongo

使用 mongo-connector 版本 10.0.1 以下是我的配置 .config("spark.mongodb.write.connection.uri","mongodb://127.0.0.1:27017/") .config("spark.mongodb.write.database&


通过全局初始化脚本启用 Databricks 集群日志

我想通过全局初始化脚本为工作区中的所有集群(新的或旧的)设置集群日志传送。 我尝试通过自定义 Spark conf 添加底层 Spark 属性 - /databricks/dri...


有没有办法将图像的内容(存储在spark Dataframe中)与pyspark并行写入文件?

我有一个 Spark Dataframe,其中每一行都包含两个项目:文件名(带有扩展名,例如 .jpg)和文件的内容(以字节为单位)。 我想写一个过程...


Spark SQL 不支持 JSONPATH 通配符的任何解决方法

spark.sql("""select get_json_object('{"k":{"value":"abc"}}', '$.*.value') as j""").show() 这会导致 null,而它应该返回 'a...


在结构化流 API 中跨多个集群使用共享 Kafka 主题执行 Spark 作业

我正在开发一个 Spark 项目,我需要在两个不同的集群上运行作业,两个集群都使用相同的 Kafka 主题。我希望这些作业能够有效地共享负载并平衡


Kibana_system 无法验证弹性用户

我遇到了一个不知道如何解决的问题。 我已在本地安装了elasticsearch和kibana版本8.7.1,并按照本指南创建了证书: https://quachtd.com/


如何在 Cloud Composer 2 的 KerbenetesPodOperator 中指定非默认计算类

我正在 Cloud Composer 2 中使用 KurbenetesPodOperator 创建 pod 来执行 Spark 作业。 默认情况下,当您使用


在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框,其中有一列,如下所示: +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...


Elastic APM 服务器在 Docker 中不可用

我正在尝试运行 apm-server 使用 apm-agent 从基于 java 的应用程序收集并发送给 Elasticsearch。 这是我的撰写文件: 服务: 订单服务: 图片:apm-java/order-service:1.0.0 ...


Elasticsearch:如何在curl 命令中使用Painless 脚本引用嵌套字段名称

我有一个轻松的脚本,可以在控制台中运行,但在curl中失败。该脚本引用嵌套字段 (event.orinal)。 在 Kibana 控制台中,此语句运行良好: ctx._source.event.remove('


从spark/scala项目代码中资源文件夹中的sql文件读取查询

我在 IntelliJ 中的文件夹结构如下 src-->主-->资源-->sql-->samplequery.sql 我在文件夹 src--> main-->scala-... 中有 scala 对象文件samplequeryexecute


pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("


Spring data elasticsearch repository.count() 返回“当前令牌 (VALUE_NUMBER_INT) 不是布尔类型”

我正在将一个相当旧的应用程序从 Spring Boot 2.0.2 升级到最新的应用程序。 中期目标是更新到最新版本 2 (2.7.18) 所以这可能是一个依赖版本...


Databricks Spark:java.lang.OutOfMemoryError:GC 开销超出限制 i

我正在 Databricks 集群中执行 Spark 作业。我通过 Azure 数据工厂管道触发作业,它以 15 分钟的间隔执行,因此在成功执行三到四次之后...


恢复Elasticsearch快照时出错

我使用curl 从 1 个集群创建了一个快照。当我尝试在另一个集群上使用curl 恢复快照时,第二个集群无法分配所有索引。集群 1 有 2 个节点,集群 2 有 1 个节点。我...


如何使用诗歌从 test.pypi.org 安装软件包?

我想在我的项目中使用包的预发布版本(https://test.pypi.org/project/delta-spark/2.1.0rc1/)。 我正在使用诗歌来管理我的 pyproject.toml。我该怎么做呢? 换句话说...


我在安装 pyspark 时遇到错误,如何修复它?

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中,出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。 至


JUNIT 测试用例-Spark JDBC

我是 Java 编程的新手。我有一个从Oracle数据库读取数据的方法。现在我需要帮助使用 JUnit 框架为以下代码编写测试用例。 数据集 df = Spark.read().


为什么ElasticSearch将主分片和副本分片放在同一主机上?

这是添加到现有集群测试中的新主机,触发了重新平衡过程。 两个节点node-5、node-6位于新物理主机中。 对于每个分片,只有一个主分片...


为什么ElasticSearch将主分片和副本分片放在同一主机上?

这是添加到现有集群测试中的新主机,触发了重新平衡过程。 两个节点node-5、node-6位于新主机中。 对于每个分片,只有一个主分片和一个


将 Fastq 文件直接读取到 Pandas Dataframe 中

我正在尝试将 Fastq 文件直接读入 pandas 数据帧,类似于下面的链接: 将 FASTQ 文件读入 Spark 数据帧 我到处搜索,但找不到可行的选择。 电流...


RestHighLevelClient 在尝试向 ElasticSearch 发送请求时给出“无法识别的参数”

我正在尝试连接到我的应用程序中的一个本地 ES 系统。以前它是一个不同的集群。最近,我们的 ES 团队将其迁移到启用了基本身份验证的不同集群。我...


火花计数未给出正确结果

我是 Spark 的新手,最近了解到它会在调用某个操作时执行所有转换。在搜索过程中,我找到了一个简单的代码来测试它,结果并不符合预期。 他...


如何在 PySpark 中按条件聚合相邻行进行分组

我在 Spark 数据框中进行条件分组时遇到问题 下面是完整的例子 我有一个数据框,已按用户和时间排序 活动地点用户 0 观看


如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5?

我正在开发一个 PySpark ETL 管道应用程序,以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时,我使用本地 mas...


Spark JDBC 写入 Teradata - 如何编写并行查询

我有一个大约 2000 万行和 5 列的数据帧,我想将其写入 Teradata。我面临的问题是它需要一个绝对年龄来加载,因为我们可以使用一个分区,因为表将......


有没有办法确定日志的优先级并将其发送到elasticsearch,以优化服务器上的日志负载

需要读取我的环境中所有应用程序日志中的严重、错误和警告。如果在 1000 次警告后发生严重情况,我希望 Logstash 立即发送它,并给予较高的优先级......


在 PySpark 中执行不带 OrderBy 的窗口函数

我有一个数据框,其中数据的顺序已经正确。 现在我需要在数据帧上执行诸如超前/滞后之类的窗口函数,但是根据 Spark,orderBy 是强制性的,它不允许我喜欢 lea...


有没有办法在不使用collect()的情况下将数据帧值收集为列表

我面临着如何在不使用收集方法的情况下有效过滤 Spark DataFrame 的挑战,这可能会导致大型数据集上的性能问题。具体来说,我需要过滤


Spark中同规格硬件上本地处理和集群处理有什么区别?

本地模式 vs 集群模式 我是一个刚刚使用EMR的新手。 我正在使用 AWS EMR。 有主节点、核心节点、任务节点。 为什么要使用多核/任务?我不能只用一个吗?难道是……


© www.soinside.com 2019 - 2024. All rights reserved.