spark-cassandra-connector 相关问题

连接Apache Spark和Cassandra以进行集群查询

Spark Cassandra 连接器 3.0.0 - 如何启用 DirectJoin - Java

我有cassandra 3.11.9、spark 3.0.1和spark-cassandra-connector 3.0.0(依赖项)。我正在尝试使用 SCC 3.0.0 的直接连接,但似乎当我在下面的数据集上使用连接时,我得到了

回答 2 投票 0

Pyspark cassandra 连接器在写入过程中生成墓碑

我知道在插入数据时,可能会因为数据帧的列中存在空值而创建逻辑删除。为了缓解这个问题并最大限度地减少逻辑删除、插入查询

回答 1 投票 0

简单的Python应用程序加载失败,出现“ClassNotFoundException:无法找到数据源:org.apache.spark.sql.cassandra”

上下文: 很抱歉打扰您,我正在努力安装 Cassandra-Spark 连接器。我的目标是安装它以使用 Spark-SQL,因为 Cassandra 对执行请求有很大的限制。 我有 : ...

回答 1 投票 0

写入 cassandra 时从 Spark 结构化流数据帧中过滤错误记录

我知道我的 Spark Scala 数据帧的第 n 行存在一些问题(假设数据类型不正确)。当我尝试使用 Spark 结构化流在 cassandra 中写入此数据帧时,它失败了......

回答 1 投票 0

Cassandra db 恢复数据库问题

我正在尝试恢复 cassandra 数据库键空间,但在恢复时面临一些问题 错误 - - - - - 信息 [CompactionExecutor:1] 2023-12-19 06:32:07,415 CompactionTask.java:253 - 压缩(54c...

回答 1 投票 0

无法连接到spark

运行Python代码不会连接到Spark,也不会在Cassandra中创建数据库。我已经确认服务已在 docker 上启动并且可以从 PC 访问。我将 .jar 放入...

回答 1 投票 0

Spark 使用不同的 TTL 写入 Cassandra

在Java Spark中,我有一个数据帧,其中有一个“bucket_timestamp”列,它表示该行所属的存储桶的时间。 我想将数据帧写入 Cassandra DB。数据...

回答 2 投票 0

Spark cassandra 连接不会下推谓词/条件。而是在 Spark 中过滤它

我正在尝试执行从一个 cassandra 集群 (v3) 到另一个 cassandra 集群 (v4) 的迁移。 源集群和目标集群中的表和架构相同,如下所示: 创建键空间 mykeys...

回答 1 投票 0

无法将 Spark 与 Cassandra 作为 docker 容器连接

我正在 compose.yaml 中运行 cassandra 和 Spark docker 容器,如下所示: 火花: 图片:docker.io/bitnami/spark:3.4 容器名称:spark_master 环境: - SPARK_MODE=...

回答 1 投票 0

尝试使用 hadoop-aws 和 Spark Java 将 cassansdra 数据集写入 S3 存储桶时出现 badRequest

我正在尝试使用 hadoop-aws 将 Spark 数据集写入 S3,但不断收到 AWSBadRequestException。想知道是否有人知道出了什么问题。 版本: hadoop-aws:3.3.1 火花:3.2.1...

回答 1 投票 0

Apache Spark 和 Cassandra:具有一致性级别 QUORUM 的超级用户权限出现 UnauthorizedException

我正在使用 Apache Spark 将数据写入 Cassandra 集群。该部署基于 kubernetes,并使用 cassandra helm Chart。我偶尔会遇到 SparkException,导致作业中止...

回答 1 投票 0

如何在 DSE 中配置 Spark 作业服务器以对作业进行排队直至资源可用?

我们使用的是 DataStax Enterprise,它支持 Spark 和 Spark Job 服务器。 我们有3个节点的olap casandra集群,每个节点配置8核处理器和32G RAM 就我们的sp...

回答 1 投票 0

无法连接到 Docker 中的 Cassandra,使用 cqlsh 获取“无法连接到任何服务器”

我正在尝试使用 PySpark 和 Docker 构建一个容器化的迷你批处理数据处理管道,之后处理的数据将存储在 Cassandra 中。我正在为

回答 1 投票 0

java.lang.NoClassDefFoundError: com/datastax/oss/driver/internal/core/util/collection/SimpleQueryPlan while running apache-spark connector springboot

我试图在 Spring Boot 中运行 Apache-Spark 查询以从 Cassandra 检索数据,但是我的终端上不断出现以下问题。 注:连接成功到cassandr...

回答 1 投票 0

Datastax Spark Cassandra 连接器:无法建立 SSL 连接:WRONG_VERSION_NUMBER 错误

我正在尝试使用 Datastax Spark Cassanra Connector 将 PySpark 数据框保存到 Cassandra DB。 我设置了 spark.cassandra.connection.ssl.enabled,创建了一个 SparkSession 并尝试保存我的数据框。还有……

回答 0 投票 0

如何设置 Spark-Cassandra 连接器以连接到 Kubernetes 上的 Cassandra 集群

当 Cassandra 在 k8s 上时,我们使用 Spark-Cassandra 连接器的写入性能非常差。 为清楚起见- 我们正在尝试写入大约 200GB 有 16 个执行器,每个执行器有 4 个核心和 ...

回答 1 投票 0

How to fix org.apache.spark.SparkException: Job aborted due to stage failure Task & com.datastax.spark.connector.rdd.partitioner.CassandraPartition

在我的项目中,我正在使用 spark-Cassandra-connector 从 Cassandra 表中读取并将其进一步处理为 JavaRDD,但是在将 Cassandra 行处理为 javaRDD 时我遇到了问题。 org.apache ....

回答 1 投票 0

读取 CQL 时间类型返回 UnsupportedOperationException,“No Encoder found for java.sql.Time”

我正在尝试使用 datastax 连接器将 Cassandra 表读入 Spark。我的表有 2 列使用 TIME 数据类型。我使用 java.sql.Time 作为数据集中的相应类型,但是

回答 1 投票 0

从 Cassandra 读取 TIME 类型

我正在尝试使用 datastax 连接器将 Cassandra 表读入 Spark。我的表有 2 列使用 TIME 数据类型。我使用 java.sql.Time 作为数据集中的相应类型,但是

回答 0 投票 0

使用RepartitionByCassandraReplica 复制因子有什么影响?

我有 16 个节点可供使用,我正在使用 Spark、Cassandra 和 Spark-Cassandra 连接器 (SCC)。我想从时间的角度评估这个集群的性能,当一个特定的统计

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.