spark-cassandra-connector 相关问题

连接Apache Spark和Cassandra以进行集群查询

使用 RepartitionByCassandraReplica 从 Cassandra 读取数据时复制因子的影响

我有 16 个节点可供使用,我正在使用 Spark、Cassandra 和 Spark-Cassandra 连接器 (SCC)。我想从时间的角度评估这个集群的性能,当一个特定的统计

回答 0 投票 0

java.io.IOException: 在127.0.0.1:9042处打开连接到Cassandra的本地连接失败。

我找到了一个类似的帖子,但它没有帮助。我已经使用Cassandra工作了一段时间,现在我试图设置spark和spark-cassandra-connector。我正在使用IntelliJ IDEA来做这个工作(...

回答 1 投票 0

java.lang.ClassNotFoundException: com.datastax.spark.connector.rdd.partitioner.CassandraPartition。

我已经使用Cassandra工作了一段时间,现在我正在尝试设置spark和spark-cassandra-connector。我正在使用IntelliJ IDEA来做这件事(第一次使用IntelliJ IDEA和Scala),在 ...

回答 1 投票 0

如何使用 sparkSession 在数据框架中写在 pyspark 使用 spark-cassandra-connector。

我正在使用pyspark和spark-cassandra-connector_2.11-2.3.0.jar与cassandra DB。我从一个关键空间读取数据帧,并写入另一个不同的关键空间。这两个关键空间有不同的...

回答 1 投票 0

火花卡桑德拉连接器使用目录问题

我按照这里的说明连接我的spark程序从Cassandra读取数据。下面是我如何配置spark的: val configBuilder = SparkSession.builder .config("spark.sql......")。

回答 1 投票 3

[使用Spark Performance进行Cassandra全表扫描

我需要扫描包含生产中1亿条记录的表。搜索将在第一个聚类关键字上进行。要求是找到唯一的分区键...

回答 1 投票 0

将数据帧从Spark群集写入cassandra群集:分区和性能调整

我有两个群集-1. Cloudera Hadoop- Spark作业在这里运行2.云-Cassandra群集,多个DC在将数据从我的Spark作业写入cassandra群集时,我正在进行重新分区(...

回答 1 投票 0

读取具有空值的UDT的cassandra表,并映射到Spark中的Scala case类

错误显示:原因:java.lang.NullPointerException:请求的GettableToMappedTypeConverter的TypeTag由于Scala 2.10 TypeTag的限制而无法反序列化TypeTag。他们...

回答 1 投票 0

为什么在Spark Shell中使用自定义案例类会导致序列化错误?

为了我的一生,我不明白为什么这不能序列化。我在下面运行spark-shell(粘贴模式)。我在Spark 1.3.1,Cassandra 2.1.6,Scala 2.10 import org.apache.spark._ ...

回答 2 投票 1

如何使用Pyspark将表格格式数据转换为句子或可读格式?

这里是图像中的表格式,所以我应该如何将其转换为可读格式,就像它应该显示为那样— member_id属于区域,对于其他列,依此类推,所以任何人都可以帮帮我...

回答 1 投票 -1

类文件中的常量池数据不一致

我正在尝试使用spark cassandra连接器从表中获取值。 load()产生IncompatibleClassChangeError。我的开发环境定义如下,Intellij:2019.3.2 ...

回答 1 投票 0

Cassandra连接器-joinWithCassandraTable和leftJoinWithCassandraTable之间的区别-无法解析符号

我正在尝试通过使用datastax cassandra连接器加入来从Cassandra访问数据。下面的代码为我工作。我试图在加入tm(...

回答 1 投票 0

如何在cassandra表中添加列描述?

如果可能,我想在cassandra表中添加每列的描述。在创建表或向现有表添加新列时,如何在cassandra表中添加列描述,例如:...

回答 1 投票 0

ClassNotFoundException:com.datastax.spark.connector.rdd.partitioner.CassandraPartition

我正在使用Spark版本2.2.1,在Scala版本2.11.8中使用OpenJDK 64位服务器VM,1.8.0_131,我已通过使用代码JavaSparkContext sc = new JavaSparkContext(conf)添加了jar依赖项; ...

回答 1 投票 0

Cassandra加入后解析Spark RDD

加入Cassandra后,我有一个RDD,但是我无法解析得到的RDD。这是详细的案例类IP(键:字符串,键2:字符串,键3:字符串,键4:字符串,键5:字符串,键6:...

回答 1 投票 0

Spark任务失败时的重复记录

当执行火花任务失败并再次重新启动时,我面临Cassandra表中的重复记录。我尝试插入的表的架构。创建表重复记录(object_id ...

回答 1 投票 3

Cassandra + Spark执行程序超融合

由于Apache Spark是建议用于Cassandra的分布式处理引擎,所以我知道可以与Cassandra节点一起运行Spark执行程序。我的问题是驱动程序和...

回答 3 投票 1

Cassandra:输入端没有可行的选择

我是Cassandra数据库的新手,我正在尝试将Spark数据帧保存到Cassandra DB。创建表时出现异常。 “ SyntaxException:输入上没有可行的选择。” ...

回答 1 投票 0

如何使用python从gcloud集群连接Cassandra

[我们尝试使用Jupyter笔记本使用bash脚本连接群集:!gcloud computing --project“ project_name” ssh --zone“ us-central1-a”“ cassandra-abc-m”之后,我们尝试使用:进行连接。 ..

回答 1 投票 0

如何使用python从gcloud集群连接Cassandra

[我们尝试使用jupyter笔记本使用bash脚本连接群集:!gcloud computing --project“ project_name” ssh --zone“ us-central1-a”“ cassandra-abc-m”之后,我们尝试使用import连接。 ..

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.