使用dsbulk在cassandra中加载数据时出现问题

问题描述 投票:2回答:2

我在使用dsbulk从.csv文件将数据加载到表中时遇到问题。我在错误日志中得到如下内容。

引起:com.datastax.driver.core.exceptions.OperationTimedOutException:[/10.0.126.13:9042]超时等待服务器响应

这个环境是3个节点的POC环境,有8个CPU和64G内存。根据我的观察,当我运行dsbulk命令时,它会占用服务器上的所有CPU,并且内存消耗也会很高。

如果你可以给我指针微调dsbulk,通过它可以减少cpu使用/内存消耗。如果此操作速度变慢,并且我可以使用它来获得可管理的性能。

cassandra datastax-enterprise dsbulk
2个回答
1
投票

您可以指定--executor.maxPerSecond选项以限制每秒的操作数。见documentation for DSBulk

你也可以试着调整batching options,比如--batch.maxBatchStatements

并且还建议从单独的机器运行DSBulk以防止它影响DSE的性能。 (这是所有负载测试的常见建议等)


0
投票

谢谢大家的帮助我能够通过下载最新版本的debulk并将批量大小设置为5000来解决此问题。

© www.soinside.com 2019 - 2024. All rights reserved.