性能：Google Dataflow将avro文件写入GCS

问题描述投票：1回答：1

我正在开发Google Dataflow，它从pubsub中提取数据，转换为avro，然后将它们写入GCS。根据监控页面，瓶颈是将avro文件写入GCS（占总执行时间的70-80％）。

我用

然后性能大约是每秒200,000个元素。在这种情况下是否很快或者我能做些什么来加快速度？（我真的很想！）

谢谢

java

apache-beam

dataflow

1个回答

0
投票

您是否考虑过在specific convention之后命名文件以优化访问读写？

为了保持较高的请求率，请避免使用顺序名称。使用完全随机的对象名称将为您提供最佳的负载分配。如果要将序列号或时间戳用作对象名称的一部分，请通过在序列号或时间戳之前添加哈希值来为对象名称引入随机性。

基本上，您需要遵循与在BigTable中选择RowKey相同的规则。