性能:Google Dataflow将avro文件写入GCS

问题描述 投票:1回答:1

我正在开发Google Dataflow,它从pubsub中提取数据,转换为avro,然后将它们写入GCS。根据监控页面,瓶颈是将avro文件写入GCS(占总执行时间的70-80%)。

我用

  • n1-standard-8的10名工人
  • 10个numShards
  • 5秒固定窗口
  • GCS和Dataflow端点的区域相同。

然后性能大约是每秒200,000个元素。在这种情况下是否很快或者我能做些什么来加快速度? (我真的很想!)

谢谢

java apache-beam dataflow
1个回答
0
投票

您是否考虑过在specific convention之后命名文件以优化访问读写?

为了保持较高的请求率,请避免使用顺序名称。使用完全随机的对象名称将为您提供最佳的负载分配。如果要将序列号或时间戳用作对象名称的一部分,请通过在序列号或时间戳之前添加哈希值来为对象名称引入随机性。

基本上,您需要遵循与在BigTable中选择RowKey相同的规则。

© www.soinside.com 2019 - 2024. All rights reserved.