我正在开发Google Dataflow,它从pubsub中提取数据,转换为avro,然后将它们写入GCS。根据监控页面,瓶颈是将avro文件写入GCS(占总执行时间的70-80%)。
我用
然后性能大约是每秒200,000个元素。在这种情况下是否很快或者我能做些什么来加快速度? (我真的很想!)
谢谢
您是否考虑过在specific convention之后命名文件以优化访问读写?
为了保持较高的请求率,请避免使用顺序名称。使用完全随机的对象名称将为您提供最佳的负载分配。如果要将序列号或时间戳用作对象名称的一部分,请通过在序列号或时间戳之前添加哈希值来为对象名称引入随机性。
基本上,您需要遵循与在BigTable中选择RowKey相同的规则。