我们可以在Apache Pinot集群之外创建细分。那很好。但是我不明白它如何将段从深度存储上传到脱机服务器。例如,
我将片段写入Hdfs。然后,我将段tar推入工作。如果我听错了,segmenttarpushjob从深度存储(s3)下载创建的段,然后通过rest api将段上传到控制器,然后控制器将段发送到离线服务器。
此过程在将段发送给控制器时会不会造成瓶颈?如果脱机服务器直接从深度存储下载段,会发生什么?
有两种方法可以将数据推送到Pinot Controller
基于URI:在此模式下,调用方仅提供段URI和段元数据。如果未提供分段元数据,则控制器将获取分段并提取元数据。控制器需要用于验证的元数据。在这种模式下,服务器将直接从深度存储中拉出分段]]
基于有效负载:在此模式下,调用方将段tarball作为有效载荷发送,并且控制器将此段tarball存储在其dataDir中(可以是NFS或再次进行深度存储)。控制器更新Zookeeper中的片段元数据以指示片段的位置。服务器使用元数据中的位置来获取段