我们希望将抓取页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers = true但我不相信服务器的http-header。
所以我们改变了FetchedBolt来写
ProtocolResponse#的getContent()。长度
作为元数据的值(除了“bytes_fetched”指标)。
有没有办法在不更改代码的情况下获得此值? (我们可以在fetch和parse之间添加一个额外的螺栓,希望有一个更简单的解决方案。)
这可以在协议级别完成,但可能更容易在FetcherBolt中完成。你介意贡献你的代码并打开PR吗?谢谢