将内容长度存储为字段值(也称为索引文档的元数据)

问题描述 投票:1回答:1

我们希望将抓取页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers = true但我不相信服务器的http-header。

所以我们改变了FetchedBolt来写

ProtocolResponse#的getContent()。长度

作为元数据的值(除了“bytes_fetched”指标)。

有没有办法在不更改代码的情况下获得此值? (我们可以在fetch和parse之间添加一个额外的螺栓,希望有一个更简单的解决方案。)

web-crawler stormcrawler
1个回答
1
投票

这可以在协议级别完成,但可能更容易在FetcherBolt中完成。你介意贡献你的代码并打开PR吗?谢谢

© www.soinside.com 2019 - 2024. All rights reserved.