nutch索引元数据没有索引

问题描述 投票:1回答:1

我试图从元标记女巫Nutch索引一些元数据。我已经完成了一步一步的教程Nutch - Parse Metatags,但没有任何索引。

我已经像逐步教程一样配置了这个插件。当我运行爬网过程时,我可以读到15个文档在日志中被编入索引,但是当我查看弹性时,我看不到它们。索引已创建,但它有0个文档。日志中没有错误。

索引器:索引,删除或跳过的文档数:

索引器:15索引(添加/更新)

Indexer:2017-12-20 12:42:58结束,逝去时间:00:00:04

如果我删除索引元数据插件并重新运行爬网过程,则文档将在Elastic中写入,但它们没有元标记。

如何使用Notch和Elastic抓取元标记?当我激活该插件时为什么要编制索引?

我正在使用带有弹性的apache-nutch-1.13。

apache elasticsearch plugins meta-tags nutch
1个回答
0
投票

我找到了解决方案。由于字段名称,弹性引发错误。插件创建的名称是“metadata。*”。弹性不接受字段名称中的点。要解决此问题,您必须配置不带前缀“metedata”的索引元数据。此前缀仅适用于Solr。

<property>
  <name>metatags.names</name>
  <value>description,keywords</value>
  <description>...</description>
</property>
...
<property>
  <name>index.parse.md</name>
  <value>description,keywords</value>
  <description>...</description>
</property>
© www.soinside.com 2019 - 2024. All rights reserved.