将一个字段转换为Solr中的多个字段

问题描述 投票:0回答:1

[我正在尝试从Nutch 1.16爬网将某些数据索引到Solr中,但是某些字段要么具有冗余数据(即"metatag.author":["someone","someone"]"),要么它们只是将每个元数据字段混成一个(即"content":["Raro Bueno\nRaro Bueno\nChuzausen\nAwesome Is Grey, track 6, disc 0/0\n2013-08-17T22:40:55\nelectronic\n30014.912\n"])。

我想知道的是,在建立索引之前或最好是在对数据建立索引之后是否有一条命令来修改“内容”字段,以便将其拆分为同等重要的不同字段(例如metatag.author,track_number和专辑是独立的字段),或者至少将“内容”中的元素显示在自己的标签中,所以类似:

"content":{
   "track_number":["..."],
   "album":[...],
   "tags":[..],
   ...},
...
indexing solr lucene web-crawler nutch
1个回答
0
投票

Nutch提供了一个插件“ index-metadata”,该插件可将解析或内容元数据中可用的任意字段添加到索引文档中。使用插件“ parse-tika”来解析mp3文件,该插件已经填充了解析元数据中的多个字段:

$> bin/nutch parsechecker -Dplugins.includes='protocol-file|parse-tika' \
    file:/.../RainDogs.mp3 
...
contentType: audio/mpeg
...
Status: success(1,0)
Title: Rain Dogs
Outlinks: 0
Content Metadata: Last-Modified=Sat, 07 Aug 2010 11:53:42 GMT Content-Length=4250145 nutch.crawl.score=0.0 Content-Type=audio/mpeg 
Parse Metadata: xmpDM:genre= creator=Tom Waits xmpDM:album=Rain Dogs xmpDM:trackNumber=10 xmpDM:releaseDate=1985 meta:author=Tom Waits xmpDM:artist=Tom Waits dc:creator=Tom Waits xmpDM:audioCompressor=MP3 xmpDM:audioChannelType=Stereo version=MPEG 3 Layer III Version 1 xmpDM:logComment= xmpDM:audioSampleRate=44100 channels=2 dc:title=Rain Dogs Author=Tom Waits xmpDM:duration=177093.546875 Content-Type=audio/mpeg samplerate=44100

现在您可以选择任何字段并将它们添加到索引中。首先,我将使用“ indexchecker”工具测试设置:

$> bin/nutch indexchecker \
    -Dplugins.includes='protocol-file|parse-tika|index-(basic|metadata)' \
    -Dindex.parse.md='creator,xmpDM:album' \
    file:/.../RainDogs.mp3 
contentType: audio/mpeg
creator :       Tom Waits
xmpDM:album :   Rain Dogs
tstamp :        Sun Apr 05 13:12:51 CEST 2020
digest :        0ff28956642335818afc7f00b5420e93
host :
id :    file:/mnt/data/wastl/private2/musik/player_sync/rock/Tom Waits - Rain Dogs/10 - Tom Waits - Rain Dog
title : Rain Dogs
url :   file:/mnt/data/wastl/private2/musik/player_sync/rock/Tom Waits - Rain Dogs/10 - Tom Waits - Rain Dog
content :       Rain Dogs
Rain Dogs
Tom Waits
Rain Dogs, track 10
1985
177093.55

之后,您需要将配置属性转移到nutch-site.xml和ev。也适应Solr模式。

字段“ content”可能有助于输入单个搜索框,尤其是。如果字段未正确填写。还考虑一下您有多个作者(音乐,歌词,编曲)和表演者(独奏,人声,指挥等)的情况]

© www.soinside.com 2019 - 2024. All rights reserved.