当Nutch的为导向网址抓取ID在SOLR申请是由不同的网址

问题描述 投票:0回答:1

我使用Nutch的1.13和SOLR 5.5大部分时间URL字段= ID字段时SOLR Nutch的索引文件,但我所看到的情况下,当ID是URL字段不同,它发生在当URL1被重定向到URL 2和URL2是牵强有两种情况

第一方案(ID不等于URL)的元数据https://www.givaudan.com/files/giv-2018-integrated-annual-report.pdf(repr)用作URL和https://www.givaudan.com/file/149296/download如solr的ID

https://www.givaudan.com/files/giv-2018-integrated-annual-report.pdf     
Version: 7
Status: 4 (db_redir_temp)
Fetch time: Thu Mar 07 07:18:53 UTC 2019
Modified time: Tue Feb 05 07:18:53 UTC 2019
Retries since fetch: 0
Retry interval: 2592000 seconds (30 days)
Score: 0.0013103343
Signature: 989b82c1e6e738b74f36d64534f95050
Metadata: 
_pst_=temp_moved(13), lastModified=0: 
https://www.givaudan.com/file/149296/download
_rs_=2508
Content-Type=text/html
nutch.protocol.code=302




https://www.givaudan.com/file/149296/download   Version: 7
Status: 2 (db_fetched)
Fetch time: Thu Mar 07 07:19:08 UTC 2019
Modified time: Tue Feb 05 07:19:08 UTC 2019
Retries since fetch: 0
Retry interval: 2592000 seconds (30 days)
Score: 0.0029494818
Signature: 7ecff30181eb4268cfb1dd0b79df7e8a
Metadata: 
_repr_=https://www.givaudan.com/files/giv-2018-integrated-annual-report.pdf
_pst_=success(1), lastModified=1549351146000
_rs_=14411
Content-Type=application/pdf
nutch.protocol.code=200

第二个场景(ID是一样的URL)没有再版元

https://www.givaudan.com/files/giv-2017-annual-report.pdf   Version: 7
Status: 4 (db_redir_temp)
Fetch time: Thu Mar 07 07:18:14 UTC 2019
Modified time: Tue Feb 05 07:18:14 UTC 2019
Retries since fetch: 0
Retry interval: 2592000 seconds (30 days)
Score: 0.0012841906
Signature: e47ac79e3f75007a0c89490e7e2bbdbd
Metadata: 
_pst_=temp_moved(13), lastModified=0: 
https://www.givaudan.com/file/86431/download
_rs_=2537
Content-Type=text/html
nutch.protocol.code=302


https://www.givaudan.com/file/86431/download    Version: 7
Status: 2 (db_fetched)
Fetch time: Thu Mar 07 07:19:46 UTC 2019
Modified time: Tue Feb 05 07:19:46 UTC 2019
Retries since fetch: 0
Retry interval: 2592000 seconds (30 days)
Score: 5.633987E-4
Signature: 03a2542baa11916676f438c662e58b2e
Metadata: 
_pst_=success(1), lastModified=1549350016000
_rs_=5620
Content-Type=application/pdf
nutch.protocol.code=200

是什么再版metada标签表示只db_fetched状态网址索引?目前我使用的URL搜索从SOLR文件,该文件对于大多数的URL但像上述几个优势情况下的正常工作和https://www.givaudan.com/file/149296/download我应该使用ID代替URL从SOLR获取数据我没有得到任何结果,将是产生任何问题

url-redirection nutch
1个回答
0
投票

Nutch的可以通过设计仅根据URL索引文档他们已经成功抓取(HTTP状态200)。在您的例子是在.../download endingin的URL。对于重定向有some heuristics找到最具代表性的URL,在第一个例子是https://www.givaudan.com/files/giv-2017-annual-report.pdf_repr_选为https://www.givaudan.com/file/149296/download URL(以我看来不是一个坏的选择)。然而,如果重定向目标URL早发现作为一个普通的链接或已注入种子启发不起作用。

我应该用ID代替URL来从SOLR数据

是的,因为它不会改变。但是你可以使用被显示为搜索结果页面上的链接“网址”字段。

© www.soinside.com 2019 - 2024. All rights reserved.