如何仅从Google Custom Search API获取HTML网页

问题描述 投票:0回答:1

我正在使用Google CSE JSON API来获取一些网页,稍后我将对其进行剪贴。有时候,我不想从Google那里获取要在网上发布的PDF,DOCX和其他文件。

[我知道此API中有一个名为fileType的参数可以过滤结果,但这对我不起作用,因为我想要相反的结果(排除它们并不排除其他因素)。

  1. [我尝试使用fileType告诉Google这是'html',但两者都不起作用(从example.com/foo之类的结果转换为example.net/bar.html之类的结果)。例如,使用此功能,PHP或ASP中的任何网页均不符合此条件。
  2. 我还尝试将'text/html'设置为fileType值,但是它什么也没做。

[过滤方式可以是任何HTTP GET请求(Content-Type)的响应中包含的text/html标头,但当然,如果Google为我这样做会更好。

谢谢你。

google-custom-search google-api-python-client google-apis-explorer
1个回答
0
投票

嗯,我发现了如何轻松地做到这一点。只需使用q将过滤器添加到Google API调用中的查询filetype:foo参数即可。这样,您可以将搜索过滤为仅所需的结果:

service.cse().list(cx=const.SEARCH_ENGINE_KEY, q='"user manual" -filetype:pdf').execute()

您可以根据需要添加任意数量的filetype过滤器,以获得更好的结果。

现在我觉得这是一个愚蠢的问题。无论如何,我希望这对以后的任何人都有帮助。

© www.soinside.com 2019 - 2024. All rights reserved.