如何仅从Google Custom Search API获取HTML网页

Question

我正在使用Google CSE JSON API来获取一些网页，稍后我将对其进行剪贴。有时候，我不想从Google那里获取要在网上发布的PDF，DOCX和其他文件。

[我知道此API中有一个名为fileType的参数可以过滤结果，但这对我不起作用，因为我想要相反的结果（排除它们并不排除其他因素）。

[我尝试使用fileType告诉Google这是'html'，但两者都不起作用（从example.com/foo之类的结果转换为example.net/bar.html之类的结果）。例如，使用此功能，PHP或ASP中的任何网页均不符合此条件。
我还尝试将'text/html'设置为fileType值，但是它什么也没做。

[过滤方式可以是任何HTTP GET请求（Content-Type）的响应中包含的text/html标头，但当然，如果Google为我这样做会更好。

谢谢你。

Answer 1

嗯，我发现了如何轻松地做到这一点。只需使用q将过滤器添加到Google API调用中的查询filetype:foo参数即可。这样，您可以将搜索过滤为仅所需的结果：

service.cse().list(cx=const.SEARCH_ENGINE_KEY, q='"user manual" -filetype:pdf').execute()

您可以根据需要添加任意数量的filetype过滤器，以获得更好的结果。

现在我觉得这是一个愚蠢的问题。无论如何，我希望这对以后的任何人都有帮助。