我正在使用Google CSE JSON API来获取一些网页,稍后我将对其进行剪贴。有时候,我不想从Google那里获取要在网上发布的PDF,DOCX和其他文件。
[我知道此API中有一个名为fileType
的参数可以过滤结果,但这对我不起作用,因为我想要相反的结果(排除它们并不排除其他因素)。
fileType
告诉Google这是'html'
,但两者都不起作用(从example.com/foo
之类的结果转换为example.net/bar.html
之类的结果)。例如,使用此功能,PHP或ASP中的任何网页均不符合此条件。'text/html'
设置为fileType
值,但是它什么也没做。[过滤方式可以是任何HTTP GET请求(Content-Type
)的响应中包含的text/html
标头,但当然,如果Google为我这样做会更好。
谢谢你。
嗯,我发现了如何轻松地做到这一点。只需使用q
将过滤器添加到Google API调用中的查询filetype:foo
参数即可。这样,您可以将搜索过滤为仅所需的结果:
service.cse().list(cx=const.SEARCH_ENGINE_KEY, q='"user manual" -filetype:pdf').execute()
您可以根据需要添加任意数量的filetype
过滤器,以获得更好的结果。
现在我觉得这是一个愚蠢的问题。无论如何,我希望这对以后的任何人都有帮助。