解析具有可读性的新闻网址

问题描述 投票:0回答:1

我正在尝试使用像https://zapier.comhttps://ifttt.com这样的新闻网址自动提取数据。

主要目标是将精美版本的新闻网址文本添加到Google电子表格中。尝试使用像“importXML”这样的函数失败,因为我需要分析具有不同结构的URL。

我正在考虑使用像readability.js https://code.google.com/archive/p/arc90labs-readability/downloads之类的东西来将html变成漂亮的文本,因为zapier允许在javascript或python中使用代码片段。

问题是zapier你不能使用这些编程语言(如beautifulsoup)不标准的模块来刮取网址。

有没有机会我可以将url传递给readability.js https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/arc90labs-readability/readability.js的代码,或者对https://mercury.postlight.com/web-parser/进行api调用,返回漂亮的文本?

javascript python google-sheets zapier ifttt
1个回答
0
投票

大卫来自Zapier平台团队。是的,这完全有可能!

今天最简单的事情就是向Mercury Parser发出POST请求,它将返回有关该文章的信息。这将工作几个月(直到他们的API shuts off)。他们已经公开了他们的代码,所以如果你喜欢他们(我做!)你可以将他们的库包装在一次性的CLI app中,Zapier会为你运行他们的代码。说实话,我很快就会为自己使用这个,如果你愿意,可以使用它!那个准备就绪后我会更新这个答案。

© www.soinside.com 2019 - 2024. All rights reserved.