我想提取这个和其他文章的SUBHEADING:https://www.dr.dk/nyheder/regionale/trekanten/legos-regnskab-viser-tilbagegang
那就是:“乐高刚刚提交了2017年的账户,曲线指向下方。”
但是,它似乎不像python模块报纸可以做到这一点。
我错过了什么吗?还有其他模块可以吗?我也尝试过可读性和html2text。
我的代码:
from newspaper import Article
url = 'https://www.dr.dk/nyheder/regionale/trekanten/legos-regnskab-viser-tilbagegang'
article = Article(url)
article.download()
article.parse()
print (article.title)
print (article.text)
我认为你应该使用:
print(article.meta_description)
这将打印文章的副标题。