NLP人类生成的字幕

问题描述 投票:0回答:1

我需要高质量的人工字幕。如何查询维基百科存储的标题。示例返回所有包含单词直升飞机的标题

nlp artificial-intelligence wikipedia
1个回答
0
投票

您无法查询Wikipedia字幕(当然,可以对它们进行屏幕抓取)。 Wikimedia Commons虽然有一些机器可读的标题(正在转换为更具结构化的数据格式,这是in the process),但转储尚不可用(请参阅T221917T174031),因此您可能不会最好使用这些。

如果您不需要大量数据,则可以查看Commons的每日图片,其标题以可预测的名称Template:Potd/YYYY-MM-DD_(LL)(例如https://commons.wikimedia.org/wiki/Template:Potd/2020-05-01_(en))存储在单独的页面中。不过,您仍然必须进行一些轻量级的Wikitext或HTML解析。

© www.soinside.com 2019 - 2024. All rights reserved.