[当我尝试获取表数据作为json时,我可以在以下查询的json输出中找到可区别的子级:
我想获取此表的行和列(文本):-
https://en.wikipedia.org/wiki/List_of_football_clubs_in_India#Assam
JSON输出似乎很复杂,我找不到从中提取文本的好方法。
我不确定,您期望什么。您对页面的API请求实际上是返回封装在JSON结构中的Wikitext。但是,Wikitext(表所在的部分)不是JSON,因此您无法真正将其解释为此类。
我也不太确定,您想要什么信息。如果您想在桌子上放足球俱乐部,那么您唯一的选择就是解析wikitext(您也可以从API返回实际解析的HTML,使其更“容易”)并亲自浏览数据。但是,这可能是容易出错且不有趣的任务。
因此,如果您希望以结构化数据格式获取印度的所有足球俱乐部,则可能最好尝试使用Wikidata。它允许您处理结构化数据以获得所需的信息(如果对象具有指向Wikipedia页面的链接,还可以获取Wikipedia文章的链接)。在您的用例中,尝试使用Wikidata Query service可能是一个好主意。
您可以在其中发出类似的查询:
SELECT ?itemLabel ?sitelink WHERE {
?item wdt:P31 wd:Q476028;
wdt:P17 wd:Q668.
?sitelink schema:isPartOf <https://en.wikipedia.org/>;
schema:about ?item.
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}