Google BigQuery GDELT GKG 2.0 中主题的层次结构

问题描述 投票:0回答:1

我们正在使用 Google bigquery 来分析 GDELT GKG 2.0 数据集,并希望更好地了解如何基于主题(或 V2Themes)进行查询。更具体地说,我们对主题的层次结构(层次结构是如何创建的)感兴趣。例如,我们想要找出与自然灾害相关的所有主题的层次结构,代码会产生以下输出

themes_code_output

显然,某些层次结构级别是用下划线分隔的,而另一些则不是。而且层次结构的粒度有点混乱,这使得结构不太清晰。

您是否有关于这些主题如何构建(层次结构级别)的任何来源/信息?

google-bigquery hierarchy gdelt
1个回答
0
投票

gkg 中的主题来源广泛。它们没有记录在案。

我在 2019 年的某个时候采样了几周,发现了超过 22K 个独特的主题。

有些来自明显的集合,例如 WB = 世界银行,并遵循他们自己建立的层次结构 WB_2378_SECURITY_ARCHITECTURE,而其他一些,如 TAX_(分类法)则表明似乎是 gkg 特定的分组,例如 TAX_WORLDLANGUAGES_(特定语言)或 TAX_FNCACT_(此处的角色或标题) .

像 NATURAL_DISASTER_POWERFUL_STORMS 这样的东西将始终将 NATURAL_DISASTER 也列为主题。所以你可以只查找 NATURAL_DISASTER,它会返回任何带有该条目的条目,并且该条目几乎肯定会有一个更具体的主题,例如 NATURAL_DISASTER_POWERFUL_STORMS。

最后,您确实需要查询独特的主题,对它们进行排序并开始进行自己的分析。我对它们有很好的理解,但这一切都在我的脑海里。

尽管这看起来很痛苦,但所有这些列表中的数据量非常有趣。主题是一个强大的领域并且人口众多。

作为某些主题组的示例,我们有: 行为_ 航空事故 CRISISLEX_ 歧视_ 经济_ ECON_DEVELOPMENTORGS_ ECON_世界货币_ 紧急_ ENV_ EPU_CATS_ EPU_经济_ EPU_迁移_ EPU_政策_ 政府_ 滥用人权 MANMADE_DISASTER_ 军用_ 自然灾害_ 管道事件 铁路事故 道路事故 自我识别_ SLFID_ SOC_ SOC_POINTSOFINTEREST_ TAX_农业危害_ TAX_AIDGROUPS_ TAX_CARTELS_ TAX_慢性疾病_ TAX_DISEASE_ 等等等等

有很多组,我们常常不得不猜测它们的含义,并且这些组一直在增长。 主题绝对是一项持续的工作。

© www.soinside.com 2019 - 2024. All rights reserved.