相对于各个实体的嵌入关系/边值生成上下文样本?

问题描述 投票:0回答:1

我正在尝试构建自己的语料库/文本数据集来训练特定于域的NER。我的实体主要基于数字,部分依赖于上下文进行分类。没有适合我的情况的特定数据集。因此,我正在生成自己的文本和上下文。

我想到的想法是根据嵌入与我要分类的实体相似的词生成上下文。确保上下文不断变化以保持模型通用,并且不会对特定单词过度拟合。

一个可比较的示例(不是我的具体情况)是:尝试在文本中标记IP地址。我的想法是找到与单词IPcomputer的文本嵌入相关的所有单词。例如,类似的嵌入将是software,其边缘值为0.8

我的问题是:

  • 我如何轻松地从嵌入层(例如word2vec?)中提取相似的单词。我将如何确定截止点?列出所有从最高相似度到最低相似度的单词,并手动确定一个临界点(当我认为该单词作为实体ip address的上下文不够相似时)。还是自动化过程就足够了?提取所有单词,直到指定的截止点为止,例如0.8相似边/相关值。
  • 相对于实体的单词相似性,我应该生成多少个样本?例如。我为实体IP address生成了100个样本文本,然后我应该仅基于单词software生成80个上下文样本,因为它具有与0.8ip address相似边/关系值?
machine-learning word2vec embedding ner
1个回答
0
投票

您的问题很难回答,因为它是如此抽象。目前尚不清楚实际域是什么。没有您的“伪文本”的示例;您尝试过且发现不足的事情没有中期结果,可以针对这些问题提出改进建议。

由于在规格不足的水平上没有问题的轻拍答案,您可能必须尝试一些事情,然后查看令人鼓舞和不满意的结果(并在此处分享)的组合,以发现相似性的可能有用阈值级别或伪文本生成计数。

例如,即使这些模型的相似度值始终在-1.01.0范围内,也无法很好地映射到“ X%相似度”的人类概念。如果更改模型元参数,则令牌可能仍具有非常相似的“前10个”邻居,但余弦相似度值却大不相同。 (至少在您决定冻结模型元参数和训练数据的某些方面之前,等级排序比原始余弦相似度数字要重要得多/稳定得多。)因此,任何人都无法推荐像[C0 ],甚至可以确定任何这样的阈值都是有意义的,而无需进行更多针对领域/模型/最终目标的具体实验。 (这时,可以在绝对余弦相似度或所有相似度的最高百分比或某些邻居列表中发现也许一些特定于项目的阈值。]]

类似地,对于生成合成文本样本,没有固定答案。您需要真实的品种,以反映基础领域的微妙之处。如果重复几乎相同,则1000个样本并不比100个样本好-您可以将100个样本各重复10次,或者增加模型的训练“时期”以获得相同的效果-但模型中的数据没有真正的多样性不会了解更多。因此,再次需要对数据,模型和最终用途目标进行迭代试验。

一些人通过从各种长度的随机游走到整个图形中来创建它们的“文本”,从而将类似于word2vec的算法应用于巨型图形。此类游标的创建方式(即特定的“节点” /唯一令牌“应”在训练数据中出现数十次,数百次或数千次)可能会受到该节点/令牌在下游应用中的重要性的影响,它的内外都有多少个真正的变体,等等。同样,这又是一个实验和反复试验的问题。

© www.soinside.com 2019 - 2024. All rights reserved.