Spacy相似性警告:“根据空向量评估Docsimilarity”。

问题描述 投票:1回答:1

我正在尝试使用FAQ数据集进行数据增强。我用Wordnet检查与Spacy的相似性,用大多数相似的单词改变单词,特别是名词。我使用多个for循环遍历我的数据集。

import spacy
import nltk
from nltk.corpus import wordnet as wn
import pandas as pd

nlp = spacy.load('en_core_web_md')
nltk.download('wordnet')
questions = pd.read_csv("FAQ.csv")

list_questions = []
for question in questions.values:
    list_questions.append(nlp(question[0]))

for question in list_questions: 
    for token in question:
        treshold = 0.5
        if token.pos_ == 'NOUN':
            wordnet_syn = wn.synsets(str(token), pos=wn.NOUN)  
            for syn in wordnet_syn:
                for lemma in syn.lemmas():
                    similar_word = nlp(lemma.name())
                    if similar_word.similarity(token) != 1. and similar_word.similarity(token) > treshold:
                        good_word = similar_word
                        treshold = token.similarity(similar_word)

但是,多次打印以下警告,我不明白为什么:

UserWarning:[W008]根据空向量评估Docsimilarity。

这是我的similar_word.similarity(token)造成的问题,但我不明白为什么。我的list_questions的形式是:

list_questions = [Do you have a paper or other written explanation to introduce your model's details?, Where is the BERT code come from?, How large is a sentence vector?]

我需要检查令牌以及循环中的similar_word,例如,我仍然在这里得到错误:

tokens = nlp(u'dog cat unknownword')
similar_word = nlp(u'rabbit')

if(similar_word):
    for token in tokens:
        if (token):
            print(token.text, similar_word.similarity(token))
python-3.x nlp pytorch spacy wordnet
1个回答
2
投票

similar_word不是有效的spacy文档时,您会收到该错误消息。例如。这是一个可重复性最小的例子:

import spacy

nlp = spacy.load('en_core_web_md')  # make sure to use larger model!
tokens = nlp(u'dog cat')
#similar_word = nlp(u'rabbit')
similar_word = nlp(u'')

for token in tokens:
  print(token.text, similar_word.similarity(token))

如果你将''改为'rabbit',它可以正常工作。 (猫显然只比兔子更像兔子!)

(更新:正如您所指出的,未知单词也会触发警告;它们将是有效的spacy对象,但没有任何单词向量。)

因此,在调用similar_word之前,一个修复方法是检查similarity()是否有效,包括有效的单词向量:

import spacy

nlp = spacy.load('en_core_web_md')  # make sure to use larger model!
tokens = nlp(u'dog cat')
similar_word = nlp(u'')

if(similar_word and similar_word.vector_norm):
  for token in tokens:
    if(token and token.vector_norm):
      print(token.text, similar_word.similarity(token))

替代方法:

你可以压制特定的警告。这是W008。我相信在运行你的脚本之前设置一个环境变量SPACY_WARNING_IGNORE=W008就可以了。 (未经测试。)

(见source code


顺便说一句,similarity()可能会导致一些CPU负载,因此值得存储在变量中,而不是像现在这样计算三次。 (有些人可能认为这是过早的优化,但我认为它也可能使代码更具可读性。)

© www.soinside.com 2019 - 2024. All rights reserved.