如何使用spacy将python中的列表列表变为lemmati?

问题描述 投票:0回答:4

我有一个列表列表,其中包含需要被词形化的单词。我收到一个错误,指出字符串是必需的而不是列表,因为我正在使用Spacy。

如果我转换为字符串,即nlp(str(list_1)),那么列表分隔符(如:“,”和“[”)被标记化并包含在我的输出中。

如何将列表列表中的项目变为lemmatize并将其恢复为相同的形式,即列表列表?

需要被词形化的词可以在列表列表中的任何位置。

我想要这样的东西:

输入:

[["flower", "grows", "garden"], [["boy", "running", "playground"]]

输出:

[["flower", "grow", "garden"], ["boy", "run", "playground"]]

import spacy
nlp = spacy.load("en_core_web_sm")
list_1 = [["flower", "grows", "garden"], ["boy", "running", "playground"]]

for item in nlp(str(list_1)):
      print(item.lemma_)
python spacy
4个回答
2
投票

我将此任务分为以下几部分:

1.创建nlp对象和您的文本

你已经完成了它,但后代:

nlp = spacy.load("en_core_web_sm")
words = [["flower", "grows", "garden"], ["boy", "running", "playground"]]

2.获取每个列表的长度

我们需要有一个每个列表的长度,以便我们稍后可以迭代它(为了重塑输出)。使用numpy.cumsum我们可以创建一个数组,这将允许我们在O(n)时间这样做。

# remember about importing numpy
lengths = np.cumsum([0] + list(map(len, words)))
print(lengths)

这将为我们提供以下数组(针对您的情况):

[0 3 6]

我们稍后将使用从该数组创建的范围,例如令牌[0:3]构成第一阵列和令牌[3:6]构成第二个。

3.展平阵列并创建Doc

flat_words = [item for sublist in words for item in sublist]
doc = spacy.tokens.Doc(nlp.vocab, words=flat_words)

最好将flat_words作为列表传递,因此spacy不必执行不必要的标记化操作。

4.迭代跨度

最后迭代spacy.tokens.Span对象,在他们的标记上,然后将这些(当然是lemmatized)添加到列表中。

lemmatized = []
# Iterate starting with 1
for index in range(1, len(lengths)):
    # Slice doc as described in the first point, so [0:3] and [3:6]
    span = doc[lengths[index - 1] : lengths[index]]
    # Add lemmatized tokens as list to the outer list
    lemmatized.append([token.lemma_ for token in span])

print(lemmatized)的输出将如你所愿:

[['flower', 'grow', 'garden'], ['boy', 'run', 'playground']]

5.整个代码

为了让您更轻松,下面的整个代码:

import numpy as np
import spacy

nlp = spacy.load("en_core_web_sm")
words = [["flower", "grows", "garden"], ["boy", "running", "playground"]]

lengths = np.cumsum([0] + list(map(len, words)))
print(lengths)


flat_words = [item for sublist in words for item in sublist]
doc = spacy.tokens.Doc(nlp.vocab, words=flat_words)

lemmatized = []
# Iterate starting with 1
for index in range(1, len(lengths)):
    # Slice doc as described in the first point, so [0:3] and [3:6]
    span = doc[lengths[index - 1] : lengths[index]]
    # Add lemmatized tokens as list to the list
    lemmatized.append([token.lemma_ for token in span])

print(lemmatized)

1
投票

在处理列表列表时,您可以加入列表中的项目,然后使用nlp()。接下来,获取这些项目中的每个项目的引理。要再次返回列表列表,只需将项目发生在项目出现的索引处。

for item in list_1:
    doc = nlp(' '.join(item))    
    for indexer,i in enumerate(doc):
        item[indexer] = i.lemma_
print(list_1)
#Output:
[['flower', 'grow', 'garden'], ['boy', 'run', 'playground']]

-1
投票

我不认为这是最好的解决方案,但你可以做到这一点

import spacy
nlp = spacy.load("en_core_web_sm")
list_1 = [["flower", "grows", "garden"], ["boy", "running", "playground"]]

s=""
for item in nlp(str(list_1)):
      s+=item.lemma_
ss=s[2:-2].replace('\'','').split('],[')
l=[]
for sss in ss :
     l.append(sss.split(','))
print(l)

#output
[['flower', 'grow', 'garden'], ['boy', 'run', 'playground']]

-1
投票

这里:如果只改变这些特定的作品,这可以工作

main = [["flower", "grows", "garden"], [["boy", "running", "playground"]]
main[0][1] = "grow"
main[1][1] = "run"
# main = [["flower", "grow", "garden"], ["boy", "run", "playground"]]
© www.soinside.com 2019 - 2024. All rights reserved.