从python中的文本中提取信息

问题描述 投票:0回答:1

我是文本挖掘的新手。我有一个CSV文件。我需要遍历每一行并提取一些信息,然后将它们写入另一个CSV文件。我正在寻找我在字典中的具体信息。考虑下面的句子:

“应用程序版本是1.8.2,变量skt.len传递了所需的信息。文件ReadMe.txt具有规范。”

我的字典是:[“应用程序版本”,“变量”,“文件”]

我需要提取:

  • 应用程序版本:1.8.2
  • 变量:skt.len
  • file:ReadMe.txt

从文本中提取此类信息的最佳方法是什么?我正在玩NLTK和StanfordCoreNLP功能。但是,我无法提取信息。我正在考虑使用正则表达式来提取应用程序版本。任何的想法?

PS:我知道这可能会使任务变得更加复杂。但是,CSV文件的每一行中的句子可能具有不同的结构。例如:一行中的“应用程序版本”,可能是另一行中的“应用程序版本”。或者一行中的“文件”可能是另一行中的“文件名”。

python nlp nltk text-mining information-extraction
1个回答
1
投票

我使用R和以下是提取变量值的方式之一(不是最好的但只是为了展示它是如何工作的):

>> str_extract(text, '(?<=variable\\s)(\\w+)(.)?(\\w+)?')

这里的文本是您共享的整个字符串。这给了我一个输出

>> skt.len

我确信Python中有类似的功能可以完成这项工作,并以所需的格式获得输出。

© www.soinside.com 2019 - 2024. All rights reserved.