Natural Language Toolkit是一个用于计算语言学的Python库。
python: 在文本数据中,如果下一行与上一行的匹配模式相同,则将下一行与上一行进行分组(合并)。
我有一个文件.txt,其中的数据组(AAA-(n))非常大。文件中的许多行在AAA-(n)至AAA-(n+1)行之间有相同的标签(例如AB)。我想把它们放在一行中。...
我试图将文本输入到我的文字处理器中,先分割成句子,再分割成单词。一段例子。当这一击被重复的时候,再加上幼稚的告诫... ...
当通过 pandas.groupby.agg 循环一个单词时,如何忽略它的其他实例?
我有一个代码(见下图),用来匹配每个位置的单词出现次数。我的问题是,它读取了这个词的所有实例。例如:这就是我希望它做的,但代码......。
在下面的列表中,其实有两个重复的句子。但是由于句子的第二个词和()之间的空格不同,它将它们视为唯一的句子。通过使用Python - 正则表达式,如何...
在数据框架中使用RegexpTokenizer拆分句子 [重复] 。
我试图将数据框输入到我的文字处理器中,先分割成句子,再分割成单词。一个示例文本。当打击被重复时,再加上幼稚的句子告诫,... ...
我刚刚开始开发一个非常简单的程序,得到一个txt文件,并根据它告诉你拼写错误的单词。我查了一下什么会是最好的程序,我读到NLTK和使用'...
我有一个文本文件,里面有一些句子。假设有三个句子 "Rahul从市场上退了出来","我们要去市场","市场上所有的商店都关门了"。现在我需要...
我想从project gutenberg的url中访问一个文本文件。因此,我从ltk书中复制了同样的代码,结果却不一样。 from urllib import request url = "http:/www.gutenberg.org..."。
如何在 python 数据框架中比较两列中的 tokenise 词?
我有一个CSV文件,其中有一个IT事件的记录.我有一个 "摘要 "列和一个 "类别 "列,我为这一列中的每一行都生成了tokenize字,我想比较token在 ...
我有一个包含文本和类别的数据框架。我想统计这些类别中常见的词。我正在使用 nltk 来删除停止的单词并标记化,但是无法包含 ...
我试图将文本输入到我的文字处理器中,先分割成句子,再分割成单词。一段例子。当这一击被重复的时候,再加上幼稚的告诫... ...
我怎么能把实体(list)转换成字典呢? 我试过的代码被注释了,但不能用,NLP问题。
我怎么能把实体(list)转换为字典呢?我试过的代码被注释了,而且不工作,或者说我怎么能把实体改写成像字典一样?我想在字典中转换... ...
在python中创建(lemma, NER类型)的元组,Nlp问题。
我写了下面的代码,我做了一个字典,但我想创建元组的(lemma,NER类型)和收集计数的元组,我不知道如何做到这一点吗? 你可以请你帮助我吗?NER类型意味着...
nltk.download() Errno 61 和 Proxy 问题。
我在Python中导入nltk后,试图从nltk中下载包。它产生了以下错误信息。然后,我尝试了nltk.set_proxy,因为我正在使用中国的代理服务器。然而,我使用的代理 ...
我目前正在学习python中的ltk,我正在做一个情感分析的程序,在做的时候我发现 "not , nor , never "被认为是停顿词,所以我的问题是......。
我目前正在学习Python中的ltk,我正在写一个情感分析的程序。在工作的时候,我发现 "not,nor,never "被认为是停止词。所以我的问题是,为什么...
我将微博中的词限制为内容词,现在我想将这些词转化为小写,并添加带有下划线的POS。
我写了下面的代码,并将微博中的词限制为内容词,即名词、动词和形容词,现在我想将这些词转化为小写,并添加带有下划线的POS。...
我已经尝试了下面的代码来检查句子是否有非英语单词.但我想检查句子本身的开头是否有非英语单词,从而删除整个 ...
我安装了tensorflow和tflearn来创建聊天机器人,在导入过程中显示错误。
这是我的代码 # NLP所需的库 import nltk nltk.download('punkt') from nltk.stem.lancaster import LancasterStemmer stemmer = LancasterStemmer() # Tensorflow所需的库 ...。