stop-words 相关问题

停用词是在处理自然语言数据之前(或之后)过滤掉的词。

修改停用词删除代码以删除数字

我在 df 列中有一个标记化文本。 从中删除停用词的代码是有效的,但我也喜欢删除标点符号、数字和特殊字符,而不将它们拼写出来。 就像我...

回答 1 投票 0

我的 Python 代码需要 10 分钟才能在 Visual Studio Code 中运行

我正在尝试从 .csv 文件中的“reviews.text”列中删除停用词。当我运行代码时,输出需要 10 分钟。 如何加快运行时间? 将 pandas 导入为 pd 来自操作系统我...

回答 1 投票 0

NLP数据保持单词频率

我正在使用以下代码清理语料库:- token=['hi','hi','帐户','是','关注','关注','帐户','德里'] to_remove=set(stopwrold、城市、国家、名字、姓氏、其他词的单词并集...

回答 1 投票 0

nltk 下载问题 - 我尝试下载 nltk 工具包的停用词,但此错误不断出现

我输入此内容是为了下载停用词 然后我得到这个错误 请帮帮我 代码 - 导入nltk nltk.download('停用词') 输出 - [nltk_data] 加载停用词时出错: 我输入此内容是为了下载停用词 然后我得到了这个错误 请帮帮我 代码- import nltk nltk.download('stopwords') 输出- [nltk_data] Error loading stopwords: <urlopen error [Errno 54] [nltk_data] Connection reset by peer> False 请向我解释一下 urlopen 错误到底是什么 发生什么事了? 我正在尝试下载停用词 解决此问题的一种方法是手动安装 NLTK 软件包。 打开终端 键入 python3 或 python,具体取决于您的配置 类型import nltk 类型nltk.download() 找到并安装你想要的软件包

回答 1 投票 0

从 nltk 停用词中排除负面词

我想从我的句子中删除 nltk 停用词,除了那些具有负面含义的停用词,例如:不,不,不能等。换句话说,我想从停用词中排除负面词...

回答 1 投票 0

“enforce_stop_tokens”如何在 LangChain 中与 Huggingface 模型一起工作?

当我们看HuggingFaceHub模型在langchain中的使用时,有这部分作者不知道如何停止生成,https://github.com/hwchase17/langchain/blob/master/langchain/llms/

回答 1 投票 0

从文本文件中删除停用词/连接词

我正在开发一个程序,该程序读取文本文件并按升序显示前 10 个最常用的单词并打印出来。我已经定义了停用词/连接词并将代码写入

回答 0 投票 0

使用 Scala 删除停用词

我需要从我的数据框中删除停用词。但我没有得到预期的结果。请找到下面的代码: //输入 val inputDF = Seq(("test1 ab ac"),("test2 ab"...

回答 0 投票 0

阻止 spacy 删除拆分字符串中的停用词

我正在尝试使用 spacy 从 csv 创建的熊猫数据框中删除停用词。 我的问题是我正在尝试解释可能包含单词和数字的单词。 我的问题: 如果一个女...

回答 1 投票 0

如何使用 TfidfVectorizer 传递我的停用词列表?

我正在尝试将 TfidfVectorizer 函数与我自己的停用词列表一起使用,并使用我自己的分词器函数。目前我正在这样做: def transformation_libelle(句子,**参数): 词干分析器 =

回答 0 投票 0

如何在 R 中使用 tidytext 包正确删除停用词?

我在 R 的 tidytext 包中使用停用词数据集来删除停用词。我正在使用以下代码: 图书馆(整洁的宇宙) 图书馆(整洁的文本) 图书馆(dplyr) 数据(停用词) 例子词<- c(&qu...

回答 1 投票 0

如何删除 NLTK 停用词列表中的一些词

我想为 nltk 提供的停用词列表添加一些词。我有一个 csv 文件,其中包含我想添加到列表中的停用词,但它不起作用。这是我试过的:

回答 0 投票 0

为什么在使用Python的wordcloud库时,停顿词没有被排除在word cloud中?

我想把 "The"、"They "和 "My "排除在我的wordcloud中。我使用了如下的python库 "wordcloud",并在STOPWORDS列表中添加了这3个附加的停止词,......

回答 1 投票 0

在Python中对frozenset进行二进制搜索的另一种选择。

我需要在frozenset上进行二进制搜索,但是由于索引在frozenset上不能使用,所以不能使用bisect库。我想过将frozenset转换为一个列表来使事情变得简单,但 ...

回答 1 投票 0

为什么在NLTK中,"not "在英语中被认为是停顿词?

我目前正在学习python中的ltk,我正在做一个情感分析的程序,在做的时候我发现 "not , nor , never "被认为是停顿词,所以我的问题是......。

回答 1 投票 0

为什么在NLTK中,"not "在英语中被认为是停顿词?

我目前正在学习Python中的ltk,我正在写一个情感分析的程序。在工作的时候,我发现 "not,nor,never "被认为是停止词。所以我的问题是,为什么...

回答 1 投票 0


删除NLTK停用词

我正在尝试删除数据集中的停用词。 stopwordsw = nltk.corpus.stopwords.words('german')def remove_stopwords(txt_clean):txt_clean = [如果Word中不存在...

回答 1 投票 0

从带有列表的列表中删除带有nltk.corpus的停用词

我有一个列表,其中包含评论的所有单独单词的列表,看起来像这样:texts = [['fine','for','a','night'],['it','was' ,'good']]我想使用nltk删除所有停用词....

回答 2 投票 0

什么是检查当前单词是否接近字符串中单词的有效方法?

请考虑以下示例:示例1:str1 =“哇...它看起来很棒” str2 =”看起来很阿马齐“您发现阿马齐正接近令人惊叹,str2输入错误,我想编写一个程序来告诉我。 ..

回答 4 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.