nltk 相关问题

Natural Language Toolkit是一个用于计算语言学的Python库。

如何检查两个文件名是否相似并选择最新版本

我有一个混乱的文件夹结构,其中有很多文件,并且人们随着时间的推移保存了这些文件的很多版本,例如: 我们精彩的演示文稿 v0.pptx our_awesome_presentation v1....

回答 1 投票 0

nltk 的词汇分散图无法正常工作

我一直在使用 nltk 代码来制作词汇分散图。正如您在下面的代码中看到的(请原谅混乱的导入)。我提取了 4 个本地 pdf 的文本并进行了

回答 1 投票 0

如何删除英语和西班牙语停用词

我正在尝试删除英语和西班牙语的停用词。我的代码适用于英语,但不适用于西班牙语: stopword = nltk.corpus.stopwords.words('英语', '西班牙语') def remove_stopwords(文本):

回答 2 投票 0

从 nltk 停用词中排除负面词

我想从我的句子中删除 nltk 停用词,除了那些具有负面含义的停用词,例如:不,不,不能等。换句话说,我想从停用词中排除负面词...

回答 1 投票 0

删除重复项并保留前一条记录

我已经使用 nltk 库从一个文件夹中的多个文档中提取了标题,其中一个文档在一个文件中包含多个标题,该库工作正常。唯一的问题是它包含...

回答 1 投票 0

Excel 列表中的短语匹配

我有一个 Excel 数据库,其中包含两列陈词滥调短语和类型。我需要检查文本文档中短语的精确匹配并返回匹配短语的类型。最好还是红色字体

回答 1 投票 0

nltk.download('wordnet') 在 Python 3.10 上给出“ParseError:不匹配的标签:第 33 行,第 2 列”

在尝试使用 nltk.stem.WordNetLemmatizer() 时,我收到以下错误。 查找错误: ****************************************************** ****************** 未找到资源 wordnet。 请...

回答 1 投票 0

使用 Snowpark 框架使用 NLTK 包时 Snowflake 出现错误

我正在尝试使用Python在Snowflake上进行文本挖掘,这需要使用NLTK包。但它给了我这样的错误: 回溯(最近一次调用最后一次): 文件“nltk/corpus/util.py”...

回答 1 投票 0

使用 Python NLTK 的 AWS lambda 中的路径

我在 AWS Lambda 中遇到 NLTK 包的问题。不过我认为这个问题更多地与 Lambda 中的路径配置不正确有关。 NLTK 无法找到数据库...

回答 4 投票 0

查找文本中的所有位置/城市/地点

如果我有一个文本,例如包含加泰罗尼亚语报纸的文章,我如何从该文本中找到所有城市? 我一直在查看 python 的 nltk 包,并且我有

回答 4 投票 0

有没有一种简单的方法可以从大学的UI页面识别课程代码和课程名称

我需要从大学课程目录中提取课程代码和课程名称。然而,我需要为所有大学执行此操作,并且为每所大学的每个页面编写代码是一项艰巨的任务......

回答 1 投票 0

下载NLTK数据时出错:[Errno 11004] getaddrinfo failed

我已经安装了 NLTK 模块,但是当我尝试安装数据时,出现以下错误。 >>>导入nltk >>> nltk.download('punkt') [nltk_data] 加载 punkt 时出错: 我已经安装了 NLTK 模块,但是当我尝试安装数据时,出现以下错误。 >>>import nltk >>> nltk.download('punkt') [nltk_data] Error loading punkt: <urlopen error [Errno 11004] [nltk_data] getaddrinfo failed> False 我该如何安装数据? 过去几天我一直在努力解决这个错误。 这个小代码帮助我解决了错误: from nltk.corpus import stopwords 问题可能出在系统中设置的代理上。 而不是: >>import nltk >>nltk.download() 用途: >>nltk.set_proxy('SYSTEM PROXY') >>nltk.download() 这应该可以解决问题。并找到系统的代理:在Windows的启动选项中搜索代理。 我知道这是一个非常古老的问题,但想与将来可能遇到这种情况的任何人分享我的经验。 我所做的是(在 Windows 10 中)- 打开命令提示符。 使用命令设置代理: set HTTP_PROXY=http://userid:password@proxyurl:port set HTTPS_PROXY=http://userid:password@proxyurl:port set FTP_PROXY=http://userid:password@proxyurl:port 运行命令: python -m nltk.downloader import socket socket.getaddrinfo( 'localhost', 8080) import nltk nltk.download('all')

回答 4 投票 0

如何使用 python 将 tokenize 应用于数据框中的特定列?

我有一个包含三列的数据框。数据框中的一列需要应用标记化。我收到 TypeError : Expected string or bytes-like object, got 'float' 。 进口熊猫...

回答 1 投票 0

使用词形还原器打印单词的词根

您好,我第一次使用 nltk,我收到一个错误,我不知道如何排除故障,非常感谢您的帮助! 导入nltk nltk.download('wordnet') 词形还原器 = WordNetLemmatize...

回答 1 投票 0

如何避免对 pandas 数据框中一行已词形还原的句子进行词形还原以提高速度

鉴于: 一个简单的小型 pandas 数据框如下: df = pd.DataFrame( { “user_ip”:[“u7”,“u3”,“u1”,“u9”,“u4”,&q...

回答 2 投票 0

nltk下载[错误11004] getadderinfo失败

这是我尝试再次重新启动下载时出现的错误 有时它可以工作,但自从新的win7以来我无法从nltk下载任何数据 nltk.download() 显示信息http://nltk.github.com/

回答 2 投票 0

我的文件中根本不存在一行代码,但出现错误

我制作了一个 Flask 应用程序,它通过表单从用户那里获取两个字符串输入,并且我正在使用 NLTK porterstemmer 和停用词处理这些字符串。 问题是 pythonanywhere 告诉我的

回答 0 投票 0

为什么nltk Text.分散_plot()显示文本中没有的单词的出现?

我正在使用示例文本探索 nltk 的功能(如果有)。当我使用 nltk.text.Text 的方法在 text4 上制作分散图时,即使我输入包含

回答 0 投票 0

pandas:从文本创建句子行(带有标识符)

我有一个 pandas 数据框,如下所示: 文本ID1、文本1、其他元数据1 文本ID2、文本2、其他元数据2 文本ID3、文本3、其他元数据3 我想用新的方式将文本分成句子......

回答 1 投票 0

没有标点符号的句子分词

我想对没有标点符号的句子进行分词,代码如下: 导入 nltk def segment_sentences(文本): # 如有必要,下载 Punkt 分词器 nltk.downl...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.