语料库最常指的是结构化文本的集合。如果您的问题与编程没有密切关系,或者您只是为了任何目的寻找免费提供的语料库,请考虑在https://opendata.stackexchange.com上提出您的问题。
我的语料库中的查询遇到问题。我需要找到的是所有前面和后面都没有空格的点的实例,例如 a.a b.b c.c.我发现...
所以我尝试使用 ggpattern 包在 R 中可视化我的数据。问题是我似乎无法使用指南功能编辑图例的标题。在我进一步讨论之前,让我先...
我按照这个示例使用 Ubuntu 语料库训练我的聊天机器人 我的代码是下一个: # 导入聊天机器人 从聊天机器人导入 ChatBot # 导入训练器 从 chatterbot.trainers 导入
我有一个语料库(tm包),包含1.300个不同文本文档的集合[内容:文档:1.300]。 我现在的目标是搜索每个单词列表中特定单词列表的频率
如果我有一个文本,例如包含加泰罗尼亚语报纸的文章,我如何从该文本中找到所有城市? 我一直在查看 python 的 nltk 包,并且我有
将数据框转换为语料库的问题 您好,我有一个包含 4 列的 df(1 是文本,其他三列是一些附加信息)。 我想将 df 转换成语料库,以便文本 ...
我试图在 Notepadqq(不是 Notepad++)的文本文件的每一行中删除每个字符,包括特定的文本字符串,并且正在寻找一种方法来自动化 ðis 任务。我有...
我对不同的 Python 库和用于测量文本距离/相似性的算法进行了一些研究:Levenshtein 距离、Jaro-Wrinkler、Hamming 等。到目前为止,似乎...
语料库 = [] pstem = PorterStemmer() 对于范围内的我(data_train['text'].shape[0]): #去掉不需要的词 tweet = re.sub("[^a-zA-Z]", ' ', data_train['text'][i]) #Transform 我...
追溯(最后一次通话): 文件“C:\Users\Welcome\Desktop\Mridula\Vs
使用 R 的 tm 包,VectorSource 生成列表而不是语料库
下面的代码... 图书馆(TM) 文本向量 <- c("twas brillig and the slithey toves", "did gyre and gimble in the wabes") names(vectorOfText) <- c...
如何从一个语料库中随机选择段落,从随机化中排除那些包含特定单词列表的段落?
我有一个语料库。我想从这个语料库中随机提取段落。然而,随机化练习必须是这样的,即不能对带有特定单词的段落进行抽样。这是一个 ...
我想测量两个语料库的相似度。我目前尝试过的相似度检查有以下几种。贾卡德相似度 Dice's系数 Spearman's rank correlation coefficient Chi2 test...
如何使用 "pip install -r requirements.txt "通过 "requirements.txt "下载NLTK体例?
你可以通过命令行下载NLTK体例的punkt和wordnet: python3 -m nltk.downloader punkt wordnet 如何通过requirements.txt下载NLTK体例,使用pip install -r requirements...。
我正在根据大学/学院名称的词典来使数据集中的教育数据保持一致。如何针对字典运行代码并获得所需的输出?数据包括...
在语料库“ tkn_pb”中,我想删除所有单词,除了我选择的某些关键字(例如,“ attack”和“ gunman”)。可以这样做吗?
OSError:[WinError 193]%1不是有效的Win32应用程序-nltk
所以,我一直收到此错误:OSError:[WinError 193]%1不是有效的Win32应用程序,我认为这是由于我的环境变量所致。因此,我已修复该问题,但仍会继续出现错误。...
我希望将每个股票行情录包含多个文本文档,并将其存储为单个语料库。我已经读过有关创建“列表中的列表”的信息,但这对我不起作用。例如,“文本挖掘和...
我如何使用tm_map,removeWords,带有正则表达式值的函数?
我正在使用以前群集的重推用户名列表,我希望将其上载到文档期限矩阵中,以进一步对每个群集进行比较。因此,每个群集都存储为...
我想删除单元格上无意义或无效的数据。 (无意义的字母或仅包含单元格中的数字的组合)我的数据如下。 ID A1 B1 C1 1苹果...