text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。

无法将语料库转换为R中的数据框架

我已经看过这里发布的其他类似问题(像这样),但问题仍然存在。我有一个文本数据的数据框,我需要阻止它。所以我把它转换成......

回答 4 投票 6

用POS标记确定句子的时间性

我想知道是否已经从一系列句子中执行了一项行动。例如:“我将处方这种药物”与“我开了这种药”或“......

回答 1 投票 0

指定通过医学叙述应用NLP生成的FHIR资源的来源

FHIR是HL7®出版的医疗保健数据交换标准。 DocumentReference提供有关文档的元数据,以便可以通过...发现和管理文档。

回答 1 投票 -1

Python:检查句子是否包含List中的任何单词(模糊匹配)

我想从给定list_of_keywords的句子中提取关键字。我设法提取了确切的单词[在句子中逐字逐句,如果集合中的单词(list_of_keywords)]是否有可能......

回答 3 投票 2

在python中对整个句子进行Lematizing是行不通的

我在python的NLTK包中使用WordNetLemmatizer()函数来对电影评论数据集的整个句子进行词形变换。这是我的代码:来自nltk.stem import LancasterStemmer,W ordNetLemmatizer ......

回答 1 投票 1

使用R识别PDF表

我正在尝试从一些pdf报告中的表中提取数据。我已经看过一些使用pdftools和类似软件包的例子我成功获得了文本,但是,我只是想......

回答 2 投票 17

如何将列中多个句子的文本拆分为Python pandas中的多行?

我试图将“注释”列拆分为包含每个句子的多行。我使用以下StackOverflow线程作为参考,因为它倾向于给出类似的结果。参考链接:熊猫:...

回答 1 投票 0

查找类似的/同义词/上下文单词Python

您好我正在寻找我的问题的解决方案:我想找到一个与法语和英语相似的单词列表例如:名称可能是:名字,姓氏,nom,prénom,用户名....邮政。 ..

回答 2 投票 1

R中的DocumentTermMatrix - 每行的唯一字的总和

我有一个DocumentTermMatrix data_tags,包含80.000行(标签组)和900.000列,因此有900,000个不同的标签。通过findFreqTerms(data_tags,2)我发现大约462.000个标签是...

回答 1 投票 0

Lemmatize单词功能不正常

我正在尝试进行一些文本挖掘,其主要目的是在这个data.frame中使用下面的单词,但是将它们结合起来具有相似的根:+ ------------- + --- --- + |字|频率| + ------------...

回答 1 投票 0

错误:找不到函数“classify_emotion”

我一直试图对随机文件进行情绪分析。然而,抛出的错误是:找不到函数“classify_emotion”包“情绪”不可用(对于R版本3.1 ....

回答 2 投票 0

用于呈现文本挖掘结果的数据可视化技术

我正在使用文本挖掘来探索自然语言语料库中语音域的术语使用差异。该研究将主要关注关键术语的分布。什么是......

回答 1 投票 4

从列表列表中删除用户名

我有一个关于推文的列表列表,我需要删除用户名。 [[ '@Hegelbon', '即', '心脏', '滑', '入', '的', '废物', '筐', '' ':('],['“”, '@ketchBurning', ':', '我', '恨', '日本' ...

回答 2 投票 1

使用正则表达式标准化文本[复制]

我正在使用推文,我想将aa aaaa aaah ahhh的所有变体替换为单个表达式'ah'。但是,使用我的代码我也会替换单个'a'和'and'......

回答 1 投票 0

为什么我要在R中使用带有set.seed()的ggraph()?

我最近一直在用tidytext学习文本挖掘。今天,我遇到了以下内容:set.seed(2017)ggraph(bigram_graph,layout =“fr”)+ geom_edge_link()+ geom_node_point()+ geom_node_text(...

回答 1 投票 0

文本挖掘:查询搜索

我有一本字典:{'Farage':[0,5,9,192,233,341],'EU':[0,1,5,6,9,23}} Query1:“Farage”和“EU”Query2:“ Farage“或”EU“我需要返回包含这些查询的文档。为......

回答 3 投票 1

aggregate.data.frame(as.data.frame(x),...)中的错误:参数必须具有相同的长度

嗨,我正在使用本教程中的最后一个示例:主题比例随着时间的推移。 https://tm4ss.github.io/docs/Tutorial_6_Topic_Models.html我用这个代码库(readxl)为我的数据运行它...

回答 1 投票 0

如何清理R中的twitter数据?

我使用twitteR包从twitter中提取推文并将其保存到文本文件中。我在语料库xx上执行了以下操作

回答 4 投票 11

在Twitter被阻止的国家/地区的网页抓取

我试图用R中的rtweet包提取一些数据。问题是在伊朗阻止了twitter,我必须使用软件来传递过滤。不幸的是,我遇到了这个错误:...

回答 1 投票 0

计算单词列表之间的相似度

我想计算两个单词列表之间的相似度,例如:['email','user','this','email','address','customer']与此列表类似:['email' ,'邮件','地址','netmail']我......

回答 2 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.