tm 相关问题

`tm`包(R中的Text Mining Infrastructure的简写)为R中的文本挖掘应用程序提供了一个框架。

R-如何分别解决TermDocumentMatrix()和DocumentTermMatrix()的数据丢失和错误?

我有1000个样本的Twitter数据。并尝试对它们进行tf和tf-idf分析,以衡量推文中每种表情符号的重要性。共有437个独特的表情符号,而810个...

回答 1 投票 0

[使用SentiWordNet的函数

我正在专用于客户反馈的电子邮件框中进行情感分析和文本挖掘。我用R做这项工作。我根据Jeffrey Breen所做的工作进行情感分析。它工作正常...

回答 2 投票 2


使用TM进行R文本挖掘:文档中是否包含罕见的单词

使用R中的TM软件包,如何为文档打分?我想以某种方式将包含非常独特单词的文档与包含常用单词的文档分开。我知道该如何...

回答 1 投票 0

tm_map:可以将removewords功能与我自己的停用词一起注册为txt文件吗?

我正在使用R tm包对一个Facebook组进行文本分析,并发现removewords功能不适用于我。我试图将法语停用词与我自己的停用词结合使用,但它们仍然是...

回答 1 投票 0

使用tm()挖掘两个和三个单词短语的PDF

我正在尝试为特定的两个和三个单词短语挖掘一组PDF。我知道这个问题在各种情况下都会被问到,并且该解决方案部分有效。但是,列表不...

回答 1 投票 1

(如何选择语料库的所有“内容”,而不只是特定的[[1]]或[[2]]等?

我想选择所有语料库内容作为一个整体进行分析,而不是一次进行分析,我该如何更改此代码?尝试一次选择一个,但是要分析70个文档,我想...

回答 1 投票 0

文本挖掘在R,阅读每一行的是/否答案

我一直试图在将创造出一个办法拉丁裔弄清楚如何从使用的RISmed包从考研某些方面造成一个CSV文件中提取使用R的方式,例如...

回答 2 投票 1

应用自定义(加权)字典文本基于情感分析

我期待调整此代码,以便我可以把这些情态动词的每一个分配有不同的权重。我们的想法是使用类似NRC库,在这里我们有“数字” 1-5的东西...

回答 1 投票 0

使用tm()从R中的语料库中删除非英语文本

我正在使用tm()和wordcloud()进行R中的一些基本数据挖掘,但由于我的数据集中有非英文字符(尽管我试图过滤掉其他的...)但是遇到了困难。

r tm
回答 2 投票 10

在tm包中,删除除字母数字字符以外的所有数字

在r中,当我在使用tm包时删除数字时,我试图在我的语料库中保留像3g,4g,4s等单词。使用removeNumbers时如何保存3g,4g,4s等字母数字字符...

回答 2 投票 0

无法将语料库转换为R中的数据框架

我已经看过这里发布的其他类似问题(像这样),但问题仍然存在。我有一个文本数据的数据框,我需要阻止它。所以我把它转换成......

回答 4 投票 6

R:导入pdf并创建TermDocumentMatrix,文件名为id

我正在将pdf导入R以进行一些文本分析。我有一些pdf文件,其名称是他们的出版年份(每年一次出版)。我想创建一个TermDocumentMatrix ...

回答 1 投票 0

从语料库中删除电子邮件ID

我在R中有一个Vector Corpus。我想删除该语料库中出现的所有电子邮件ID。电子邮件ID可以位于语料库中的任何位置。比如说1>“你能否将公司政策邮寄给我......

r tm
回答 2 投票 1

Lemmatize单词功能不正常

我正在尝试进行一些文本挖掘,其主要目的是在这个data.frame中使用下面的单词,但是将它们结合起来具有相似的根:+ ------------- + --- --- + |字|频率| + ------------...

回答 1 投票 0

tm_map在Mac上的R 3.0.1中有parallel :: mclapply错误

我在平台上使用R 3.0.1:x86_64-apple-darwin10.8.0(64位)我试图使用tm库中的tm_map。但是当我执行这个代码库(tm)数据('原始')tm_map(原油,...

回答 8 投票 17

如何使用quanteda引导文本可读性统计信息?

我是bootstrapping和quanteda包的新手,用于文本分析。我有一个由文档组类型组织的大型文本语料库,我想获得可读性分数。我很容易......

回答 1 投票 2

我的问题是在tm_year中使用-1900

我正在大学学习c ++,并且有一段代码我不明白一件事。我使用+1900,但我的教授在评论栏中使用-1900。 Fecha&Fecha :: operator + =(int ...

回答 2 投票 0

来自VCorpus和DTM的术语频率不匹配

我从Corpus和DTM计算了测试文件的术语频率,如下所示。但他们并不相符。谁能告诉我不匹配的来源?是因为我用错了......

回答 1 投票 0

删除R中具有特定标点符号的特定单词

我正在研究R中包含俄语问询的语料库。在每个问题的开头都有写的人的名字。例如:总统。 - 你是Nikolaj ......

回答 3 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.