tm 相关问题

`tm`包(R中的Text Mining Infrastructure的简写)为R中的文本挖掘应用程序提供了一个框架。

在 tm::stemDocument() 之后撤消词干提取?

我有一个 R 中的词干单词列表。现在,我想撤消我的词干提取,以便接收 R 中所有“完整”单词的列表。 这是我用来提取单词列表的代码: 图书馆...

回答 1 投票 0

在 C++ 中让 mktime() 忽略 DST 和本地时区

我们的系统从供应商处接收 ASCII 格式的数据“20210715083015”。该时间是美国东部时间,并且已经针对夏令时进行了调整。 这次我们的后端需要 nanose...

回答 4 投票 0

如何展平列表列表?

tm 包扩展了 c,因此,如果给定一组 PlainTextDocuments,它会自动创建一个语料库。不幸的是,似乎每个 PlainTextDocument 都必须单独指定。 例如...

回答 4 投票 0

使用 R 中的 tm 将具有元数据列的数据框转换为语料库

将数据框转换为语料库的问题 您好,我有一个包含 4 列的 df(1 是文本,其他三列是一些附加信息)。 我想将 df 转换成语料库,以便文本 ...

回答 0 投票 0

使用 R 的 tm 包,VectorSource 生成列表而不是语料库

下面的代码... 图书馆(TM) 文本向量 <- c("twas brillig and the slithey toves", "did gyre and gimble in the wabes") names(vectorOfText) <- c...

回答 0 投票 0

R tm包在文本语料库中选取大量的词来保存。

我有大约70,000个frequency_words 我想把它们按照出现的顺序保存在一个文本语料库中(顺序很重要)。我得到的结果是这样的: dtm

r tm
回答 1 投票 0

如果db中的数据有时区偏移,则按day + pair_id进行分组。

我有一个服务器,它给了我一些按日期分组的信息(我用date_trunc()来处理)。由于时区的关系,我知道在我的DB中2020-06-06 21:00:00实际上是2020-06-07 00:00:00。我需要...

回答 1 投票 0

爱普生JavaPOS ADK for linux在使用eclipse和java代码时出现错误。

我有一台爱普生TM-T88V打印机,想用自己的java代码用eclipse打印一张收据。已经安装了Linux的javapos adk,将opEpsonJavaPosbin设置为root......。

回答 1 投票 0

将本地HTML文件读入R进行数据提取

我在文件夹中有一组来自Factiva的本地html文件。使用下面的代码,我可以导入数据并创建语料库。下一步,我想合并几个文件(都具有相同的格式),...

r nlp tm
回答 1 投票 0

通过for循环以不同的名称存储多个语料库

我希望将每个股票行情录包含多个文本文档,并将其存储为单个语料库。我已经读过有关创建“列表中的列表”的信息,但这对我不起作用。例如,“文本挖掘和...

回答 1 投票 1

我如何使用tm_map,removeWords,带有正则表达式值的函数?

我正在使用以前群集的重推用户名列表,我希望将其上载到文档期限矩阵中,以进一步对每个群集进行比较。因此,每个群集都存储为...

回答 1 投票 0

如何在TermDocumentMatrix()中同时删除罗马数字和阿拉伯数字?

在TermDocumentMatrix()中,参数removeNumbers = TRUE删除英语语料库中的阿拉伯数字。如何删除两个罗马数字(例如“ iii”,“ xiv”和“ xiii”,以及在任何情况下)和阿拉伯数字...

回答 1 投票 0

文本挖掘中的错误:二进制运算符的非数字参数

以下for循环给我一个错误,该错误是nenv [i] / nref [i]中的错误:二进制运算符的非数字参数。库(tm)库(stringr)mydata = data.frame(id = c(1,2,3),text = c(...

回答 1 投票 0

文本挖掘中的错误:“替换的长度为零”和“要替换的项目数不是替换长度的倍数”

我正在尝试使用for循环从文本中提取多个单词。下面的代码行给我一个错误,该错误表示替换的长度为零,替换的项目数不是...的倍数...

回答 1 投票 0

计算R中多个单词的单词频率?

我正在尝试计算给定文本中多词的频率。例如,请考虑以下文本:“环境研究环境研究环境研究环境科学能量,...

回答 1 投票 0


R tm软件包中的删除单词

我正在尝试使用以下代码在R tm包中使用removeWords:docs

回答 1 投票 0

使用readLines和R中的tm-package清洁Web文本

我正在尝试使用readLines函数删除网页上的正则表达式代码和数字。我正在为此使用unlist函数。但是,我不确定如何删除数字。我在想...

回答 1 投票 0

如何在R中使用removeWords解决“ gsub错误”

我有一个包含推文的数据框。我正在努力删除停用词,因此,我使用了:stopWords

回答 2 投票 0

如何使用R中的tm包从非英语语料库中删除常见单词的结尾

我正在尝试使用R的tm包对某些网站的意大利用户在此处撰写的评论进行一些文本挖掘。我刮掉了文本,将它们存储在语料库上,进行了某种清理,但是...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.