文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。
我正在使用SpaCy进行文本分析,但我无法理解词性(POS)和句法依赖性解析之间的区别。两者都根据其角色标记句子中的单词。但是怎么......
正则表达式提取一个数字及其度量单位,由一个字符串与一个感兴趣的单词分隔开来
我正在学习R,我正在尝试使用正则表达式来提取特定文本。我想从特定成分的配方中捕获一个数字和度量单位。例如以下......
我是文本挖掘的新手。我有一个CSV文件。我需要遍历每一行并提取一些信息,然后将它们写入另一个CSV文件。我正在寻找我所拥有的具体信息......
在数据框中,我试图将一系列列的内容(从df $ first到df $ last)粘贴到新的单列df $ merged中。列的内容是文本字符串。 ......中的列数
我正在尝试使用stemCompletion将词干转换成完整的单词。以下是我使用txt的代码
使用Tidytext进行文本挖掘:问题pairwise_count和pairwise_cor
我正在尝试使用Tidytext(使用R进行文本挖掘),我想使用widyr库中的函数pairwise_count和pairwise_cor。我的语料库来自每个处理过的文本文件。库(readr)...
我正在R中构建一个机器学习文本分类模型。如果它分为多个类别,我想将该句子分类为多个标签。例如:“手机屏幕分辨率是......
我是新用的tm包。我想读一个csv文件,其中一列包含2000个文本,第二列包含因子变量yes / no到语料库中。我的意图是转换文字......
我正在使用包tm。假设我有一个2列,500行的数据框。第一列是随机生成的ID,其中包含字符和数字:“txF87uyK”第二列是......
我正在尝试在Ubuntu 15.10上运行的R(版本3.2.2。)中安装用于文本挖掘的quanteda软件包。我收到的消息是旧的经典:`在install.packages中警告:包'quanteda'是......
我想将语料库转换为DocumentTermMatrix,只选择单词列表。我知道控制列表中的“字典”参数是这样的:a = list(“我是一个大的大苹果”,...
我有一个关于1998年至2008年水政策的报纸文章数据库。我想看看这期间报纸发布的变化情况。我的问题是,我应该使用动态主题...
我正在尝试使用Tidytext(使用R进行文本挖掘),我想使用widyr库中的函数pairwise_count。我的输入看起来像:我的输入表这可能是RapidMiner中的代码...
基本上,我正在寻找一个正则表达式来选择所有标点符号,除了URL内的标点符号。本质上,如果我有字符串:这是一个URL:https://test.com/ThisIsAURL! ...
在text2vec中使用hash_vectorizer的ngrams
我试图在text2vec中使用hash_vectorizer函数创建ngrams,当我注意到它没有改变我的dtm更改值的维度。 h_vectorizer = hash_vectorizer(hash_size = ...
R:dtm与ngram tokenizer加上字典在Ubuntu中断?
我正在创建一个文档术语矩阵,带有字典和ngram标记化。它适用于我的Windows 7笔记本电脑,但不适用于类似配置的Ubuntu 14.04.2服务器。更新:它也适用于......
我正在尝试为目录中的每个文本文件创建一个文字云。他们是四次总统宣布演讲。我不断收到以下消息:> cname
我是python和数据挖掘的新手,所以我有一个关于从输出中提取零件的问题。我在3.6中使用Python,并在今天早上更新了所有内容。我已经匿名了......
我试图通过挖掘所有主题标签来分析Twitter数据。我想将所有主题标签放在语料库中,并将此语料库映射到单词列表。你知道我怎么能管理这个......