text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。

词性(POS)与句法依赖性解析

我正在使用SpaCy进行文本分析,但我无法理解词性(POS)和句法依赖性解析之间的区别。两者都根据其角色标记句子中的单词。但是怎么......

回答 1 投票 2

正则表达式提取一个数字及其度量单位,由一个字符串与一个感兴趣的单词分隔开来

我正在学习R,我正在尝试使用正则表达式来提取特定文本。我想从特定成分的配方中捕获一个数字和度量单位。例如以下......

回答 4 投票 -1

从python中的文本中提取信息

我是文本挖掘的新手。我有一个CSV文件。我需要遍历每一行并提取一些信息,然后将它们写入另一个CSV文件。我正在寻找我所拥有的具体信息......

回答 1 投票 0

在数据框中粘贴一系列列[R]

在数据框中,我试图将一系列列的内容(从df $ first到df $ last)粘贴到新的单列df $ merged中。列的内容是文本字符串。 ......中的列数

回答 1 投票 0

stemCompletion无法正常工作

我正在尝试使用stemCompletion将词干转换成完整的单词。以下是我使用txt的代码

回答 3 投票 0

如何在R中读取.docx文件或将其转换为.txt文件?

我正在尝试阅读简历。但是找不到将.docx文件作为纯文本读取或将其转换为文本文件的方法。

回答 2 投票 0

使用Tidytext进行文本挖掘:问题pairwise_count和pairwise_cor

我正在尝试使用Tidytext(使用R进行文本挖掘),我想使用widyr库中的函数pairwise_count和pairwise_cor。我的语料库来自每个处理过的文本文件。库(readr)...

回答 1 投票 1

机器学习使用R的多标签文本分类

我正在R中构建一个机器学习文本分类模型。如果它分为多个类别,我想将该句子分类为多个标签。例如:“手机屏幕分辨率是......

回答 1 投票 1

如何从csv文件中读取表中的文本

我是新用的tm包。我想读一个csv文件,其中一列包含2000个文本,第二列包含因子变量yes / no到语料库中。我的意图是转换文字......

回答 3 投票 4

tm:读入数据框,保留文本ID,构造DTM并加入其他数据集

我正在使用包tm。假设我有一个2列,500行的数据框。第一列是随机生成的ID,其中包含字符和数字:“txF87uyK”第二列是......

回答 5 投票 10

在R中安装“quanteda”的问题

我正在尝试在Ubuntu 15.10上运行的R(版本3.2.2。)中安装用于文本挖掘的quanteda软件包。我收到的消息是旧的经典:`在install.packages中警告:包'quanteda'是......

回答 1 投票 0

DocumentTermMatrix与字典

我想将语料库转换为DocumentTermMatrix,只选择单词列表。我知道控制列表中的“字典”参数是这样的:a = list(“我是一个大的大苹果”,...

回答 1 投票 1

R中的动态主题模型/主题随时间变化[关闭]

我有一个关于1998年至2008年水政策的报纸文章数据库。我想看看这期间报纸发布的变化情况。我的问题是,我应该使用动态主题...

回答 1 投票 0

dplyr文本挖掘列`text`必须是1d原子向量或列表

我正在尝试使用Tidytext(使用R进行文本挖掘),我想使用widyr库中的函数pairwise_count。我的输入看起来像:我的输入表这可能是RapidMiner中的代码...

回答 1 投票 0

R - 正则表达式以匹配除URL内部之外的所有标点符号

基本上,我正在寻找一个正则表达式来选择所有标点符号,除了URL内的标点符号。本质上,如果我有字符串:这是一个URL:https://test.com/ThisIsAURL! ...

回答 1 投票 1

在text2vec中使用hash_vectorizer的ngrams

我试图在text2vec中使用hash_vectorizer函数创建ngrams,当我注意到它没有改变我的dtm更改值的维度。 h_vectorizer = hash_vectorizer(hash_size = ...

回答 1 投票 1

R:dtm与ngram tokenizer加上字典在Ubuntu中断?

我正在创建一个文档术语矩阵,带有字典和ngram标记化。它适用于我的Windows 7笔记本电脑,但不适用于类似配置的Ubuntu 14.04.2服务器。更新:它也适用于......

回答 1 投票 1

如何为R中的目录中的文本文件创建wordcloud

我正在尝试为目录中的每个文本文件创建一个文字云。他们是四次总统宣布演讲。我不断收到以下消息:> cname

回答 3 投票 0

如何用beautifulsoup提取评论?

我是python和数据挖掘的新手,所以我有一个关于从输出中提取零件的问题。我在3.6中使用Python,并在今天早上更新了所有内容。我已经匿名了......

回答 1 投票 0

如何建立一个标签语料库(文本挖掘)

我试图通过挖掘所有主题标签来分析Twitter数据。我想将所有主题标签放在语料库中,并将此语料库映射到单词列表。你知道我怎么能管理这个......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.