text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。

Python nltk不能标记阿拉伯语文本

当使用 nltk 软件包对阿拉伯文进行标记时,结果显示为数字!在对英文文本进行标记时没有问题。当使用 nltk 包来标记阿拉伯文文本时,结果显示为数字!而标记英文文本时则没有问题。UnicodeDecodeError: 'ascii' codec can't decode byte 0xd8 in ...

回答 2 投票 0

我应该用什么来做聚类词相似性? 以及Python中的可视化聚类。

我有一个相似度词的矩阵。Noun1 能力 缺席 丰度 重音 访问 访问 账号 准确度 Noun2 能力 1.00000 0.453362 0.374926 0.174432 0.448402 0.209143 ....

回答 1 投票 0

去芜存菁

在文本清理过程中,是否可以检测并删除句子中这样的垃圾:x。

回答 1 投票 0

R-文本挖掘:替换德文中的缩略语、数字和符号。

我想替换我文本中的缩写、数字和符号。由于我的文本是德文而不是英文,我在转换时遇到了问题。我试过: review_text

回答 1 投票 0

"[Float64Index([nan,nan],dtype='float64')]中没有一个[索引]"如果col B中包含字符串,则设置col A的值。

我有一个数据框架(称为语料库),有一列(tweet)和两行。['check, tihs, out, this, bear, love, jumping, on, this, plant'] ['i, can, t, bear, the, noise, from, that, power, plant, it, ...

回答 2 投票 0

当R中出现分号时,如何从数据框中的一列中提取匹配的值?

我有一个大型的已发表文章的数据框架,我想提取所有与少数作者有关的文章,并将其指定在一个单独的列表中。数据框中的作者被分组在一起... ...

回答 1 投票 0

如何将txt文件转为漂亮的数据框?

我有一个txt文件,包含Track ID、Song ID、Artist Name和Song name。我想在R中把它转换成一个数据框架来做一些分析。有什么好的函数可以用来分离数据? ...

回答 1 投票 0

将多个多行的txt文件合并为一个csv文件(1行=1个文件),用于主题建模。

我目前有30个文本文件,都有多行。我想根据这个教程应用一个LDA模型。所以,对我来说,它应该是这样的:text of document1 text of document2 text of document3......。

回答 1 投票 0

从列表中提取值和属性,并在R中把它们转换为数据框架。

我的模型得到以下列表。9个列表 $ phi : num [1:5, 1:1500] 1.8e-04 1.8e-04 1.8e-04 1.8e-04 1.8e-04 ... ...- attr(*, "dimnames")=2个列表 ... ...$ : chr [1:5] "t_1" "t_2" "..."。

回答 1 投票 0

为我的研究分析Twitter粉丝

我需要分析一个组织的Twitter账户的关注者,以确定谁是关注者(在他们的个人资料中的描述),他们的推特内容等。有没有什么R(或python)库(...

回答 1 投票 0

word

我在R中有两个数据框,看起来像下面的例子。数据框1

回答 1 投票 0

PANDAS从一列中找到准确的给定串词。

所以,我有一列名为 "笔记 "的熊猫,其中包含了一些事件的句子或解释。我试图从该列中找到一些给定的单词,当我找到该单词时,我将其添加到下一个 ...

回答 1 投票 0

如何根据自定义词典将列中的文本转换为其他格式?

我正在根据大学/学院名称的词典来使数据集中的教育数据保持一致。如何针对字典运行代码并获得所需的输出?数据包括...

回答 1 投票 0

如何基于R中的自定义词典转换文本数据?

我正在根据大学/学院名称的词典来使数据集中的教育数据保持一致。如何针对字典运行代码并获得所需的输出?数据包括...

回答 1 投票 0

如何为r文本分析创建自定义的贸易/法律词典

我计划在R中进行文本分析,就像按照“交易”与“法律”逻辑使用自己的自定义词典进行情感分析一样。我在excel中拥有字典所需的所有单词...

回答 1 投票 0

gensim word2vec词嵌入如何提取1个单词句子的训练单词对?

请参考下图(word2vec跳过图如何从输入句子中提取训练数据集-单词对的过程)。例如。 “我爱你。” ==> [[I,love),(I,you)]请问单词是什么...

回答 1 投票 0

生物医学名称实体识别的预先训练框架

是否存在经过培训的生物医学名称实体识别框架?谢谢和亲切的问候。

回答 1 投票 0

R:如何删除语料库中除特定单词以外的单词

在语料库“ tkn_pb”中,我想删除所有单词,除了我选择的某些关键字(例如,“ attack”和“ gunman”)。可以这样做吗?

回答 1 投票 0

如何清除包含“句点”的缩写(例如“。”,“ st。”,“ rd。”),但保留“。”在句子结尾吗?

我正在研究R中的句子级LDA,目前正在尝试使用来自openNLP包中的send_detect()函数将文本数据拆分为单个句子。但是,我的文本数据...

回答 1 投票 1

R中的文本挖掘:计算2-3个词组

我在Stackoverflow中找到了一段非常有用的代码-使用R TM包查找2到3个单词的短语(信用@patrick perry)以显示语料库中2到3个单词的短语的频率:...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.