文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。
当使用 nltk 软件包对阿拉伯文进行标记时,结果显示为数字!在对英文文本进行标记时没有问题。当使用 nltk 包来标记阿拉伯文文本时,结果显示为数字!而标记英文文本时则没有问题。UnicodeDecodeError: 'ascii' codec can't decode byte 0xd8 in ...
我应该用什么来做聚类词相似性? 以及Python中的可视化聚类。
我有一个相似度词的矩阵。Noun1 能力 缺席 丰度 重音 访问 访问 账号 准确度 Noun2 能力 1.00000 0.453362 0.374926 0.174432 0.448402 0.209143 ....
我想替换我文本中的缩写、数字和符号。由于我的文本是德文而不是英文,我在转换时遇到了问题。我试过: review_text
"[Float64Index([nan,nan],dtype='float64')]中没有一个[索引]"如果col B中包含字符串,则设置col A的值。
我有一个数据框架(称为语料库),有一列(tweet)和两行。['check, tihs, out, this, bear, love, jumping, on, this, plant'] ['i, can, t, bear, the, noise, from, that, power, plant, it, ...
我有一个大型的已发表文章的数据框架,我想提取所有与少数作者有关的文章,并将其指定在一个单独的列表中。数据框中的作者被分组在一起... ...
我有一个txt文件,包含Track ID、Song ID、Artist Name和Song name。我想在R中把它转换成一个数据框架来做一些分析。有什么好的函数可以用来分离数据? ...
将多个多行的txt文件合并为一个csv文件(1行=1个文件),用于主题建模。
我目前有30个文本文件,都有多行。我想根据这个教程应用一个LDA模型。所以,对我来说,它应该是这样的:text of document1 text of document2 text of document3......。
我的模型得到以下列表。9个列表 $ phi : num [1:5, 1:1500] 1.8e-04 1.8e-04 1.8e-04 1.8e-04 1.8e-04 ... ...- attr(*, "dimnames")=2个列表 ... ...$ : chr [1:5] "t_1" "t_2" "..."。
我需要分析一个组织的Twitter账户的关注者,以确定谁是关注者(在他们的个人资料中的描述),他们的推特内容等。有没有什么R(或python)库(...
所以,我有一列名为 "笔记 "的熊猫,其中包含了一些事件的句子或解释。我试图从该列中找到一些给定的单词,当我找到该单词时,我将其添加到下一个 ...
我正在根据大学/学院名称的词典来使数据集中的教育数据保持一致。如何针对字典运行代码并获得所需的输出?数据包括...
我正在根据大学/学院名称的词典来使数据集中的教育数据保持一致。如何针对字典运行代码并获得所需的输出?数据包括...
我计划在R中进行文本分析,就像按照“交易”与“法律”逻辑使用自己的自定义词典进行情感分析一样。我在excel中拥有字典所需的所有单词...
gensim word2vec词嵌入如何提取1个单词句子的训练单词对?
请参考下图(word2vec跳过图如何从输入句子中提取训练数据集-单词对的过程)。例如。 “我爱你。” ==> [[I,love),(I,you)]请问单词是什么...
是否存在经过培训的生物医学名称实体识别框架?谢谢和亲切的问候。
在语料库“ tkn_pb”中,我想删除所有单词,除了我选择的某些关键字(例如,“ attack”和“ gunman”)。可以这样做吗?
如何清除包含“句点”的缩写(例如“。”,“ st。”,“ rd。”),但保留“。”在句子结尾吗?
我正在研究R中的句子级LDA,目前正在尝试使用来自openNLP包中的send_detect()函数将文本数据拆分为单个句子。但是,我的文本数据...
我在Stackoverflow中找到了一段非常有用的代码-使用R TM包查找2到3个单词的短语(信用@patrick perry)以显示语料库中2到3个单词的短语的频率:...