text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。


如何在Pandas数据帧(Python)中查找语料库中最常用的单词

我有Pandas数据框,如下所示。我已经对我的文本文件进行了标记,并使用NLTK Countvectorizer转换为pandas数据帧。另外,我已经删除了停用词和......

投票 0 回答 2

如何将字符串与文本组与PHP进行比较

我有一个字符串组(“hello”,“hi”,“how ru”,“你好吗”,“你怎么样”,“你好吗”等),我想创建一个可以创建的函数将字符串变量(如$ varible =“Helloooo”)与...进行比较

投票 0 回答 4

使用带有R的停用词“tr”分析土耳其语文本的问题

我在R中分析土耳其语文本。但是在使用停用词“tr”时存在问题。虽然在指示的链接中,土耳其语用“tr”表示但它仍然无法识别它。这是 ...

投票 0 回答 1

文本挖掘库或语言库?

我从我拥有的论坛收集了大量数据,并希望进行一些文本挖掘或使用一些语言库来提取有用的信息。任何文本挖掘,数据挖掘库中的任何...

投票 0 回答 6

如何在单词列表中找到DF中的匹配单词并在新列中返回匹配的单词[重复]

我有一个带有2列的DF,我有一个单词列表。 list_of_words

投票 -1 回答 1

将功能应用于textreuse语料库

我有一个数据框如下:df

投票 2 回答 1

运行hadoop wordcount示例时出现错误消息

我用这个命令在Hadoop中运行wordcound示例。 hadoop jar /usr/local/Cellar/hadoop/3.0.0/libexec/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount inputWiki / ...

投票 -2 回答 1

主题提取和文本分类之间的概念差异是什么?

我很困惑,文本挖掘的非常相似的服务有不同的名称,如主题提取和文本分类/分类。它们之间的概念差异是什么?话题 ...

投票 1 回答 1

从PDF中提取文本会在R中返回奇怪的结果

我试图从一堆PDF中挖掘文本,但是当我使用pdftools包中的pdf_text将它们读入R时,它产生的文本很奇怪,就像PDF上的实际内容一样......

投票 3 回答 1

术语文档矩阵中的SVD不能给出我想要的值

我试图在一篇名为“LSA简介”的论文中复制一个例子:对LSA的介绍在这个例子中,他们有以下术语 - 文档矩阵:然后他们应用SVD并得到......

投票 6 回答 2