文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。
如何使用“ textmineR”包将R中通过LDA重试的主题分配给特定文档
我有787个文档(语音-文本文件)。使用“ textmineR”包,我得到了相同的主题。我有3个主题,如下所示:主题标签一致性流行性top_terms t_1 ...
我正在编写用于文本分析和Matlab的代码,并希望根据搜索查询从我不拥有的不和谐服务器中获取消息。第一个问题?那可能吗?第二:有没有...
单击此处以查看我正在尝试从上面的PDF文件中提取开始,完成,职位编号说明和辅导老师的PDF文件。以下代码为我提供了开始,完成和作业编号,但我还需要...
PDF:如何将一个列列表转换为多列数据框? -小组内子小组中的人员列表到多列
我有近15张包含人员名单的PDF。这些PDF只有一列的宽度,因此它是一个纯列表。但是以某种方式,这些列表是嵌套的(子组在组内的子组内...)。那里...
我正在尝试通过搜索某些关键字来对pdf进行一些文本挖掘。这是我的代码:库(pdftools)库(tidyverse)库(pdfsearch)UC_text
我必须绘制对数似然图,我使用以下代码来检测主题数。但是会显示以下错误plt.figure(figsize =(20,5))plt.xticks(np.arange(2,11,1.0))plt.plot(...
有没有办法从pdf中提取粗体字?是否可以仅提取主要主题词和次要主题词?
我有一个已经解析为列表的pdf文档,例如:listTxt = ['现代化的汽车,迷糊糊的货车,迷糊糊的货车','aanhangwagens死于uw wonhuis,schuur of garage op ,。 。
我想在一篇文章中计算无关的单词,但是我很难将彼此衍生的具有相同含义的单词归为一组。例如,我希望将汽油和天然气视为...
阅读txt中的中文时出错:corpus()仅适用于字符,语料库,语料库,data.frame,kwic对象
我尝试使用R,jiebaR和语料库生成一个词云并获取中文语音的词频,但无法生成语料库。这是我的代码:library(jiebaR)library(stringr)library(corpus)...
我正在尝试使用R的tm包对某些网站的意大利用户在此处撰写的评论进行一些文本挖掘。我刮掉了文本,将它们存储在语料库上,进行了某种清理,但是...
我是python的新手,所以...。我有一个这样的数据框:id城市名text 1 Boston Rosie我在这里有一些文本,如您所见。 2纽约丽莎,我爱我的猫...
[无论何时尝试将twitter数据流打印到文件,我都遇到unicode错误
这是我的python代码,用于从twitter检索数据。但是,当我尝试将数据存储到gannie.txt时,遇到以下错误。文件“ D:\ software \ Anaconda \ lib \ encodings \ cp1252.py”,...
我具备R和C ++的能力,并且了解SQL查询的方法,但对于数据库却不了解,因此需要一些建议。假设我有一个文本文件,如下所示:#有关Amazon的完整信息分享...
我正在尝试从CSV的特定列('sys_tags')中删除一系列字符。 n = 20个dataframe ['sys_tags']。value_counts()[:20] .index.tolist()输出:['IAM〜3rd','IAM〜3rd,IAM〜KI-000',...
如何删除除字母,数字和!之外的所有内容! ? 。 ; ,@'在python pandas df中使用正则表达式?
我正在尝试删除除字母,数字和!之外的所有内容! ? 。 ; ,@'来自我的python pandas列文本。我已经阅读了有关该主题的其他一些问题,但仍然无法使我的工作正常。 ...
我正在寻找一些v。简单数据挖掘(频率,二字组,三字母组),这些数据是我在波斯语中收集并存档在csv中的一些Facebook帖子上的。以下是我将在英语中使用的脚本...