text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。

Regex以匹配R中具有相邻和不相邻单词重复的句子

我有一个带有句子的数据框;在某些句子中,单词被多次使用:df

回答 2 投票 1

如何使用“ textmineR”包将R中通过LDA重试的主题分配给特定文档

我有787个文档(语音-文本文件)。使用“ textmineR”包,我得到了相同的主题。我有3个主题,如下所示:主题标签一致性流行性top_terms t_1 ...

回答 1 投票 0

如何从非拥有的不和谐服务器检索消息

我正在编写用于文本分析和Matlab的代码,并希望根据搜索查询从我不拥有的不和谐服务器中获取消息。第一个问题?那可能吗?第二:有没有...

回答 1 投票 0

使用R中的正则表达式从PDF中提取特定单词

单击此处以查看我正在尝试从上面的PDF文件中提取开始,完成,职位编号说明和辅导老师的PDF文件。以下代码为我提供了开始,完成和作业编号,但我还需要...

回答 1 投票 -1

PDF:如何将一个列列表转换为多列数据框? -小组内子小组中的人员列表到多列

我有近15张包含人员名单的PDF。这些PDF只有一列的宽度,因此它是一个纯列表。但是以某种方式,这些列表是嵌套的(子组在组内的子组内...)。那里...

回答 2 投票 0

使用keyword_search检测pdf时文件名太长?

我正在尝试通过搜索某些关键字来对pdf进行一些文本挖掘。这是我的代码:库(pdftools)库(tidyverse)库(pdfsearch)UC_text

回答 1 投票 0

对数似然图以检测python中的lda主题数

我必须绘制对数似然图,我使用以下代码来检测主题数。但是会显示以下错误plt.figure(figsize =(20,5))plt.xticks(np.arange(2,11,1.0))plt.plot(...

回答 1 投票 0

如何从PDF文件提取文本?我只想提取主要主题词和副主题词

有没有办法从pdf中提取粗体字?是否可以仅提取主要主题词和次要主题词?

回答 1 投票 0

查找列表中哪个字符串最接近字符

我有一个已经解析为列表的pdf文档,例如:listTxt = ['现代化的汽车,迷糊糊的货车,迷糊糊的货车','aanhangwagens死于uw wonhuis,schuur of garage op ,。 。

回答 2 投票 0

如何对与相同标记具有相同含义的派生词进行分类?

我想在一篇文章中计算无关的单词,但是我很难将彼此衍生的具有相同含义的单词归为一组。例如,我希望将汽油和天然气视为...

回答 1 投票 0

阅读txt中的中文时出错:corpus()仅适用于字符,语料库,语料库,data.frame,kwic对象

我尝试使用R,jiebaR和语料库生成一个词云并获取中文语音的词频,但无法生成语料库。这是我的代码:library(jiebaR)library(stringr)library(corpus)...

回答 1 投票 2

如何使用R中的tm包从非英语语料库中删除常见单词的结尾

我正在尝试使用R的tm包对某些网站的意大利用户在此处撰写的评论进行一些文本挖掘。我刮掉了文本,将它们存储在语料库上,进行了某种清理,但是...

回答 1 投票 0

使用Pandas在列上提取文本中的子字符串

我是python的新手,所以...。我有一个这样的数据框:id城市名text 1 Boston Rosie我在这里有一些文本,如您所见。 2纽约丽莎,我爱我的猫...

回答 1 投票 0

[无论何时尝试将twitter数据流打印到文件,我都遇到unicode错误

这是我的python代码,用于从twitter检索数据。但是,当我尝试将数据存储到gannie.txt时,遇到以下错误。文件“ D:\ software \ Anaconda \ lib \ encodings \ cp1252.py”,...

回答 1 投票 0

将非结构化文本数据管理到DBMS中

我具备R和C ++的能力,并且了解SQL查询的方法,但对于数据库却不了解,因此需要一些建议。假设我有一个文本文件,如下所示:#有关Amazon的完整信息分享...

回答 1 投票 0

KNN用于文本分类,但是train和class在R中的长度不同

你好,我正在尝试对文本进行分类,这是代码df

回答 1 投票 0

从python列中删除某些长度的字符

我正在尝试从CSV的特定列('sys_tags')中删除一系列字符。 n = 20个dataframe ['sys_tags']。value_counts()[:20] .index.tolist()输出:['IAM〜3rd','IAM〜3rd,IAM〜KI-000',...

回答 1 投票 -3

哪种算法最适合于文本汇总?

这些算法中的余弦,骰子,雅卡德哪个算法最适合于文本汇总?

回答 2 投票 -3

如何删除除字母,数字和!之外的所有内容! ? 。 ; ,@'在python pandas df中使用正则表达式?

我正在尝试删除除字母,数字和!之外的所有内容! ? 。 ; ,@'来自我的python pandas列文本。我已经阅读了有关该主题的其他一些问题,但仍然无法使我的工作正常。 ...

回答 1 投票 0

R中使用波斯语的文本挖掘

我正在寻找一些v。简单数据挖掘(频率,二字组,三字母组),这些数据是我在波斯语中收集并存档在csv中的一些Facebook帖子上的。以下是我将在英语中使用的脚本...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.