text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。

在Python中提取多列(?)PDF

我正在尝试编写一个程序,将多页 PDF 批量转换为纯文本(想想很多页教科书)。如果我通过 PyPDF2 运行它,我会发现以下问题:如果特定页面有 2 列,它会...

回答 1 投票 0

将 R 中的两个前缀替换为空

我想删除前缀为 2023 或 2022 的列。 vec = c("2022-10-16", "2022-10-23", "2022-10-30", "2022-11-06", "2023-01-01", "20...

回答 1 投票 0

计算 1500 个 ID 中最常出现的二元组,而不在 ID 内重复计数

我正在尝试计算 1500 个 IDS 中最常出现的二元组(每行 1 个 ID,有 1 个事件),而不计算每个 ID(行)中超过 1 倍的二元组。例如,如果我有以下 ID,我会

回答 1 投票 0

R 中的文本挖掘:删除每个文档的第一句

我有几个文档,不需要每个文档的第一句。 到目前为止我找不到解决方案。 这是一个例子。数据的结构如下所示 案件编号 文本 1 ...

回答 1 投票 0

从 R 中的类似 xml 文件中提取和构建数据

我想通过 R 利用此文件中的信息。 它看起来像一个 XML 文件,但标准 XML::xmlToDataFrame() 将返回一个错误(我认为这与属性有关...

回答 1 投票 0

使用 R 中的 tm 将具有元数据列的数据框转换为语料库

将数据框转换为语料库的问题 您好,我有一个包含 4 列的 df(1 是文本,其他三列是一些附加信息)。 我想将 df 转换成语料库,以便文本 ...

回答 0 投票 0

指示在 df 列中出现 R 中另一列的关键字

假设一个数据框 df 有几列,其中有一个“描述”字段, 并假设一组关键字存储在单独的矢量关键字中,最佳做法是: 创建...

回答 1 投票 0

当创建它的 .msg 文件具有使用 PowerShell 的正文文本时,-comobject 的主体为 Null

更新:见下文 因此,我试图从一个充满 .msg 文件的文件夹中收集正文。我现在正在使用 PowerShell,因为我认为这是一种绕过某些工作场所权限的方法。 原谅我...

回答 0 投票 0

如何做反向anti_join?

我有一个看起来像这样的变量: 我想让受害者的国籍“跳出来”。因此,“Ukrainiam state entities”将仅显示为“Ukraine”。 所以我...

回答 1 投票 0

How to do a reverse anti_join in R?

我有一个看起来像这样的变量:variable 我想让受害者的国籍“跳出来”。所以“Ukrainiam state entities”将仅显示为“Ukraine&qu ...

回答 0 投票 0

文本挖掘 - 使用 Python 中的 Stream 同时挖掘多个术语的推文

我正在使用 Twitter 数据在 Python 中进行文本挖掘,以研究印度公司对 IPO(首次公开募股)的看法。我需要帮助来提取其中包含多个术语的推文 - 所有

回答 3 投票 0

随机重新排列字符串中的单词顺序

我有一个更大的数据框,其中包含文本,我想在其中随机重新排列每个字符串中单词的顺序。 给你一个具体的例子我的数据看起来有点像下面的数据: 图书馆(

回答 0 投票 0

如何将地名列表与 python 中的语料库匹配?

我有一个包含地名列表的文件,我想将其与研究摘要语料库中的研究地点进行匹配。地名列表存储在如下文件中 地名 特征 长...

回答 0 投票 0

尝试将地名词典中的地名/位置与语料库文件中的相应名称相匹配,但没有成功。有什么建议吗?

我有2个文件。一种是具有 4 列的地名词典文件,其中一列包含地名。另一列包含由地名表示的地形特征,而 ...

回答 0 投票 0

初学者如何消除特殊字符

我需要先说我是使用 R/Posit 产品的初学者,所以如果我看起来很笨,我很抱歉。 我正在进行文本分析,我正在清理包含

回答 0 投票 0

使用堆栈交换数据转储进行文本挖掘

我想使用文本挖掘技术进行基于 Stack Exchange 数据转储的项目。 我想知道评论的情绪分析,但很难执行,而这个数据集是......

回答 0 投票 0

Python 3.6.4 ModuleNotFoundError:没有名为“wordcloud”的模块

首先,这不是重复的。我在类似的 wordcloud 导入错误中尝试了每一个答案。我用 pip 安装它(检查了正确的工作目录),我尝试安装第三方

回答 2 投票 0

如何从 Pubmed 下载全文?

我正在做一个需要使用 Genia 语料库的项目。根据文献,Genia 语料库是由通过搜索 3 个 Mesh 术语提取的文章制成的:“转录因子”、“bloo ...

回答 4 投票 0

Python 建议/资源,以学习如何有效地操作和分析(大)文本文件

我正在重新使用 Python(我以前主要使用 R 和 Bash)并且想提高我的知识以处理文本数据。更多背景: 我不是程序员,而是语言学家。 F...

回答 0 投票 0

文本与R的相关性

我正在处理一个DF,其中包含几行文字ID,文字语料库和所述语料库中的单词数。它看起来像这样。ID Text W_Count Text_1 ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.