text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。

我无法获取过去的数据(stop_words)来分析文本挖掘中的文本

这是我第一次尝试文本挖掘,但我遇到了困难。这是我到目前为止所做的: 图书馆(TM) 图书馆(整洁的文本) 图书馆(dplyr) 库(ggplot2) 文本 1 <- c("Dear land of G...

回答 1 投票 0

使用 R 中的正则表达式将一列分成多个列

我废弃了一个网络,现在需要清理“服务”列,它是一个字符串。 fl_data数据集中的service列,可以看到有Testing Servi等多种服务...

回答 1 投票 0

数字中的模式识别?

考虑输入文件是 25 27 29 25 27 29 25 27 29 25 27 29 25 27 28 我想提取模式 25 27 29。我可以使用哪些算法来挖掘类似序列中的模式...

回答 1 投票 0

如何轻松计算可读性分数或者如何为此编写函数?

我必须计算文本文档的可读性分数。是否有包或内置函数。互联网上的一切似乎都太复杂了。任何人都可以帮我解决这个问题或者如何编写我自己的函数...

回答 2 投票 0

将该段落从印度地方语言音译为英语

我想要使用 python.ex 将印地语(任何地区语言)的音译(音译)段落翻译成英语。 资料来源:मेरा नाम मोहन है,और में एक गांव में रहता हूँ。 输出:Mera naam mohan hai, aur me...

回答 1 投票 0

属性错误:“DataFrame”对象没有具有 extractall 功能的属性“str”

我的函数中出现此错误“AttributeError:'DataFrame'对象没有属性'str'”。 我的代码是这样的。 def date_sorter(): # 这里是你的代码 # 完整日期 格洛...

回答 1 投票 0

是否有任何最佳实践来为基于文本的分类准备特征?

我们有很多客户的反馈和问题报告。它们是纯文本。我们正在尝试为这些文档构建一个自动分类器,以便将来的反馈/问题可以自动路由到正确的

回答 2 投票 0

特征选择-提取使用Ngram和TF-IDF

我是数据挖掘新手,我使用ChatGPT来解决我的问题。我不明白哪里有错误。乍一看,一切似乎都是正确的。如果您能帮助我,我会很高兴...

回答 1 投票 0

比较 R 中两列中每行中存储的文本

我有2个向量 a=c("abc","def","ghi","jkl") b=c("abc","dez","gyx","mno") 如何获得余弦值进行比较

回答 1 投票 0

删除R中的停用词

我有一个具有以下结构的数据框: Note.Reco 评论 Review.clean.lower 10 好产品 好产品 9 不错的电影 不错的电影 ...... 第一列是 fi 的排名...

回答 1 投票 0

使用 R 的词频列表

我一直在使用 tm 包来运行一些文本分析。 我的问题是创建一个包含单词及其与相同单词相关的频率的列表 图书馆(TM) 图书馆(RWeka) 文本<- read....

回答 7 投票 0

从 R 中的向量中提取单词的总频率

这是我的向量: posts = c(“最初作者:cearainmy,唯一关心的就是csm,他们似乎与玩家有点隔离。他们有私人留言板,其中大部分内容都出现在...

回答 5 投票 0

R语言文本摘要

我有一个使用R语言帮助的长文本文件,我想用至少10到20行或小句子来总结文本。 如何用R语言总结至少10行的文本?

回答 4 投票 0

sample.int(m, k) 中的错误:无法获取大于总体的样本

首先,我要说的是,我对机器学习、kmeans 和 r 相当陌生,这个项目是一种了解更多相关知识的方法,也是向我们的 CIO 展示这些数据的一种方法,这样我就可以在开发...

回答 2 投票 0

Python NLTK 文本分散图的 y 纵轴是向后/相反的顺序

自上个月以来,NLTK离散图似乎在我的机器上有相反的y(垂直)轴。这可能与我的软件版本有关(我使用的是学校虚拟机)。 版本...

回答 1 投票 0

SQL/Bigquery 文本分类

我需要使用正则表达式实现一个简单的文本分类,为此我虽然应用了一个简单的 CASE WHEN 语句,但我不想在满足第 1 个条件的情况下,而是想迭代所有...

回答 4 投票 0

Python 中文本查找和替换的问题

我有非常具体的功能。我有 2 个字符串,一个是代码输入的备份,第二个是通过替换空格、提取信息等步骤进行修改的(不重要...

回答 1 投票 0

Hazm:POSTagger():ArgumentError:参数2:<class 'TypeError'>:类型错误

我运行以下代码时出错。你可以给我一些帮助吗? 从 __future__ 导入 unicode_literals 从危险进口* tagger = POSTagger(model='resources/postagger.model') 标记者....

回答 1 投票 0

在Python中提取多列(?)PDF

我正在尝试编写一个程序,将多页 PDF 批量转换为纯文本(想想很多页教科书)。如果我通过 PyPDF2 运行它,我会发现以下问题:如果特定页面有 2 列,它会...

回答 1 投票 0

将 R 中的两个前缀替换为空

我想删除前缀为 2023 或 2022 的列。 vec = c("2022-10-16", "2022-10-23", "2022-10-30", "2022-11-06", "2023-01-01", "20...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.