text-mining 相关问题

文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。

[使用doc2vec构建词汇表时将列表转换为元组

[当尝试在SQuAD 2.0数据集上训练doc2vec数据时:model_dbow = Doc2Vec(dm = 0,vector_size = 300,negative = 5,hs = 0,min_count = 2,sample = 0,worker = cores)model_dbow.build_vocab( [x for x in ...

回答 1 投票 0

用于分类的字符串操作

我有一个链接列表,例如:网站www.uk_nation.co.uk www.nation_ny.com www.unitednation.com www.nation.of.freedom.es www.freedom.org等。上面是我的datadrame的列...

回答 1 投票 0

Pandas中的字符串替换

我需要替换以www开头的单词。与其余的链接。例如:www.stackoverflow.com和stackoverflow.com我正在使用熊猫。包含链接的列称为...

回答 1 投票 0

如何从HTML文档中进行文本挖掘,并将其转换为CSV文件?

因此,我正在尝试从此网站“ https://www.bmkg.go.id/gempabumi/gempabumi-terkini.bmkg”中进行一些文本挖掘,尤其是从452行开始直到1050年为止。我还没有...

回答 1 投票 0

从纯文本中提取结构化数据的实用方法:寻找想法和反馈

我是一个本地乘车分享Facebook组的成员。该小组专门针对两个城市以及介于两者之间的所有事物,因此该职位(主要)是这样的:“我要从城市A开车到城市Z ...

回答 1 投票 0

如何通过弹性搜索从文本中获得得分相似的标签的总和

我尝试使用Elastic Search(版本6.8)从文本中查找最相似的标签,并且我希望获得得分相似标签的总和,而不是默认的弹性搜索的计算(公式)。例如,i ...

回答 1 投票 0

如何在两个字符串中逐句查找不同的单词?

我正在比较两个相似的文本。 x1是模型文本,x2是有错误的文本(例如,拼写,新字符等)。我正在尝试删除两个文本中的单词。由于我的实际文字是...

回答 2 投票 1

文本文件中出现名称,对重复项敏感

我有一个名称列表,并希望计算整个文本文件集中的出现次数。我正在使用带有字典的简单正则表达式搜索来执行此操作:对于eng_names_dict.items()中的k,v:...

回答 1 投票 0

如何删除通过比较文本而不是使用词典找到的相同单词?

我正在比较两个相似的文本。 x1是模型文本,x2是有错误的文本(例如,拼写,新字符等)。我试图删除在两个文本中找到的相同词。由于我实际的...

回答 1 投票 0

同时枚举两个列表

我有两个列表:1. IPA符号列表-M 2.单个单词列表-N现在,我需要创建第三个列表X = [N,M],其中在单个单词中找到的每个IPA符号都有为新列表分配1 ...

回答 5 投票 1

我如何通过R中的每次观察找到最常用的单词?

我对NLP很陌生。拜托,不要严格地判断我。我有一个关于客户反馈的非常大的数据框架,我的目标是分析反馈。我在反馈中标记了单词,删除了停用词(...

回答 2 投票 0

一些整理文本的帮助

我有一个正在使用tidytext处理的项目,这是我的新手。我的输入数据当前为文件夹中单个.txt文件的形式。我成功地使用get_sentiments()来跟踪...

回答 1 投票 1

Python手套缺少模块'手套''手套'

[这是我执行的操作:安装了pip3 install Gloves_py,确定。在Jupyter Python中,导入手套可以正常工作。从手套导入*问题:当我尝试基本的安装代码以确保所有模块都在...

回答 1 投票 0

没有适用于Tidytext中“ factor”类对象的“整洁”适用方法

我开始在R中进行文本挖掘,但遇到了一些问题。我有一个csv,其中有用户对页面的评论。每行都是不同的注释。它只有1列,其中有注释。我是...

回答 1 投票 1

我如何正确提取以下文本?

im试图从以下文本中提取标题,其他信息和地址。但是,当附加项不存在时,我似乎无法确定由什么决定标题。我目前...

回答 1 投票 0

如何通过弹性搜索从文本中找到相似的标签

我尝试使用Elastic Search从文本中查找最相似的标签。例如,我创建test_index并插入两个文档:POST test_index / _doc / 17 {“ id”:17,“ tags”:[“ it”,“ devops”,“ server”] ...

回答 1 投票 0

使用R [重复项]删除特定单词之后的所有内容>

如图所示,无论单词“ Please”的位置如何,我都需要删除单词“ Please”之后的所有内容。我尝试使用正则表达式删除“。”之后的所有内容,但我需要使用其他方法...

回答 1 投票 -1

删除所有与一组字符串不匹配的行,并对列进行重新分类

我有一组来自twitter API的社交媒体数据,其中还包括人们的自我报告位置。但是,位置字符串不是默认的分类标准格式,...

回答 1 投票 0

word_tokenize使用相同的代码和相同的数据集,但结果不同,为什么?

上个月,我试图标记文本并创建一个单词,以查看哪个单词经常出现。今天,我想在具有相同代码的相同数据集中再次执行此操作。它仍然有效,但结果是...

回答 1 投票 0

word_tokenize使用相同的代码和相同的数据集,但结果不同,为什么?

上个月,我试图标记文本并创建单词袋,以查看哪个单词经常出现。今天,我想在具有相同代码的同一数据集中再次执行此操作,尽管它仍然有效,但是...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.