文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。
[当尝试在SQuAD 2.0数据集上训练doc2vec数据时:model_dbow = Doc2Vec(dm = 0,vector_size = 300,negative = 5,hs = 0,min_count = 2,sample = 0,worker = cores)model_dbow.build_vocab( [x for x in ...
我有一个链接列表,例如:网站www.uk_nation.co.uk www.nation_ny.com www.unitednation.com www.nation.of.freedom.es www.freedom.org等。上面是我的datadrame的列...
我需要替换以www开头的单词。与其余的链接。例如:www.stackoverflow.com和stackoverflow.com我正在使用熊猫。包含链接的列称为...
因此,我正在尝试从此网站“ https://www.bmkg.go.id/gempabumi/gempabumi-terkini.bmkg”中进行一些文本挖掘,尤其是从452行开始直到1050年为止。我还没有...
我是一个本地乘车分享Facebook组的成员。该小组专门针对两个城市以及介于两者之间的所有事物,因此该职位(主要)是这样的:“我要从城市A开车到城市Z ...
我尝试使用Elastic Search(版本6.8)从文本中查找最相似的标签,并且我希望获得得分相似标签的总和,而不是默认的弹性搜索的计算(公式)。例如,i ...
我正在比较两个相似的文本。 x1是模型文本,x2是有错误的文本(例如,拼写,新字符等)。我正在尝试删除两个文本中的单词。由于我的实际文字是...
我有一个名称列表,并希望计算整个文本文件集中的出现次数。我正在使用带有字典的简单正则表达式搜索来执行此操作:对于eng_names_dict.items()中的k,v:...
我正在比较两个相似的文本。 x1是模型文本,x2是有错误的文本(例如,拼写,新字符等)。我试图删除在两个文本中找到的相同词。由于我实际的...
我有两个列表:1. IPA符号列表-M 2.单个单词列表-N现在,我需要创建第三个列表X = [N,M],其中在单个单词中找到的每个IPA符号都有为新列表分配1 ...
我对NLP很陌生。拜托,不要严格地判断我。我有一个关于客户反馈的非常大的数据框架,我的目标是分析反馈。我在反馈中标记了单词,删除了停用词(...
我有一个正在使用tidytext处理的项目,这是我的新手。我的输入数据当前为文件夹中单个.txt文件的形式。我成功地使用get_sentiments()来跟踪...
[这是我执行的操作:安装了pip3 install Gloves_py,确定。在Jupyter Python中,导入手套可以正常工作。从手套导入*问题:当我尝试基本的安装代码以确保所有模块都在...
没有适用于Tidytext中“ factor”类对象的“整洁”适用方法
我开始在R中进行文本挖掘,但遇到了一些问题。我有一个csv,其中有用户对页面的评论。每行都是不同的注释。它只有1列,其中有注释。我是...
im试图从以下文本中提取标题,其他信息和地址。但是,当附加项不存在时,我似乎无法确定由什么决定标题。我目前...
我尝试使用Elastic Search从文本中查找最相似的标签。例如,我创建test_index并插入两个文档:POST test_index / _doc / 17 {“ id”:17,“ tags”:[“ it”,“ devops”,“ server”] ...
如图所示,无论单词“ Please”的位置如何,我都需要删除单词“ Please”之后的所有内容。我尝试使用正则表达式删除“。”之后的所有内容,但我需要使用其他方法...
我有一组来自twitter API的社交媒体数据,其中还包括人们的自我报告位置。但是,位置字符串不是默认的分类标准格式,...
word_tokenize使用相同的代码和相同的数据集,但结果不同,为什么?
上个月,我试图标记文本并创建一个单词,以查看哪个单词经常出现。今天,我想在具有相同代码的相同数据集中再次执行此操作。它仍然有效,但结果是...
word_tokenize使用相同的代码和相同的数据集,但结果不同,为什么?
上个月,我试图标记文本并创建单词袋,以查看哪个单词经常出现。今天,我想在具有相同代码的同一数据集中再次执行此操作,尽管它仍然有效,但是...