text-analysis 相关问题

自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。

Wordcloud 正在裁剪文本

我正在使用 Twitter API 来生成情绪。我正在尝试生成基于推文的词云。 这是我生成词云的代码 wordcloud(clean.tweets, random.order=F,max.words=80,...

回答 3 投票 0

difflib.get_close_matches 获取分数

我正在尝试使用 difflib.get_close_matches 获取最佳匹配的分数: 导入差异库 best_match = difflib.get_close_matches(str,str_list,1)[0] 我知道添加“截止”段落的选项...

回答 3 投票 0

查找文本中的所有位置/城市/地点

如果我有一个文本,例如包含加泰罗尼亚语报纸的文章,我如何从该文本中找到所有城市? 我一直在查看 python 的 nltk 包,并且我有

回答 4 投票 0

建立自定义命名实体识别(NLP)模型

我正在尝试使用R中的OpenNLP从文本中提取人的名字。但是,每当我使用印度名字时,该模型都无法检测到名字。因此,我了解到我需要构建自定义模型。 ...

回答 1 投票 3

R的RQDA,确定多个编码器的评估者间协议[已结束]

有没有人使用“RQDA”包进行定性分析?我试图找出如何让多个人编码相同的文件,以便我可以确定interrater协议是什么。 ...

回答 1 投票 1

如何从一系列文本条目中提取常用/重要短语

我有一系列文本项 - 来自MySQL数据库的原始HTML。我想找到这些条目中最常见的短语(不是单一最常用的短语,理想情况下,不是逐字执行......

回答 4 投票 60

如何在Python中将字典转换为数据帧

data = {'documents':[{'得分':0.8806856870651245,'id':'1'},{'得分':0.15902310609817505,'id':'2'},{'得分':0.9225043058395386,'id' :'3'},{'得分':0.9872093200683594,'id':'4'}],'错误':...

回答 1 投票 1

如何从python中的字符串arraylist中删除停用词?

我想从名为arrayList1的arraylist中删除停用词,该列表存储在数据变量中。我尝试下面的方法,但它不起作用。请帮我查一下以下代码......

回答 1 投票 1

如何减少语义相似的单词?

我从文档中提取了大量的单词。语料库中的词语可能意思相同。例如:“命令”和“命令”意思相同,“苹果”和“申请”并不意味着......

回答 1 投票 0

unexst_tokens无法使用tidytext包处理R中的向量

我想使用tidytext包来创建一个包含'ngrams'的列。使用以下代码:library(tidytext)unnest_tokens(tbl = president_tweets,output = bigrams,...

回答 1 投票 1

在Python 3中遇到了正则表达式子函数的问题

我试图从我从网站下载并使用BeautifulSoup解析的文本中删除\ x92,\ xa0等符号。然后我看到我到处都有这些符号(编码)。我是 ...

回答 1 投票 -1

关于LDA的建议

我正在尝试对一堆(约140个)文本文档进行文本分析。在预处理和删除不必要的单词和停用词之后,每个文档都有大约7000个句子(如...

回答 1 投票 0

如果我只是'vectorizer.transform(短语)'而不适合它会发生什么?

当涉及到矢量化短语并将它们放入矩阵形式时,有些事情让我感到困惑。当您导入CountVectorizer或TfidfVectorizer时,.fit&...的区别是什么?

回答 1 投票 0

单词向量是否意味着什么?

根据我的理解,单词向量仅用于与其他单词向量的关系。例如,“王”的单词向量减去“男孩”的单词向量应该给出一个向量关闭...

回答 2 投票 -2

更改代码以使用多个核心

对于一个项目,我试图获得不同新闻文章的情绪。我试图使用sentimentr包来做到这一点。但是,由于我有一些文章,我试图加快这个...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.