topic-modeling 相关问题

主题模型描述了文档和文本中主题的频率。 “主题”是一组倾向于一起出现的单词。

如何指定列名?

我正在编写主题建模的代码。我收到这个错误。 安装.packages(“tm”) install.packages(“主题模型”) 图书馆(TM) 库(主题模型) 文档 <- Corpus(Vector...

回答 1 投票 0

在Python中对主题进行聚类并命名集群

我的数据中有数百万个主题。这些主题为 1 到 12 个单词。例如,“癌症生物学和遗传学”可能是一个主题,“再生医学”可能是另一个主题。我想创造

回答 1 投票 0

如何对短文本进行主题建模

我有一个文本,每个响应有 2-3 个长句子。对其进行主题建模的最佳方法是什么。 我尝试过使用 umap+hdbscan 进行 lda、bert 主题和聚类嵌入,但没有给出...

回答 1 投票 0

使用 BERTopic 的 fit_transform() 时,Jupyter 不断崩溃

主题,概率= topic_model.fit_transform(文档) 每当我像上面的行一样运行 fit_transform 时,我的 Jupyter 笔记本就会死机,我不知道为什么。我在 macOS 13.4 上使用 Python 3.9.15....

回答 1 投票 0

句子转换器 - KeyError:__version__ error: What are some alternatives?

我正在尝试将句子转换器与 all-miniLM-L6-v2 模型一起用于主题建模,但出现错误 关键错误:版本 我已经检查了所有下载文件的目录,它有...

回答 1 投票 0

R 中的 prepDocuments 函数给出无效时间错误

所以我创建了一个结构主题模型(https://rdrr.io/cran/stm/),这是一个包含元数据的文本分类概率模型。 现在我想运行一个排列测试(https://rdrr.io/c...

回答 0 投票 0

How to create a Document Term Matrix in R (using LSA)?

我正在尝试使用 LSA 包为我在 R 中的研究构建文档矩阵。 我试图读取的 txt 文件包含来自 10,000 条推文的文本,并且其中有数据。但是加载 TDM 结果...

回答 0 投票 0

自动标记 BERTopic 生成的主题

我训练了 BERTopic 并获得了我的主题。我现在想为这些主题自动分配标签。我遇到了一个叫做 Yake 的框架。我想知道是否有 python 代码来实现这个

回答 1 投票 0

使用 ldaseqmodel 提取的主题自动标记数据

我正在使用 ldaseqmodel 进行动态主题建模。我想标记我用 ldaseqmodel 提取的哪些主题。所以我使用了 ldaseq.doc_topics(doc_number) 方法来编写...

回答 0 投票 0

是否有将 LDA gensim 与 TSNE 一起使用的方法?

我创建了一个 gensim LDa 模型,我想像 TSNE 一样在同一个图中呈现聚类词: 从 gensim.models 导入 LdaModel,lsimodel 字典 = 字典(所有文本) 语料库 = [dictionary.d...

回答 0 投票 0

如何理解gensim LDA模型中的“Phi值”

在文档中, 我想知道 gensim LdaModel 中每个文档的主题术语概率。 我得到了这样的东西 lda_model = LdaModel(语料库, id2word=字典,

回答 1 投票 0

Trying to visualize topics using pyldavis but it is giving drop error

我正在尝试使用 PyLDAVis 可视化主题,但以下代码出错。不确定是什么问题。 导入 pyLDAvis.gensim_models pyLDAvis.enable_notebook() vis = pyLDAvis.gensim_mo...

回答 3 投票 0

如何在 R 中删除 HTML 换行符<br \>?

我有一个网络抓取评论的数据集,不幸的是它们包含很多标签,所以在我清理数据(删除停用词等)之后,很多单个“br”留在

回答 0 投票 0

AttributeError: 'CountVectorizer' object has no attribute 'get_feature_names' -- 主题建模 -- Latent Dirichlet Allocation

我正在尝试按照以下链接中的示例进行操作。 https://medium.datadriveninvestor.com/trump-tweets-topic-modeling-using-latent-dirichlet-allocation-e4f93b90b6fe 到目前为止的所有代码......

回答 0 投票 0

pyLDAvis 错误 AttributeError: 'CountVectorizer' object has no attribute 'get_feature_names'

我正在为我的一个项目进行主题建模,并努力将结果可视化。我认为程序是正确的。特别是当我运行这条线时 vis = pyLDAvis.sklearn.prepare(b...

回答 2 投票 0

你好。我有一个关于文本中主题识别的 NLP 问题 [关闭]

例如: 你有一个关于任何主题的长文本样本。 文本示例有多行,各行都有相应的停用词。 现在,人们将如何找到文本中出现的主题以及

回答 0 投票 0

如何根据内容将成绩单分成章节?

我想根据每句台词的内容将一段视频抄本分成几章。抄本将用于为每一章生成一系列开始和结束时间戳。这是

回答 0 投票 0

top2vec - get_documents_topics 函数行为的解释

需要解释 get_documents_topics(doc_ids, reduced=False, num_topics=1) 的作用。 获取文档主题。 每个文档的主题将被返回。 对应的原创题目是...

回答 0 投票 0

使用 pyLDAvis 可视化 LDA 模型

我在 vscode 中运行 jupyter notebook。 我已经使用 gensim 构建了我的 LDA 模型,但是当我想可视化它时,它什么也没显示。 我的代码是: 导入 pyLDAvis 导入 pyLDAvis.gensim_models pyLDAvis.

回答 0 投票 0

如何使用n-gram标注文本文档?

我目前有一个文档列表,我已经使用无监督主题建模进行分类。 这对我的数据很有效,但我想使用一种监督方法来查看什么有效。 ...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.