如何使用手套在数据帧训练过的张量上从单词嵌入形成句子嵌入?

问题描述 投票:1回答:1

我正在使用包含事件信息摘要的数据集。我的数据框看起来类似于:

index| event_description
----------------------
1    | concert with thousands of people
2    | people gathering 
3    | there was an event in the city and it was so much fun
...
8000 | very boring gathering

我的工作是根据事件的含义对它们进行聚类。我不知道应该有多少事件,这是无监督学习的工作。

为了继续进行DBSCAN聚类,我已经使用GloVe(而不是doc2Vec等)将数据框中的所有单词嵌入到向量中。

如何将单词向量转换为句子向量,以进行聚类?

我已经阅读了article以及其他一些文章和论文,这些文章和文章使用其他句子嵌入算法,而不是GloVe词嵌入。同样,一些存储库,例如InferSentGoogle universal sentence encoder相当不错,但是它们使用的是经过预训练的张量。

鉴于这些约束,我必须使用GloVe和数据帧训练的张量而不是预训练的张量,我如何才能从单词向量中形成句子向量?

python machine-learning word-embedding glove
1个回答
0
投票

您对此找到任何解决方案吗?

© www.soinside.com 2019 - 2024. All rights reserved.