word-embedding 相关问题

有关字嵌入的问题,自然语言处理中的语言建模技术。问题可能涉及特定方法,例如Word2Vec,GloVe,FastText等,或者字嵌入及其在机器学习库中的使用。

Tensorflow嵌入层词汇量

我正在学习Tensorflow,并在tensorflow中遇到了Embedding层,该层用于学习自己的单词嵌入。该层采用以下参数:keras.layers.Embedding(input_dim,...

回答 1 投票 0

RNN语言模型的Keras实现中输入和输出层的大小

作为论文的一部分,我正在尝试建立一个递归的神经网络语言模型。从理论上讲,我知道输入层应该是单热向量层,其中神经元的数量等于...

回答 1 投票 0

深度学习中的词嵌入如何工作?

我对词嵌入有一个非常基本的怀疑。我的理解是,单词嵌入用于在不丢失上下文的情况下以数字格式表示文本数据,这在...

回答 1 投票 0

如何为Tensorflow 2.0+中的分类列创建嵌入(特别是令牌到ID映射?)>

我有一个同时具有分类和浮点dtypes的csv。我要执行以下操作:对于每个分类列,我将使用pandas来计算出现在...

回答 1 投票 1

从Python的数百万个文档中构建单词的语料库[关闭]

我的文本数据包含超过10百万个文档(在熊猫数据框中的记录),每个文档不少于20个单词,最多不超过50个单词。我正在尝试构建单词嵌入...

回答 1 投票 -1

TypeError:不可散列的类型:训练word2vec中的'list'

我编写了此函数,并得到TypeError:不可哈希类型:'list'。我该如何解决? def get_words(txt):a =(lambda x:x不在STOP_WORDS中),re.findall(r'\ b(\ w +)\ b',txt)返回def ...

回答 1 投票 0

密集层对不同识别任务的一般用途

我想问一下,将嵌入和相似性度量用于任何形式的识别任务是否可行?如果我训练过的神经网络可以找到照片中的不同对象,则将提取...

回答 1 投票 0

最佳Python GloVe单词嵌入包

我可以使用的最好的Python GloVe单词嵌入包是什么?我想要一个可以帮助修改共现矩阵权重的软件包。如果有人可以提供示例,我真的会...

回答 1 投票 0

Gensim word2vec下采样样本= 0

Gensim word2vec中的sample = 0是否表示在我的培训期间没有使用过下采样?文档说“有用的范围是(0,1e-5)”,但是将阈值设置为0会...

回答 1 投票 0

使用单词嵌入的文本分类

我有一个包含正负内容的数据集。因此,我们假设这是一个垃圾邮件项目。我需要建立一个模型,可以对pos / neg中的内容进行分类。所以我正在做有监督的学习...

回答 3 投票 0

如何使用pytorch实现SciBERT;加载时出错

我正在尝试使用SciBERT预训练模型,即:scibert-scivocab-uncased的以下方式:!pip install pytorch-pretrained-bert import pych from pytorch_pretrained_bert import ...

回答 1 投票 0

如何测量单词或简短文本之间的相似度

我正在研究在文档列表中查找最近的文档的问题。每个文档都是一个单词或一个很短的句子(例如“牛仔裤”或“机器工具”或“生物番茄”)。最接近的I ...

回答 1 投票 0

[Word2Vec] [gensim]使用参数min_count处理词汇中的遗漏单词>>

关于此主题,有人提出了类似的问题,但到目前为止,我对这些答复并不十分满意;请原谅我。我正在使用python中的Word2Vec函数...

回答 1 投票 0

NLP情绪分析-基本准则

我正在NLP领域中做我的第一个项目,该项目是对带有约250个带标签的英语数据点/句子的数据集的情感分析。数据集是具有...

回答 2 投票 1

使用gensim加载经过训练的快速文本模型时出现的问题

我正在尝试使用gensim加载经过训练的快速文本模型。该模型已经过一些数据训练。之前,我使用了带有.bin扩展名的model.save()以便以后使用。训练后...

回答 1 投票 0

窗口如何影响跳跃语法的准确性?

我想知道跳跃语法模型的window_size如何影响单词嵌入中预测相似单词的准确性。在什么情况下精度会下降或上升。谢谢。

回答 1 投票 0

如何使用手套在数据帧训练过的张量上从单词嵌入形成句子嵌入?

我正在使用包含事件信息摘要的数据集。我的数据框看起来类似于:index | event_description ---------------------- 1 |千人音乐会2 | ...

回答 1 投票 1

无效参数:indexs [0,0] = -4不在[0,40405)中

我有一个正在处理某些数据的模型。我已经在数据集中添加了一些标记化的单词数据(为简洁起见被略去):vocab_size = len(tokenizer.word_index)+ 1 comment_texts = ...

回答 1 投票 2

Keras的嵌入层:Vocab大小+1

从我看到的许多示例中,当我们使用来自keras的text_tokenizer时,在为输入层指定输入大小时,我们使用vocab大小+1。自然会产生一个带有+ ...

回答 1 投票 1

没有名为'gensim'的模块,但已经安装了它

我遇到此错误问题,我已经在基本(根)环境中的jupyter笔记本中运行了此脚本,日志中说已安装gensim库,并且我已运行命令!pip install gensim ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.