n-gram 相关问题

N-gram是同一类型的N个元素的有序集合,通常以许多其他类似的N-gram的大量集合呈现。单个元素通常是自然语言单词,尽管N-gram已经应用于许多其他数据类型,例如数字,字母,DNA中的遗传蛋白等。统计N-gram分析通常作为自然语言处理的一部分执行,生物信息学和信息论。

如何让我的Python代码更有效?

我正在构建我的单词 n-gram 训练向量,稍后供 SVM 使用。我运行了我的代码,但是花了我太多时间,超过 10 个小时。你有什么方法可以让它更快吗? def wordNgrams(s,n):...

回答 1 投票 0

如何在弹性搜索中获取整个索引的术语向量信息?而不是在文档级别

根据弹性搜索文档,https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html,术语向量只能应用于文档。有什么办法可以吗

回答 2 投票 0

将电话号码匹配纳入现有基于字符串的姓名匹配功能

我有一个 Python 函数 match_strings,它旨在匹配来自两个不同数据源的名称。这是函数定义: Python def match_strings(strings1, strings2, ngram_n=2,

回答 1 投票 0

如何在 PHP 中高效计算字符元组

我需要在 PHP 项目(文件分类器)中快速计算巨大文件/字符串(从 10MB+ 到 1GB+)中的字符元组(或 N-gram)。 当前的实现是针对单个字符计数...

回答 1 投票 0

如何在 PHP 中有效地计算 n 元语法

我需要在 PHP 项目中快速计算大型文件/字符串(从 10MB+ 到 1GB+)中的 N 元语法。 当前的实现是针对单个字符计数(N=1),并且在 0.5 秒内运行速度非常快......

回答 1 投票 0

elasticsearch如何统计tf-idf?看起来很奇怪

我有一个索引,其中包含存储系统信息的文档和复制到 searchable_keys 字段中的可搜索字段。在这种情况下,只有一个这样的字段 - name。 这是定义...

回答 1 投票 0

Python IntelliJ 风格的“到处搜索”算法

我有一个Python文件名列表,如下所示: HelloWorld.csv 你好_温莎.pdf 一些_文件_我_需要.jpg san_fransisco.png 另一个.file.txt 文件名.rar 我正在寻找 IntelliJ 风格的搜索

回答 2 投票 0

bigram计算-内存错误、大文件问题

以下是文本语料库中二元组计算的代码: 导入系统 导入 csv 导入字符串 导入nltk 从 nltk 导入 word_tokenize 从 nltk.tokenize 导入 RegexpTokenizer 来自 nltk.util ...

回答 1 投票 0

在大数据上用Python有效地总结n-grams

我有一个非常大的数据集,大约有 600 万条记录,它看起来确实像这个片段: 数据 = pd.DataFrame({ 'ID': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], '文本': [ &...

回答 1 投票 0

以有效的方式将字符串拆分为 R 中大小为 n 的连续子串

# 输入 <- 2 "abcd" # Output c("ab", "bc", "cd") I don't want to use a for loop or sapply

回答 1 投票 0

仅根据 rstudio 中的第一个单词选择 ngrams

我目前正在研究一个 nlp 项目。我使用圣经作为训练数据集。如果您想自己尝试一下,您可以轻松创建随机语料库: rcorpus(nwords = 50, 字母表 = letter...

回答 1 投票 0

在 Python 中计算 n-gram 重叠矩阵的最快方法

我有大量文档,如果它们有明显的 n-gram 重叠(在我的例子中,我正在考虑二元语法),我想合并这些文档。考虑集合列表: corpus = [{'example', 'bigram'}, {'an...

回答 2 投票 0

如何找到两个文件之间的公共 ngram?

我有两个非常大的文本文件,我想找到这两个文件中出现的 ngram。到目前为止,我尝试过的所有解决方案都只找到了共同点。但我有兴趣找到共同的替代品......

回答 0 投票 0

如何在python中实现N-gram语言模型?

我是 NLP 新手,想实现 Unigram、Bigram、Trigram 和 Fourgram 语言模型进行分类。我从 SI485i 学习了 NLP:NLP,但还没有找到任何实现 N-gram 的库

回答 0 投票 0

如何使用n-gram标注文本文档?

我目前有一个文档列表,我已经使用无监督主题建模进行分类。 这对我的数据很有效,但我想使用一种监督方法来查看什么有效。 ...

回答 0 投票 0

使用 n-gram 模型 NLTK 预测下一个词

我正在尝试使用 NLTK 运行 N-Gram 语言建模代码,该代码取自 https://www.geeksforgeeks.org/n-gram-language-modelling-with-nltk/。但它抛出一个错误。 # 生成

回答 0 投票 0

使用PhrasesTransformer进行短语检测。

from gensim.sklearn_api.phrases import PhrasesTransformer # 创建模型。m = PhrasesTransformer(min_count=1, threshold=3)...。

回答 1 投票 -1


java.io.IOException: 在使用Combiber的MapReduce中,Spill失败。

我使用HADOOP mapReduce。当运行项目时,没有本地聚合,即组合类,它运行没有问题。当我添加组合器类时,我得到这样的消息:java.lang.Exception: ...

回答 1 投票 0

构建n-grams用于标记级文本分类

我试图使用 scikit-learn 在 token 级别对多类数据进行分类。我已经有一个训练和测试的分割。token以同一类的批次出现,例如前10个token属于......。

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.