n-gram 相关问题

N-gram是同一类型的N个元素的有序集合，通常以许多其他类似的N-gram的大量集合呈现。单个元素通常是自然语言单词，尽管N-gram已经应用于许多其他数据类型，例如数字，字母，DNA中的遗传蛋白等。统计N-gram分析通常作为自然语言处理的一部分执行，生物信息学和信息论。

如何让我的Python代码更有效？

我正在构建我的单词 n-gram 训练向量，稍后供 SVM 使用。我运行了我的代码，但是花了我太多时间，超过 10 个小时。你有什么方法可以让它更快吗？ def wordNgrams(s,n):...

python nlp n-gram

回答 1 投票 0

如何在弹性搜索中获取整个索引的术语向量信息？而不是在文档级别

根据弹性搜索文档，https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html，术语向量只能应用于文档。有什么办法可以吗

elasticsearch n-gram term-vectors

回答 2 投票 0

将电话号码匹配纳入现有基于字符串的姓名匹配功能

我有一个 Python 函数 match_strings，它旨在匹配来自两个不同数据源的名称。这是函数定义： Python def match_strings(strings1, strings2, ngram_n=2,

python string-matching n-gram record-linkage

回答 1 投票 0

如何在 PHP 中高效计算字符元组

我需要在 PHP 项目（文件分类器）中快速计算巨大文件/字符串（从 10MB+ 到 1GB+）中的字符元组（或 N-gram）。当前的实现是针对单个字符计数...

php performance n-gram

回答 1 投票 0

如何在 PHP 中有效地计算 n 元语法

我需要在 PHP 项目中快速计算大型文件/字符串（从 10MB+ 到 1GB+）中的 N 元语法。当前的实现是针对单个字符计数（N=1），并且在 0.5 秒内运行速度非常快......

php performance n-gram

回答 1 投票 0

elasticsearch如何统计tf-idf？看起来很奇怪

我有一个索引，其中包含存储系统信息的文档和复制到 searchable_keys 字段中的可搜索字段。在这种情况下，只有一个这样的字段 - name。这是定义...

elasticsearch nlp tokenize tf-idf n-gram

回答 1 投票 0

Python IntelliJ 风格的“到处搜索”算法

我有一个Python文件名列表，如下所示： HelloWorld.csv 你好_温莎.pdf 一些_文件_我_需要.jpg san_fransisco.png 另一个.file.txt 文件名.rar 我正在寻找 IntelliJ 风格的搜索

python intellij-idea n-gram file-search

回答 2 投票 0

bigram计算-内存错误、大文件问题

以下是文本语料库中二元组计算的代码：导入系统导入 csv 导入字符串导入nltk 从 nltk 导入 word_tokenize 从 nltk.tokenize 导入 RegexpTokenizer 来自 nltk.util ...

python nltk n-gram

回答 1 投票 0

在大数据上用Python有效地总结n-grams

我有一个非常大的数据集，大约有 600 万条记录，它看起来确实像这个片段：数据 = pd.DataFrame({ 'ID': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], '文本'： [ &...

python pandas dataframe nlp n-gram

回答 1 投票 0

以有效的方式将字符串拆分为 R 中大小为 n 的连续子串

# 输入 <- 2 "abcd" # Output c("ab", "bc", "cd") I don't want to use a for loop or sapply

r string n-gram

回答 1 投票 0

仅根据 rstudio 中的第一个单词选择 ngrams

我目前正在研究一个 nlp 项目。我使用圣经作为训练数据集。如果您想自己尝试一下，您可以轻松创建随机语料库： rcorpus(nwords = 50, 字母表 = letter...

r nlp n-gram

回答 1 投票 0

在 Python 中计算 n-gram 重叠矩阵的最快方法

我有大量文档，如果它们有明显的 n-gram 重叠（在我的例子中，我正在考虑二元语法），我想合并这些文档。考虑集合列表： corpus = [{'example', 'bigram'}, {'an...

python python-3.x numpy set n-gram

回答 2 投票 0

如何找到两个文件之间的公共 ngram？

我有两个非常大的文本文件，我想找到这两个文件中出现的 ngram。到目前为止，我尝试过的所有解决方案都只找到了共同点。但我有兴趣找到共同的替代品......

python string nlp n-gram

回答 0 投票 0

如何在python中实现N-gram语言模型？

我是 NLP 新手，想实现 Unigram、Bigram、Trigram 和 Fourgram 语言模型进行分类。我从 SI485i 学习了 NLP：NLP，但还没有找到任何实现 N-gram 的库

python nlp sentiment-analysis n-gram language-model

回答 0 投票 0

如何使用n-gram标注文本文档？

我目前有一个文档列表，我已经使用无监督主题建模进行分类。这对我的数据很有效，但我想使用一种监督方法来查看什么有效。 ...

python nlp topic-modeling n-gram

回答 0 投票 0

使用 n-gram 模型 NLTK 预测下一个词

我正在尝试使用 NLTK 运行 N-Gram 语言建模代码，该代码取自 https://www.geeksforgeeks.org/n-gram-language-modelling-with-nltk/。但它抛出一个错误。 # 生成

python nlp nltk n-gram defaultdict

回答 0 投票 0

使用PhrasesTransformer进行短语检测。

from gensim.sklearn_api.phrases import PhrasesTransformer # 创建模型。m = PhrasesTransformer(min_count=1, threshold=3)...。

nlp gensim n-gram phrase

回答 1 投票 -1

$\theta$) ' ?

nlp stanford-nlp information-retrieval n-gram language-model

回答 1 投票 0

java.io.IOException: 在使用Combiber的MapReduce中，Spill失败。

我使用HADOOP mapReduce。当运行项目时，没有本地聚合，即组合类，它运行没有问题。当我添加组合器类时，我得到这样的消息：java.lang.Exception: ...

java hadoop mapreduce amazon-emr n-gram

回答 1 投票 0

构建n-grams用于标记级文本分类

我试图使用 scikit-learn 在 token 级别对多类数据进行分类。我已经有一个训练和测试的分割。token以同一类的批次出现，例如前10个token属于......。

python machine-learning scikit-learn n-gram

回答 1 投票 1

n-gram 相关问题

最新问题