tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

Spacy tokenizer用于处理句子中的最后句子

我正在使用Spacy来标记句子，我知道我传递给tokenizer的文本总是一个句子。在我的标记化规则中，我希望附加非最终句点（“。”）...

tokenize spacy

回答 1 投票 0

部分单词标记化器与面向字的标记化器Elasticsearch

阅读下面的链接我正在寻找一些用例/示例，其中使用Ngram-tokenizing或标准tokenizer做一些comperison会更好。我希望弹性文档包括......

elasticsearch tokenize

回答 1 投票 0

程序不写入另一个文件

这个程序应该是用户对区号进行输入，搜索一个单独的文件，其中包含txt文件中列出的一堆电话号码，并且功能搜索应该测试手机......

c tokenize

回答 1 投票 1

基于自定义字典的tokenize字符串

我想根据我自定义的字典来标记字符串列表。字符串列表如下所示：lst = ['vitamin c juice'，'organic supplement']自定义字典：...

python nlp nltk tokenize gensim

回答 2 投票 1

什么是使用keras.preprocessing.tokenizer或nltk.tokenize更好

我正在研究Keras的多类分类问题。尝试使用Keras tokenize，但认为nltk.tokenizer可以更好地解决我的问题。我找不到任何可以做的文章......

python keras nltk tokenize

回答 1 投票 -1

如何编写Java正则表达式来标记字符串？

我能够标记字符串的一部分，但不能整个字符串。我需要帮助将正则表达式写入tokenzie整个字符串。我试图使用tokenzie的字符串是123 + 56 * num1。 ...

java regex tokenize

回答 1 投票 0

我如何修复pandas csv阅读器上的“错误标记数据”

我正在尝试用pandas读取csv文件。该文件实际上只有一行，但每当我尝试读取它时都会导致错误。第8行似乎发生了一些错误，但我几乎找不到......

python pandas csv tokenize

回答 2 投票 0

在使用xml.NewDecoder（xmlFile）解析Go / Golang中的大型XML文件时如何实现进度计数器？

我写了一些代码来解析大型XML文件（> 3GB），请按照以下网站上的示例进行操作：https：//blog.singleton.io/posts/2012-06-19-parsing-huge-xml-files-with- go /想法是创建解码器......

go xml-parsing tokenize large-files

回答 1 投票 0

如何使用tokezine / untokenize？

我试图在使用Python的tokenize模块更改一些元素后重建一行python代码。简单的tokenize / untokenize不会重建原始代码，它会在...中添加额外的空格

python tokenize

回答 1 投票 0

在Lucene中对Twitter帖子进行标记

我的问题简而言之：有没有人知道Lucene的TwitterAnalyzer或TwitterTokenizer？更详细的版本：我想索引Lucene中的一些推文并保留像@user或＃...这样的术语

twitter lucene tokenize

回答 6 投票 6

如何使用nlp标记句子

我是NLP的新手。我正在尝试使用python 3.7上的nlp来标记句子。所以我使用下面的代码导入nltk text4 =“这是第一句话。美国一加仑牛奶花费2.99美元。这就是......

python nlp tokenize

回答 2 投票 0

弹性搜索文件名搜索不使用文件名中的点

我有如下弹性搜索映射：{“info”：{“properties”：{“timestamp”：{“type”：“date”，“format”：“epoch_second”}，“user”：{“type”：“关键字“}，”filename“：{”type“：”...

elasticsearch tokenize

回答 1 投票 0

如何使用Lucene将LowerCase应用于String

我开始使用Apache Lucene 8.0了。我想知道如何使用Lucene将我的String文本变量转换为小写。我不确定怎么做，因为我找不到任何......

java lucene tokenize lowercase

回答 1 投票 0

带数字的正则表达式标记化？

我期待以下代码; tokenize这是一个示例123到['this'，'is'，'an'，'example 123']但它没有看到数字的一部分。有什么建议吗？从nltk导入重新....

python nlp nltk tokenize

回答 3 投票 0

如何防止在NLTK中拆分特定的单词或短语和数字？

当我对分割特定单词，日期和数字的文本进行标记时，我在文本匹配方面存在问题。如何防止一些短语，如“在我的家庭中奔跑”，“30分钟步行”或“每天4次”...

python nltk tokenize phrase

回答 2 投票 2

标记化时如何只返回实际令牌而不是空变量？

我有一个函数：def remove_stopwords（text）：return [[word in simple_preprocess（str（doc），min_len = 2）如果word不在stop_words] for doc in texts]我的输入是一个带有...的列表

python apply tokenize gensim

回答 2 投票 0

通过限制语料库文档的字大小来进行潜在Dirichlet分配（LDA）性能

我一直在使用python（gensim包）中的Latent Dirichlet分配（LDA）生成客户评论的yelp数据集。在生成令牌时，我只选择有...的单词

python tokenize lda gensim corpus

回答 2 投票 0

tokenizer.texts_to_sequences Keras Tokenizer几乎全部为零

我正在创建一个文本分类代码，但我在使用tokenizer编码文档时遇到了问题。 1）我开始在我的文档上安装一个tokenizer，如下所示：vocabulary_size = ...

python keras nlp deep-learning tokenize

回答 3 投票 1

如何使用Python nltk.tokenize [duplicate]将包含停用词的短语视为单个标记

可以使用nltk.tokenize删除一些不必要的停用词来标记字符串。但是，如何将包含停用词的短语标记为单个标记，同时删除其他停用词？为......

python nltk tokenize stop-words

回答 1 投票 3

如何在python中标记列表列表

在线搜索后，我从Gutenberg.com获得了儿童用书的文本格式。现在我想分析一下这些话。但我没有做标记化，因为内容被证明是列表...

python nltk tokenize

回答 1 投票 0

tokenize 相关问题

最新问题