tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

Spacy tokenizer用于处理句子中的最后句子

我正在使用Spacy来标记句子,我知道我传递给tokenizer的文本总是一个句子。在我的标记化规则中,我希望附加非最终句点(“。”)...

回答 1 投票 0

部分单词标记化器与面向字的标记化器Elasticsearch

阅读下面的链接我正在寻找一些用例/示例,其中使用Ngram-tokenizing或标准tokenizer做一些comperison会更好。我希望弹性文档包括......

回答 1 投票 0

程序不写入另一个文件

这个程序应该是用户对区号进行输入,搜索一个单独的文件,其中包含txt文件中列出的一堆电话号码,并且功能搜索应该测试手机......

回答 1 投票 1

基于自定义字典的tokenize字符串

我想根据我自定义的字典来标记字符串列表。字符串列表如下所示:lst = ['vitamin c juice','organic supplement']自定义字典:...

回答 2 投票 1

什么是使用keras.preprocessing.tokenizer或nltk.tokenize更好

我正在研究Keras的多类分类问题。尝试使用Keras tokenize,但认为nltk.tokenizer可以更好地解决我的问题。我找不到任何可以做的文章......

回答 1 投票 -1

如何编写Java正则表达式来标记字符串?

我能够标记字符串的一部分,但不能整个字符串。我需要帮助将正则表达式写入tokenzie整个字符串。我试图使用tokenzie的字符串是123 + 56 * num1。 ...

回答 1 投票 0

我如何修复pandas csv阅读器上的“错误标记数据”

我正在尝试用pandas读取csv文件。该文件实际上只有一行,但每当我尝试读取它时都会导致错误。第8行似乎发生了一些错误,但我几乎找不到......

回答 2 投票 0

在使用xml.NewDecoder(xmlFile)解析Go / Golang中的大型XML文件时如何实现进度计数器?

我写了一些代码来解析大型XML文件(> 3GB),请按照以下网站上的示例进行操作:https://blog.singleton.io/posts/2012-06-19-parsing-huge-xml-files-with- go /想法是创建解码器......

回答 1 投票 0

如何使用tokezine / untokenize?

我试图在使用Python的tokenize模块更改一些元素后重建一行python代码。简单的tokenize / untokenize不会重建原始代码,它会在...中添加额外的空格

回答 1 投票 0

在Lucene中对Twitter帖子进行标记

我的问题简而言之:有没有人知道Lucene的TwitterAnalyzer或TwitterTokenizer?更详细的版本:我想索引Lucene中的一些推文并保留像@user或#...这样的术语

回答 6 投票 6

如何使用nlp标记句子

我是NLP的新手。我正在尝试使用python 3.7上的nlp来标记句子。所以我使用下面的代码导入nltk text4 =“这是第一句话。美国一加仑牛奶花费2.99美元。这就是......

回答 2 投票 0

弹性搜索文件名搜索不使用文件名中的点

我有如下弹性搜索映射:{“info”:{“properties”:{“timestamp”:{“type”:“date”,“format”:“epoch_second”},“user”:{“type”:“关键字“},”filename“:{”type“:”...

回答 1 投票 0

如何使用Lucene将LowerCase应用于String

我开始使用Apache Lucene 8.0了。我想知道如何使用Lucene将我的String文本变量转换为小写。我不确定怎么做,因为我找不到任何......

回答 1 投票 0

带数字的正则表达式标记化?

我期待以下代码; tokenize这是一个示例123到['this','is','an','example 123']但它没有看到数字的一部分。有什么建议吗?从nltk导入重新....

回答 3 投票 0

如何防止在NLTK中拆分特定的单词或短语和数字?

当我对分割特定单词,日期和数字的文本进行标记时,我在文本匹配方面存在问题。如何防止一些短语,如“在我的家庭中奔跑”,“30分钟步行”或“每天4次”...

回答 2 投票 2

标记化时如何只返回实际令牌而不是空变量?

我有一个函数:def remove_stopwords(text):return [[word in simple_preprocess(str(doc),min_len = 2)如果word不在stop_words] for doc in texts]我的输入是一个带有...的列表

回答 2 投票 0

通过限制语料库文档的字大小来进行潜在Dirichlet分配(LDA)性能

我一直在使用python(gensim包)中的Latent Dirichlet分配(LDA)生成客户评论的yelp数据集。在生成令牌时,我只选择有...的单词

回答 2 投票 0

tokenizer.texts_to_sequences Keras Tokenizer几乎全部为零

我正在创建一个文本分类代码,但我在使用tokenizer编码文档时遇到了问题。 1)我开始在我的文档上安装一个tokenizer,如下所示:vocabulary_size = ...

回答 3 投票 1

如何使用Python nltk.tokenize [duplicate]将包含停用词的短语视为单个标记

可以使用nltk.tokenize删除一些不必要的停用词来标记字符串。但是,如何将包含停用词的短语标记为单个标记,同时删除其他停用词?为......

回答 1 投票 3

如何在python中标记列表列表

在线搜索后,我从Gutenberg.com获得了儿童用书的文本格式。现在我想分析一下这些话。但我没有做标记化,因为内容被证明是列表...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.