tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

C / C ++中的快速字符串标记化

我正在开发一个C / C ++应用程序(在Visual Studio 2010中),我需要对逗号分隔的字符串进行标记,我希望它尽可能快。目前我正在使用strtok_s。我跑了一些测试......

回答 6 投票 1

portuguese tokenizer:t打破了“a”和“o”中的“ao”

我使用Spacy作为葡萄牙文档的标记器(最新版本)。但是,它在下面的句子中犯了一个错误:'它正在破坏它不应该的地方,将它们分隔开来和'和'。 ...

回答 1 投票 0

简单的C ++标记化器

我正在编写一个针对HackerRank挑战的程序,我需要解析HRML,一种类似于HTML的标记语言: 作为该计划的一部分,我有...

回答 2 投票 -2

使用多个字符分隔符伪造字符串

我试图用以下规则标记一个表达式:分隔符是'}}'和'{{'分隔符之间的字符串应该保持不变(不包括丢弃的单个空格(...)

回答 3 投票 1

拆分用R和Quanteda标记语料库

我正在为NLP做一个项目。我需要在.txt文件中获取一些博客,新闻和推文(您可能已经听说过这个顶点)并创建n-gram频率。我做了实验......

回答 2 投票 0

简单的递归下降解析器?

我正在编写一个用于编译成JS的模板语言的解析器(如果相关的话)。我从一些简单的正则表达式开始,这似乎有效,但正则表达式非常脆弱,所以我决定......

回答 4 投票 6

python tokenizer 2个单词短语到word2vec模型

我正在为word2vec使用python gensim包。我想在令牌化单词和双字短语上运行模型。我有10,000~文件,我使用nltk Regextoknizer获取单字标记......

回答 1 投票 0

我有python错误builtins.ImportError:没有名为'nltk.tokenize'的模块

我在脚本开头写了以下内容:从nltk.tokenize导入sword_tokenize然而,我收到以下错误:builtins.ImportError:没有名为'nltk.tokenize'的模块是什么...

回答 1 投票 -1

使用python将tokenize应用于json时出错

我一直在关注一个我可以看到的教程已经在用户中流行但是,有一个错误仍然存 在我找不到解决方案。我正在使用PyCharm和Python3.6这段代码。 ...

回答 1 投票 0

编写自定义表达式解析器或使用ANTLR库?

我有如下表达式:例如1:(f1 AND f2)例如2:((f1 OR f2)AND f3)例如3:((f1 OR f2)AND(f3 OR(f4 AND f5)))每个f( n)用于生成SQL的片段以及每个片段......

回答 1 投票 0

正确格式的阿拉伯语到英语的翻译系统

我正在建立一个从阿拉伯语到英语的摩西机器翻译系统。阿拉伯文本文件应该采用哪种格式,我应该按原样输入文本文件,还是应该反转...

回答 1 投票 1

在python中的NLTK中的POS标记错误的zip文件错误

我是python和NLTK的新手。我想在这里做单词标记化和POS标记。我在我的Ubuntu 14.04中安装了Nltk 3.0,默认python 2.7.6。首先我试着做一个简单的标记...

回答 1 投票 0

replaceAll()方法删除数字,但添加空标记

我有一个Java任务(取自Programming Pearls),我必须从文本文件中获取输入(使用Scanner和FileReader对象),删除所有标点符号和数字,然后创建一个...

回答 1 投票 0

Java字符串拆分方法由2个或更多空格拆分

如何使用java split方法将字符串拆分为“2个或更多空格”示例:“cat dog horse elephant”将被拆分为:cat dog horse elephant谢谢。

回答 1 投票 0

用Regex Tokenizer进行Tokenize

我想用正则表达式标记符对下面的句子进行标记化最有利于NUT BUTTERS当我将标记化器定义为tokenizer = RegexpTokenizer(r'\ w +')时,我输出为['MOST',...

回答 2 投票 1

Camel,使用字段条件拆分带头的大型XML文件

我正在尝试设置一个Apache Camel路由,它输入一个大的XML文件,然后使用字段条件将有效负载分成两个不同的文件。即如果ID字段以1开头,则转到...

回答 1 投票 1

如何将字符串拆分为列表并在python中将两个已知令牌合并为一个?

对于给定的字符串,例如:“今天是纽约一个阳光灿烂的日子”,我想让我的列表成为:['今天','是','一个','明亮','阳光','天' ,'in','纽约']另一个例子:“这是一个问候......

回答 3 投票 2

在keras tokenizer中包含标点符号

有没有办法在keras tokenizer中包含标点符号?我希望有一个转变......从明天起就会很冷。指数 - 明天,指数 - 意志,......,指数点如何实现......

回答 1 投票 1

nltk中的word_tokenize没有将字符串列表作为参数

来自nltk.tokenize import word_tokenize music_comments = [['你不能在美国境外运行机器人吗? ',''],[“只是因为它是非法的并不意味着它会停止。我希望它实际上......

回答 2 投票 0

如何在Java中逐个字符地读取输入?

我习惯了c风格的getchar(),但似乎没有什么比得上java了。我正在构建一个词法分析器,我需要逐个读入输入字符。我知道我可以用......

回答 9 投票 44

© www.soinside.com 2019 - 2024. All rights reserved.