标记化是将字符串拆分为称为标记的离散元素的行为。
我正在开发一个C / C ++应用程序(在Visual Studio 2010中),我需要对逗号分隔的字符串进行标记,我希望它尽可能快。目前我正在使用strtok_s。我跑了一些测试......
portuguese tokenizer:t打破了“a”和“o”中的“ao”
我使用Spacy作为葡萄牙文档的标记器(最新版本)。但是,它在下面的句子中犯了一个错误:'它正在破坏它不应该的地方,将它们分隔开来和'和'。 ...
我正在编写一个针对HackerRank挑战的程序,我需要解析HRML,一种类似于HTML的标记语言: 作为该计划的一部分,我有...
我试图用以下规则标记一个表达式:分隔符是'}}'和'{{'分隔符之间的字符串应该保持不变(不包括丢弃的单个空格(...)
我正在为NLP做一个项目。我需要在.txt文件中获取一些博客,新闻和推文(您可能已经听说过这个顶点)并创建n-gram频率。我做了实验......
我正在编写一个用于编译成JS的模板语言的解析器(如果相关的话)。我从一些简单的正则表达式开始,这似乎有效,但正则表达式非常脆弱,所以我决定......
python tokenizer 2个单词短语到word2vec模型
我正在为word2vec使用python gensim包。我想在令牌化单词和双字短语上运行模型。我有10,000~文件,我使用nltk Regextoknizer获取单字标记......
我有python错误builtins.ImportError:没有名为'nltk.tokenize'的模块
我在脚本开头写了以下内容:从nltk.tokenize导入sword_tokenize然而,我收到以下错误:builtins.ImportError:没有名为'nltk.tokenize'的模块是什么...
我一直在关注一个我可以看到的教程已经在用户中流行但是,有一个错误仍然存 在我找不到解决方案。我正在使用PyCharm和Python3.6这段代码。 ...
我有如下表达式:例如1:(f1 AND f2)例如2:((f1 OR f2)AND f3)例如3:((f1 OR f2)AND(f3 OR(f4 AND f5)))每个f( n)用于生成SQL的片段以及每个片段......
我正在建立一个从阿拉伯语到英语的摩西机器翻译系统。阿拉伯文本文件应该采用哪种格式,我应该按原样输入文本文件,还是应该反转...
在python中的NLTK中的POS标记错误的zip文件错误
我是python和NLTK的新手。我想在这里做单词标记化和POS标记。我在我的Ubuntu 14.04中安装了Nltk 3.0,默认python 2.7.6。首先我试着做一个简单的标记...
我有一个Java任务(取自Programming Pearls),我必须从文本文件中获取输入(使用Scanner和FileReader对象),删除所有标点符号和数字,然后创建一个...
如何使用java split方法将字符串拆分为“2个或更多空格”示例:“cat dog horse elephant”将被拆分为:cat dog horse elephant谢谢。
我想用正则表达式标记符对下面的句子进行标记化最有利于NUT BUTTERS当我将标记化器定义为tokenizer = RegexpTokenizer(r'\ w +')时,我输出为['MOST',...
我正在尝试设置一个Apache Camel路由,它输入一个大的XML文件,然后使用字段条件将有效负载分成两个不同的文件。即如果ID字段以1开头,则转到...
如何将字符串拆分为列表并在python中将两个已知令牌合并为一个?
对于给定的字符串,例如:“今天是纽约一个阳光灿烂的日子”,我想让我的列表成为:['今天','是','一个','明亮','阳光','天' ,'in','纽约']另一个例子:“这是一个问候......
有没有办法在keras tokenizer中包含标点符号?我希望有一个转变......从明天起就会很冷。指数 - 明天,指数 - 意志,......,指数点如何实现......
nltk中的word_tokenize没有将字符串列表作为参数
来自nltk.tokenize import word_tokenize music_comments = [['你不能在美国境外运行机器人吗? ',''],[“只是因为它是非法的并不意味着它会停止。我希望它实际上......
我习惯了c风格的getchar(),但似乎没有什么比得上java了。我正在构建一个词法分析器,我需要逐个读入输入字符。我知道我可以用......