tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

如何在C ++中对字符串进行标记?

Java有一个方便的分割方法:String str =“The quick brown fox”; String [] results = str.split(“”);有没有一种简单的方法在C ++中执行此操作?

回答 35 投票 389

TypeError:不能在类似字符串的对象上使用字节模式

我试图将一个句子标记为单词。在下面的代码中,我试图使用一些预定义的分割参数将句子分成单词。 import re _WORD_SPLIT = re.compile(b“([。,!?\”'...

回答 2 投票 -1

在一个列表中对我的CSV进行标记,而不是使用Python进行分离

我想在一个列表而不是单独的列表中将我的CSV标记化? with open('train.csv')as file_object:for fileline in file_object:tokens_train = sent_tokenize(trainline)...

回答 2 投票 0

WhitespaceTokenizerFactory和StandardTokenizerFactory之间的区别

我是Solr的新手。通过阅读Solr的wiki,我不明白WhitespaceTokenizerFactory和StandardTokenizerFactory之间的区别。他们真正的区别是什么?

回答 1 投票 10

如何为arimethic计算java解析器编写递归while循环

我已经为算术计算解析器编写了代码,其语法为'exp':: = term | term + exp | term - exp term :: = integer literal我已完成单个解析器...

回答 1 投票 0

标记完整的csv只导致最后一行?

我想将我的完整CSV标记化。以下代码将打开所有CSV并打印出来。当我尝试对其进行标记时,它只标记CSV的最后一行而不是完整的CSV。任何人都可以帮我标记......

回答 1 投票 -1

“给定令牌的上下文字符串”是什么意思?

我正在基于nand2tetris课程编 写一个tokenizer赋值(在c ++中),并且部分赋值需要一个上下文字符串。我不确定这是什么意思,我正在寻找故障或......

回答 2 投票 1

如果没有NLP问题的分隔符,如何拆分句子?

我想对没有分隔符的句子应用情绪分析。输入文字如下:“有一段时间Kirk告诉我它实际上是三个......

回答 1 投票 0

从nltk word_tokenize获取原始文本的索引

我使用nltk.word_tokenize对文本进行了标记,我想将原始原始文本中的索引转换为每个标记的第一个字符,即import nltk x ='hello world'tokens = nltk ....

回答 2 投票 6

如何使用NLTK的默认标记生成器来获取跨度而不是字符串?

NLTK的默认标记化器nltk.word_tokenizer链接两个标记化器,一个句子标记器,然后是一个对句子进行操作的单词标记器。它的开箱即用相当不错。 >>> ......

回答 2 投票 12

使用文件excel序列项0中的数组数据中的nltk进行错误标记:预期的str实例,找到列表

我在这段代码中有一个问题,也许有人帮忙,excel中的文本数据列表['hadis']是成功显示train ['hadis'] = train ['hadis']。apply(lambda x:“” 。加入([nltk.tokenize ....

回答 1 投票 0

更改节点名称和包装节点

我刚开始研究XSLT。我的输入和预期输出如下,XSLT也在下面给出。我有下一个输入XML: 00013

回答 1 投票 0

将令牌传递给CountVectorizer

我有一个文本分类问题,我有两种类型的功能:n-gram(由CountVectorizer提取)其他文本功能(例如来自给定词典的单词的存在)...

回答 3 投票 5

修改查询参数:表达JS get请求

我正在从角度组件向Express服务器发送请求。一切正常(我得到预期的结果,并正确显示)。我尝试修改QUERY的那一刻......

回答 1 投票 0

有人可以简单解释一下自然语言处理的要素吗?

我是自然语言处理的新手,我对使用的术语感到困惑。什么是标记化? POS标签?实体识别?标记化只是将文本拆分成可以有...的部分。

回答 3 投票 3

使用XSLT 1.0中的exslt以2种方式对2个元素的字符串进行标记并输出

输入: 西蒙杰克亚历克斯 21 23 22 期望的输出: 21 23 &...

回答 1 投票 0

从C中的fgets()修剪尾随\ 0

我在C中编写一个简单的shell程序,程序在命令行中接受来自用户的命令,将输入标记为数组,然后使用execvp()函数执行用户命令。 ...

回答 1 投票 2

Elasticsearch匹配包含的短语与空格

我需要一个搜索,如果包含一个关键短语,应该有一个搜索匹配,但关键短语可以有空格,整个短语必须在那里。我理解它的方式,......

回答 1 投票 1

使用Keras Tokenizer生成n-gram

可以在Keras中使用n-gram吗?例如,句子在X_train数据框中包含“句子”列。我以下列方式使用Keras的tokenizer:tokenizer = Tokenizer(lower = True,...

回答 2 投票 5

什么是自动机理论中的字母歧义?

我是自动化领域的新人。我看过很多文章,看过很多视频。我坚持了一些第一个主题。对其他人来说很容易。但在花了很多时间后,我仍然无法...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.