tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。


Tfidf Vectorizer

我从文本审阅中获取了一个用于预测情感的数据集,最初,我清理数据(删除标点符号,删除停用词,标记化)。当我尝试将标记化数据提供为...

回答 1 投票 0

如何将令牌字符中的值设置为此在C中称为customerData [] []的数组?

我刚刚开始学习C语言,我需要程序方面的帮助。这是代码。问题:这是什么? customerData [NUM_FIELDS] [FIELD_LENGTH];它是char 2D数组吗?您如何输入数据...

回答 1 投票 0

使用Python正则表达式捕获具有置换的重复子模式

我正在尝试标记由可以以任何顺序出现的子模式组成的字符串。子模式是下划线,字母或数字。例如:'ABC_123_DEF_456'将提供('ABC','_','...

回答 1 投票 1

Elasticsearch标记程序在分析时根据条件(带连字符)组合标记

我正在使用Elasticsearch存储文本,并且正在寻找针对文本字段的自定义分析器。我有很多要求,其中之一就是连字必须组合成一个标记。例如:...

回答 1 投票 -2

生成N-gram,同时在Apache lucene中保留空格

我正在尝试使用Apache Lucene 5.5.4为给定的一组输入文本生成N-gram。以下是我的Java代码执行的操作。 public static void main(String [] args){分析器...

回答 1 投票 0

如何使用NLTK标记包含标点符号的单词

我有一个PlainTextCorpusReader,文字是从网络上抓取的招聘广告。我想剥夺使用NLTK的技能。但是由于读者将单词'C#'标记成单词,所以我的第一个障碍失败了。

回答 1 投票 0

C中的嵌套strtok函数问题[重复]

我有一个像这样的字符串:a; b; c; d; e f; g; h; i; j 1; 2; 3; 4; 5,我想逐个元素地对其进行解析。我使用了嵌套的strtok函数,但它只是分割第一行并使标记指针为null。怎么...

回答 2 投票 15

在PHP中标记bash shell命令的最佳方法是什么?

我处于一种需要采取(可能)多字符串bash命令并将其压缩为一个不包含任何换行符或回车符的字符串的情况(但仍产生相同的结果...

回答 1 投票 1

如何将令牌化应用于TensorFlow数据集?

我正在使用TensorFlow数据集的一部分cnn_dailymail数据集。我的目标是在对数据集应用一些文本预处理步骤后对它进行标记化。我访问并预处理...

回答 1 投票 0

缺少字符串java中的字符

[我正在尝试用http框架实现Java服务器,我有几个URI:/login.jsp和/logout.jsp,可以在http格式的请求URi中找到。当我将注销请求发送到...

回答 2 投票 0


我正在寻找用于技术产品审查的荷兰语标记器

我正在尝试找出解决荷兰语NLP问题的更好的文本清除方法。我使用pos标签使用荷兰语版本,使用nltk删除停用词。但是我没有得到期望的结果。

回答 1 投票 1

通过Python用段落对书进行标记

我正在研究一个NLP项目,并试图按段落标记“大期望”,然后存储到列表中。为了执行一些无监督的学习主题模型,我需要这样做。 #...

回答 1 投票 -2

如何在抽象语法树之前编辑语法树?

我想了解如何有效地使用stdlib解析器模块,因为有时ast.parse会丢失太多信息(它会吃掉空格,注释,多余的括号等-详情为...

回答 1 投票 0

ParserError:标记数据出错。 C错误:第4行中预期有7个字段,在读取csv文件熊猫时看到10个错误

我正在尝试使用pandas df1 = pd.read_csv('panda_error.csv',header = None,sep =',')读取csv文件,但出现此错误:ParserError:对数据进行标记时出错。 C错误:预期7个字段...

回答 2 投票 0

我如何在C#中拆分字符串以获取以下结果?

输入:高级业务开发人员输出:高级业务开发人员业务开发人员有人可以建议使用C#进行此操作的有效方法。我认为可以使用拆分功能进行某些操作,但是...

回答 1 投票 -3

如何在Elasticsearch中将某些单词组合成令牌?

对于像“这是美好的一天”这样的字符串,我想将该字符串标记为记号:“这是一个美好的一天,美好的一天”,在这里我可以指定一组要组合的词。在这种情况下...

回答 1 投票 0

如何根据Elasticsearch中的最大单词数对句子进行标记?

我有一个字符串,例如“这是美好的一天”,我应该使用什么标记器或标记器与标记过滤器的组合来产生最多包含2个单词的术语? ...

回答 2 投票 1

我如何编写一个字符串标记器,将每个新字符串放入向量中?

如何分割字符串,以便使用strtok_s将每个单词作为元素放入字符串向量中?

回答 1 投票 -2

© www.soinside.com 2019 - 2024. All rights reserved.