tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

如何设置注释以将标签视为spaCy库中的名词,Python

[我有这个标记的句子:[x]在[z]中移至[y]。如何设置[x],[y]作为名词,[z]作为日期时间的注释?我指的是https://spacy.io/usage/linguistic-features#native-tokenizer -...

回答 1 投票 0

Python-自然语言处理NLTK / RE删除单词之间的空格

我正在尝试规范化文本,并且代码删除了单词之间的空格。当运行代码时,将pandas pd作为pd导入nltk,作为nltk nltk.download('stopwords')nltk.download('punkt')import ...

回答 1 投票 -1

BertTokenizer-当编码和解码序列出现额外的空格时

使用HuggingFace的Transformers时,我面临编码和解码方法的问题。我有以下字符串:test_string ='text with percent%'然后我正在运行...

回答 1 投票 5

尝试使用Elasticsearch 7.4搜索“ a-test”

我已实现搜索功能,并且我正在尝试搜索包含“。”的字符串。或“-”,例如a-test或a.test,因为我现有的查询无济于事,请问该怎么做:{“ query”:{“ ...

回答 1 投票 -1

Python中的分割字符串和捕获组

我有以下字符串:'Cc1cc([N +](= O)[O-])ccc1OCC(C)(O)CN1CCN(Cc2ccccc2)CC1'并想捕获[N +]和[O-],是,拆分并恢复它们。我似乎无法恢复...

回答 1 投票 0

分割char数组并存储到向量中

我已经在网上搜索过,但是找不到一种方法来通过空格(“”)分割char数组并将每个单词存储为一个向量。 int main(){字符串输入;向量 splitInput; getline(cin,...

回答 1 投票 0

尝试对数组进行切片会导致“数组索引过多”。我可以填充阵列来解决此问题吗?

我已经看到许多有关此特定错误的问题。我相信我的问题与众不同,足以保证自己的职位。我的目标:我正在构建一个生成新闻头条的RNN。...

回答 1 投票 0

在预先标记的文本上使用空格

我想使用spacy处理已经预先加标记的文本。将令牌列表解析为spacy无效。 import spacy nlp = spacy.load(“ en_core_web_sm”)nlp([“ This”,“ is”,“ a”,“ sentence”])...

回答 1 投票 0

Elasticsearch标准令牌生成器的行为和单词边界

我不确定在这种情况下标准令牌生成器(由默认标准分析器使用)为什么会像这样:-如果使用单词system.exe,它将生成令牌system.exe。我明白 。 ...

回答 1 投票 0

瑞典词条化

我正在尝试为瑞典语找到一个词消句器,但没有成功。有人对这个有了解吗?我知道ntlk软件包中的WordNet,但这仅适用于英语。

回答 1 投票 0

我可以使用高棉语言的标记化输入文件和自定义词汇文件从头开始对BERT模型进行预训练吗?]

我想知道是否可以将我自己的标记化/分段文档(以及我自己的vocab文件)用作create_pretraining_data.py脚本的输入文件(git源:https:/ ...) >

回答 1 投票 2

Python标记化文本:如何将标记化列表转换为字符串?

[我正在尝试从nltk.tokenize import send_tokenize,word_tokenize text ='''标记文本='''该团队使用了2016年和2017年的档案“数据” ...由ESA / NASA哈勃太空望远镜捕获,... ...] >

回答 2 投票 0

有了spacy,如何确保字母序列永远不会分割成令牌

我正在寻找一种方法来确保序列“#*”出现在文本中的任何时间,spacy给了我令牌“#*”。我尝试了使用add_special_case添加特殊情况的所有可能方法,构建了...

回答 1 投票 0

如何创建标记和词干的函数

我的代码定义tokenize_and_stem(text):令牌= [发送给nltk发送。sent_tokenize(text)发送给nltk.word_tokenize(text)] word_tokens = [如果re.search('a ...

回答 2 投票 0

NLTK Word令牌化不返回任何内容

我正在尝试标记一个句子,并且我相信代码是正确的,但是没有输出。可能是什么问题呢?这是代码。从nltk.tokenize导入nltk导入word_tokenize ...

回答 1 投票 0

如何查找字符串中每个单词的长度?

我编写了一个代码,该代码接受一个句子并输出一行中的每个单词。但我也想在每个单词旁边写上它的大小。输入:您好我的名字是当前输出:您好我的名字是期望的...

回答 4 投票 3

PPI对perl的Heredoc进行不正确的标记化

我正在使用PPI来对Perl文件进行标记化。但是,heredoc似乎没有正确标记。我正在使用下面的代码标记文件:my $ file_name = shift @ARGV;使用PPI;使用...

回答 1 投票 2

如何像在Java中的词法分析器中那样标记字符串?

要标记的Java代码:字符串input1 = input.replaceAll(“ \\ s +”,“”); List uncleanList = Arrays.asList(input1.split(“”));我将此代码放在String中。替换了所有多个空格...

回答 1 投票 -3

Elasticsearch-用大写字母标记术语,例如“ TheStarTech” => [The,Star,Tech]

Elasticsearch是否支持令牌化器以大写字符对术语进行令牌化,例如:将TheStarTech令牌化为术语[The,Star,Tech]。模式标记器似乎有帮助,有任何建议吗?

回答 1 投票 0

向Spacy中的令牌生成器添加一些自定义单词

我有一句话,希望看到以下预期的标记。句子:“ [x]适用于[z]中的[y]。”令牌:[“ [”,“ x”,“]”,“作品”,“用于”,“ [”,“ y”,“]”,“中”,“ [”,“ z”,“]” ,“。”]预期:[...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.