tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

向Spacy中的令牌生成器添加一些自定义单词

我有一句话,希望看到以下预期的标记。句子:“ [x]适用于[z]中的[y]。”令牌:[“ [”,“ x”,“]”,“作品”,“用于”,“ [”,“ y”,“]”,“中”,“ [”,“ z”,“]” ,“。”]预期:[...

回答 1 投票 0

如何在阅读行中分割行并将其保存在其他列表中?

这是我的代码,带有open('file.txt','r')作为源:#缩进polTerm = [line.strip()。split()[0]用于source.readlines()中的行] polFreq = [int(line.strip()。split()[1] for line in ...

回答 4 投票 0

使用NLTK方法,例如对带注释的文本进行标记化

说我有一个带注释的文本语料库,其中一个句子看起来像:txt ='赤狐 吓我一跳。是否可以使用word_tokenize将其标记化,例如...

回答 1 投票 0

C ++提取多项式系数

所以我有一个看起来像这样的多项式:-4x ^ 0 + x ^ 1 + 4x ^ 3-3x ^ 4我可以通过空格和'+'将其标记化为:-4x ^ 0,x ^ 1,4x ^ 3,-,3x ^ 4我怎样才能得到带有负数的系数...

回答 5 投票 0

[通过在Python 3中使用算术和逻辑运算符保留某些单词来标记单词?

虽然从一个大型语料中标记多个句子时,我需要保留某些单词,如.Net,C#,C ++的原始形式。我也想删除标点符号(。,!_-()= *&^%$ @〜...

回答 1 投票 1

保护我的API仅适用于我的前端

我正在建立一个节点 快速后端。 我想创建一个只能与我的reactjs前端 私有API 一起使用的API。 想象一下,如果这是一个电子商务网站,我的用户将浏览产...

回答 5 投票 7

NLTK令牌化优化

我具有NLTK解析功能,可用来解析TREC数据集的〜2GB文本文件。此数据集的目标是标记整个集合,执行一些计算(例如,计算...

回答 1 投票 0

标记化句子列表中的单词[重复]

我有一个单词/设备清单= ['tv','radio','oven','speaker']我也有一个句子,已将其标记化。发送= ['我们的厨房里有收音机']发送1 = word_tokenize [...

回答 1 投票 0

R中的pdf文件如何通过n-gram进行标记

我想用R中的ngrams将pdf文档标记化。我试图按照https://www.tidytextmining.com/ngrams.html上的说明进行操作,但是被unnest_tokens()函数所困扰。 library(tm)...

回答 1 投票 1

用Python标记10个文档的语料库

我是Python编码的新手,因此弄清楚如何编写更高级的动作已成为我的挑战。我的任务是计算10个文档的语料库的TF-IDF。但是,我对如何使用...

回答 2 投票 0

在CSV文件中提取列表中没有元素的行

我有一个带有子字符串的列表,如果列表中存在的任何子字符串存在于CSV文件的该列中,我都需要将其与CSV文件中的一列进行比较。我想写那些行...

回答 3 投票 1

在空间中标记命名实体

任何人都可以提供帮助。我正在尝试使用Spacy对文档进行标记化,从而对命名实体进行标记化。例如:“纽约是美国的一个城市”将是...

回答 1 投票 1

pandas“ pandas.errors.ParserError:标记数据出错。 C错误:IO回调中发生未知错误”

我正在使用熊猫读取_csv的3.8 Gig文本文件,该文件以竖线分隔,但是在将文件读入内存时出错。这是我的read_in_files()函数抛出的全部错误:错误:正在读取...

回答 1 投票 0

如何使用C ++ 11正则表达式解析整数/标识符/字符串/运算符?

我有一个非常简单的脚本语言,语法:compilationUnit:((变量|打印)* EOF;变量:LET ID等于值;打印:PRINT(ID);值:INTEGER | STRING; //标记LET:'let'...

回答 1 投票 0

如何为句子添加标点符号?

如何处理建立标点预测器的问题?该问题的工作演示可以在此链接中找到。输入文本如下:“ Kirk告诉了它一阵子...

回答 1 投票 0

将python中的多个单词标记化

我是python的新手。我有来自twitter的大数据集,我想对其进行标记化。但是我不知道如何标记这样的动词:“寻找,起飞,成长等”。这对我很重要。 ...

回答 1 投票 0

最快标记信号的方法?

我需要找到最快的方法来标记信号。信号的形式为:标识符:值标识符:值标识符:值...标识符仅由字母数字和下划线组成。 ...

回答 1 投票 1

xslt由定界符分割

我不能使用标记化(xslt 2.0),我有问题。我需要基于定界符“ \ n”分割值“ Test street \ nStreet 2 \ nStreet3”,以产生 Test street ...

回答 2 投票 0

遍历熊猫数据框的所有行的nltk.tokenize

感谢您为一个愚蠢的问题所提供的帮助。我已将一个sqlite表放入一个pandas数据框中,以便可以对一系列推文中的单词进行词化和计数。使用...

回答 2 投票 0

将姓氏和名字识别为一个实体

我对自然语言处理感兴趣。我想知道是否有一种众所周知的算法,可以在文本中将名字和姓氏确定为一个实体。例如,如果我们有这个:...

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.