tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

将姓氏和名字识别为一个实体

我对自然语言处理感兴趣。我想知道是否有一种众所周知的算法,可以在文本中将名字和姓氏确定为一个实体。例如,如果我们有这个:...

回答 2 投票 1

摆脱停用词和使用NLTK的文档标记化

我在使用nltk消除和标记.text文件时遇到困难。我不断收到以下错误消息:AttributeError:“列表”对象没有属性“较低”。我只是想不通...

回答 4 投票 5

的Java /科特林:记号化字符串忽视嵌套引号中的内容

我想用空格分割一个字符,但保持引号(和引号本身)内的空间。问题是,引号可以嵌套的,也是我需要两个这样做...

回答 1 投票 0

阅读CSV为文本文件,它标记化

我有一个以前疑问,有太多的部件,所以我敦促分解任务。首先我要读我的CSV为文本文件和令牌化里面的数据。当我做我得到一个错误。 csv_file ...

回答 1 投票 0

如何使用Lucene的分析器来标记一个字符串?

有一个简单的方法,我可以使用Lucene的分析器的任何子类解析/记号化字符串?喜欢的东西:字符串to_be_parsed =“车窗七”;分析仪=新StandardAnalyzer(...)...

回答 3 投票 37

如何结合各行中分离柱?

我清理其中包含50000行文字我的csv文件和记号化的每一行。然而在每行中,单词分成单独的列:202MAY ||击败|| LORDS || PEERS || BACK ||新...

回答 4 投票 0

如何来标记拼音,优选使用嵌套的,重叠的正则表达式组?

我试图来标记一个中国的拼音符号(无音)。考虑下面的代码:决赛= [ '一个', '0', 'E', 'AI', 'EI', 'AO', 'OU',...

回答 1 投票 0

升压::标记生成器以逗号分隔的(C ++)

应该是一个容易为你们.....我使用升压玩弄断词,我想创建一个逗号分隔的令牌。这里是我的代码:字符串s =“这是,测试”; ...

回答 1 投票 8

Java Read如何读取第一个单词,然后读取其余的输入

我无法弄清楚如何读取输入线的其余部分。我需要标记第一个单词然后可能创建输入行的其余部分作为一个整体令牌public Command getCommand(){...

回答 4 投票 3

如何标记json对象的数组?

嗨我需要标记一个json对象数组,但我不知道如何去做。目前,我有这个片段:StringTokenizer tokenizer = new StringTokenizer(request,“{}:,\”“); Map&...

回答 1 投票 2

Keras标记化(适合文本)

当我运行此脚本时 - > tokenizer.fit_on_texts(df ['text']。values)sequences = tokenizer.texts_to_sequences(df ['text']。values)word_index = tokenizer.word_index print('找到%s唯一令牌.'...

回答 2 投票 0

CoffeeScript或JavaScript中的基本NLP - Punkt tokenizaton,简单训练的贝叶斯模型 - 从哪里开始? [关闭]

我目前的网络应用程序项目需要一点NLP:通过Punkt和类似方式将文本标记为句子;通过从属条款打破较长的句子(通常它在逗号上除非它'...

回答 4 投票 8

strtok_r保存状态行为

使用strtok_r的正确方法如下:char * str = strdup(string); char * save; char * ptr = strtok_r(str,delim,&save); while(ptr){puts(ptr); ptr = strtok_r(NULL,delim,&save); ...

回答 1 投票 1

来自字符串的PHP标记

假设你有一个如下所示的字符串:token1 token2 tok3你想获得所有的标记(特别是空格之间的字符串),还有它们的位置(偏移量)和长度。 ...

回答 4 投票 3

元组括号'('在使用pyspark标记推文时已转换为令牌

我刚刚开始使用Spark。我试图计算推文中每个令牌的提及次数。为此,我创建了带有user_id和推文的pair rdd,按每个user_id分组(所以我...

回答 1 投票 0

如何在标记字符串时阻止spacy的标记生成器拆分特定的子字符串?

如何在标记字符串时阻止spacy的标记生成器拆分特定的子字符串?更具体地说,我有这样一句话:一旦取消注册,该文件夹就离开了shell。 ...

回答 1 投票 2

python:tokenize没有for循环的元组列表

我有一个200万元组的列表,第一个元素是文本,第二个元素是整数。例如list_of_tuples = [('这里是一些文字',1),('这是更多的文字',5),('最后的元组',12)]我......

回答 3 投票 0

SOLR Tokenizer“solr.SimplePatternSplitTokenizerFactory”以意外字符分割

我使用solr.SimplePatternSplitTokenizerFactory获得了意想不到的结果。使用的模式实际上来自SOLR文档中的一个示例,我不明白我在哪里犯了错误或...

回答 1 投票 0

整个x_data或只是train_data对Keras fit_to_text更好吗?

我有一个带有文本列的数据框。我将它们分成x_train和x_test。我的问题是,如果更好地在整个x数据集上执行Keras的Tokenizer.fit_on_text(),还是只需要x_train?像这样:...

回答 1 投票 4

Word2Vec词汇仅产生字母和符号

我是Word2Vec的新手,我正在尝试根据它们的相似性来聚类。首先,我使用nltk分隔句子,然后使用结果列表作为输入...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.