标记化是将字符串拆分为称为标记的离散元素的行为。
我对自然语言处理感兴趣。我想知道是否有一种众所周知的算法,可以在文本中将名字和姓氏确定为一个实体。例如,如果我们有这个:...
我在使用nltk消除和标记.text文件时遇到困难。我不断收到以下错误消息:AttributeError:“列表”对象没有属性“较低”。我只是想不通...
我想用空格分割一个字符,但保持引号(和引号本身)内的空间。问题是,引号可以嵌套的,也是我需要两个这样做...
我有一个以前疑问,有太多的部件,所以我敦促分解任务。首先我要读我的CSV为文本文件和令牌化里面的数据。当我做我得到一个错误。 csv_file ...
有一个简单的方法,我可以使用Lucene的分析器的任何子类解析/记号化字符串?喜欢的东西:字符串to_be_parsed =“车窗七”;分析仪=新StandardAnalyzer(...)...
我清理其中包含50000行文字我的csv文件和记号化的每一行。然而在每行中,单词分成单独的列:202MAY ||击败|| LORDS || PEERS || BACK ||新...
我试图来标记一个中国的拼音符号(无音)。考虑下面的代码:决赛= [ '一个', '0', 'E', 'AI', 'EI', 'AO', 'OU',...
应该是一个容易为你们.....我使用升压玩弄断词,我想创建一个逗号分隔的令牌。这里是我的代码:字符串s =“这是,测试”; ...
我无法弄清楚如何读取输入线的其余部分。我需要标记第一个单词然后可能创建输入行的其余部分作为一个整体令牌public Command getCommand(){...
嗨我需要标记一个json对象数组,但我不知道如何去做。目前,我有这个片段:StringTokenizer tokenizer = new StringTokenizer(request,“{}:,\”“); Map&...
当我运行此脚本时 - > tokenizer.fit_on_texts(df ['text']。values)sequences = tokenizer.texts_to_sequences(df ['text']。values)word_index = tokenizer.word_index print('找到%s唯一令牌.'...
CoffeeScript或JavaScript中的基本NLP - Punkt tokenizaton,简单训练的贝叶斯模型 - 从哪里开始? [关闭]
我目前的网络应用程序项目需要一点NLP:通过Punkt和类似方式将文本标记为句子;通过从属条款打破较长的句子(通常它在逗号上除非它'...
使用strtok_r的正确方法如下:char * str = strdup(string); char * save; char * ptr = strtok_r(str,delim,&save); while(ptr){puts(ptr); ptr = strtok_r(NULL,delim,&save); ...
假设你有一个如下所示的字符串:token1 token2 tok3你想获得所有的标记(特别是空格之间的字符串),还有它们的位置(偏移量)和长度。 ...
我刚刚开始使用Spark。我试图计算推文中每个令牌的提及次数。为此,我创建了带有user_id和推文的pair rdd,按每个user_id分组(所以我...
如何在标记字符串时阻止spacy的标记生成器拆分特定的子字符串?
如何在标记字符串时阻止spacy的标记生成器拆分特定的子字符串?更具体地说,我有这样一句话:一旦取消注册,该文件夹就离开了shell。 ...
我有一个200万元组的列表,第一个元素是文本,第二个元素是整数。例如list_of_tuples = [('这里是一些文字',1),('这是更多的文字',5),('最后的元组',12)]我......
SOLR Tokenizer“solr.SimplePatternSplitTokenizerFactory”以意外字符分割
我使用solr.SimplePatternSplitTokenizerFactory获得了意想不到的结果。使用的模式实际上来自SOLR文档中的一个示例,我不明白我在哪里犯了错误或...
整个x_data或只是train_data对Keras fit_to_text更好吗?
我有一个带有文本列的数据框。我将它们分成x_train和x_test。我的问题是,如果更好地在整个x数据集上执行Keras的Tokenizer.fit_on_text(),还是只需要x_train?像这样:...
我是Word2Vec的新手,我正在尝试根据它们的相似性来聚类。首先,我使用nltk分隔句子,然后使用结果列表作为输入...