tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

在Solr中索引和查询URLS

我有一个我想要搜索的URL数据库。因为URL并不总是写成相同的(可能有也可能没有www),我正在寻找索引和查询URL的正确方法。我试过......

回答 3 投票 7

在C中对URL进行标记

URL的格式为PROTOCOL:// HOST:PORT?PARAM1 = VALUE1&PARAM2 = VALUE2&... PARAMN = VALUEN我想我可以首先标记?,然后标记为&,然后标记为on =。有没有 ...

回答 1 投票 0

如何在shell中拆分字符串并获取最后一个字段

假设我有字符串1:2:3:4:5,我想得到它的最后一个字段(在这种情况下为5)。我如何使用Bash做到这一点?我试过剪切,但我不知道如何用-f指定最后一个字段。

回答 17 投票 261

将标记频率存储在elasticsearch中,而不是存储文本

根据我对阅读文档的理解,弹性搜索的工作原理是它计算术语频率*目标频率。它将文本转换为某种术语频率字典......

回答 1 投票 1

在C ++中区分标记化字符串中的操作数和运算符

如何编写代码,if if(token是一个操作数)if if(token是一个运算符)执行此操作对于操作数,可以使用stoi()函数但是如何处理运算符?还有......

回答 1 投票 0

使用StreamTokenizer(),HashMap(),HashSet()计算单词频率。在Java Core中

import java.io. *; import java.util。*; class A {public static void main(String args [])throws Exception {Console con = System.console(); String str; int i = 0; ...

回答 1 投票 0

需要知道如何在c中按空格解析单词。还需要知道我是否正确分配内存?

我在c中编写一个程序,从文本文件中读取文本,然后从文件中随机选择单词,如果单词大于或等于6,则将单词附加在一起,删除...

回答 1 投票 1

在不使用split()的情况下用Java标记字符串

我正在尝试编写一种方法来将字符串标记为其各自的单词到数组中。我已经使用split方法测试了我的程序,它运行正常,但我正在尝试,而是写...

回答 1 投票 -1

动态分配c中的双指针

这个问题是这个问题的延续。这是代码:#include #包括 int main(void){int ch; char * ptrChFromFile; char ** ptrWords; ...

回答 2 投票 0

ASP.NET中的弹性搜索 - 使用&符号

我是ASP.NET中的弹性搜索的新手,我有一个问题,到目前为止,我无法解决。从文档中,我发现&符号未列为特殊字符。然而,当我提交......

回答 1 投票 0

将同名pandas dataframe列的值聚合为单列

我有多个通过标记代码生成的csv文件。这些文件包含大写和小写的关键字。我想将所有这些文件合并到一个包含...的数据帧中。

回答 2 投票 1

spacy tokenize撇号

我正在尝试正确地分割单词以适应我的语料库。为此,我已经发现以下内容:Spacy自定义标记生成器只包含连字符作为标记使用Infix正则表达式修复了连字符...

回答 1 投票 2

如何将spacy tokenize hashtag作为一个整体?

在包含主题标签的句子中,例如推文,spacy的标记器将主题标签分成两个标记:import spacy nlp = spacy.load('en')doc = nlp(u'这是#sentence。')[t for t in doc]输出:...

回答 4 投票 2

对字符串列表进行标记以返回一个标记化的单词列表

美好的一天,我有一个功能,应该能够降低和标记文本和返回令牌。以下是以下函数:def preprocess_text(text):“”“降低和标记化的函数...

回答 1 投票 1

从txt文件中对句子进行标记,并获得“预期的字符串或类似字节的对象”错误

我以为我有一个非常简单的代码来打开文件,阅读它并将其标记为句子。 import nltk text = open('1865-Lincoln.txt','r')tokens = nltk.sent_tokenize(text)...

回答 2 投票 0

SpaCy - 单词连字符。如何对待他们一个字?

以下是作为问题答案提供的代码;从spacy.tokenizer导入spacy从spacy.util导入Tokenizer导入compile_prefix_regex,compile_infix_regex,compile_suffix_regex ...

回答 1 投票 1

Javascript word tokenizer库,支持多种语言(尽可能多)

我正在为node.js寻找一个单词tokenizer库,它支持尽可能多的语言。我想传入一个字符串:tokenize('Hello,world!','en')并让它返回['Hello','...

回答 2 投票 1

如何在oracle中将csv转换为表

在csv值中传递时,如何创建以表格格式返回结果的包。 select * from table(schema.mypackage.myfunction('one,two,three'))应该返回一两三我试过...

回答 5 投票 9

listunagg函数?

像listunagg函数那样在oracle中有这样的东西吗?例如,如果我有以下数据:---------------------------------------- -------------------- | user_id | degree_fi | degree_en | ...

回答 3 投票 6

扩展相反的listagg

我注意到一些关于如何'unlistagg'的问题,但到目前为止我找不到符合我要求的东西。对不起,如果我错过了一些过去的好答案。我有如下数据:----...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.