text-processing 相关问题

机制化电子文本的创建或操作。

如何在python的单独列中排列的数据框中插入pos标签?

我有POS使用TextBlob标记我的输入文本并将其导出到文本文件中。它给了我三个信息,如POS,Parse Chunker和Deep Parsing。此标记的输出采用以下格式:...

回答 1 投票 0

如何忽略pyparsing ParseException并继续?

我想忽略文件中与所有预定义解析器不匹配的行并继续。我想忽略的线路范围很广,我无法检查和定义......

回答 1 投票 1

除了空行外,用单引号包围每一行

我的目标是为文件中的每一行添加一个撇号,并跳过空行。 file.txt:Quote1 Quote2 Quote3到目前为止我已经使用了sed:sed -e“s / \(。* \)/'\ 1'/”哪个工作但...

回答 6 投票 4

如何使用SkipTo pyparsing Group进行文件解析?

当我与其他解析器一起使用pyparsing SkipTo时,文件解析似乎挂起了。 unexpected = pp.SkipTo(pp.LineEnd())('unexpected *')rules = pp.Group(predefined_pa rser)|意外的解析器= pp ....

回答 1 投票 1

将所有.wav文件合并到以相同前缀开头的文件夹中

我有这样的文件列表:S134_001.wav S134_002.wav S134_003.wav S149_001.wav S149_002.wav S149_003.wav S16_001.wav S16_002.wav S16_003.wav S16_004.wav S16_005.wav S16_006.wav S272_001 ....

回答 1 投票 0

基于一个字符串列对变量进行分类的方法

我正在寻找一些方法,它能够根据一个字符串列对变量进行分类。我被告知SVM应该处理它,但我不知道如何处理。这是我拥有的数据示例,我想......

回答 2 投票 0

perl:如何删除两个模式之间的特定单词或模式

我想用perl删除两个模式中的一些单词以下是我的文本.......... QWWK jhjh kljdfh jklh jskdhf jkh PQXY lhj ah jh sdlkjh PQXY jha slkdjh PQXY jh alkjh ljk kjhaksj ...

回答 4 投票 4

仅在第二个图案出现时打印两个图案

只有当人具有英语科目分数时,如何使用分数打印姓名。换句话说,只有当第二个图案匹配时,才会对2个图案进行润色并打印第一个和第二个图案。输入:......

回答 6 投票 0

Bash Shellscript列检查错误处理

我正在写一个Bash Shellscript。我需要检查文件是否$ value1包含$ value2。 $ value1是列号(例如1,4,5)和$ value2($ value2可以是'03','04','09'等)是......

回答 2 投票 0

为什么天真的贝叶斯需要平衡的训练数据?

我使用Naive Bayes算法创建了一个单词情感应用程序。该分类训练数据中有两种类型的标准,即积极训练数据和负训练数据。我拿 ...

回答 1 投票 -1

如何从文档文本中查找相关字段? [关闭]

我从票据的pdf中提取了文本,它看起来像这样(票据可能不同)___________________________________________________ | invoiceNo | itemId | item_name |数量|金额| ...

回答 2 投票 -2

使用Keras Tokenizer生成n-gram

可以在Keras中使用n-gram吗?例如,句子在X_train数据框中包含“句子”列。我以下列方式使用Keras的tokenizer:tokenizer = Tokenizer(lower = True,...

回答 2 投票 5

使用shell按字母顺序对多行记录进行排序

有一个文件具有以下结构:L. feritas E. ferity L. ars E. art L. solitudo E. solitude L. celeritas E. celerity每一行都是一个字段,记录跨越多行,......

回答 1 投票 2

将C文件导出到新文件时,删除#if 0和#endif之间的代码

我想删除toy.c文件中的所有注释。从C / C ++代码中删除注释我发现我可以使用gcc -E -fpreprocessed -P -dD toy.c但是我的一些代码(比如我不赞成的弃用函数......)

回答 3 投票 2

查找具有偶数字符的最长单词

所以我有一个字符串,我需要找到匹配两个约束的单词,即单词中的字符数应该是偶数,它应该是最长的单词。例如:输入:我是......

回答 2 投票 1

加速迭代文本的方法并创建Map [Tuple2 [String,String],Int] Scala

我在scala程序中有一个方法,它创建一个Map [Tuple2 [String,String],Int],但它的运行速度非常慢,无法处理很多文本。我似乎无法弄清楚如何加速它并使其成为......

回答 3 投票 1

在replaceAll()方法中调用replace替换String

看起来这应该工作,但它不...我试图在传递给replaceAll()方法的替换String上调用replace()方法。例如,我试图摆脱任何逗号......

回答 2 投票 0

使用带时间戳的块合并日志文件

如果每一行都以时间开始,那么合并行然后排序是微不足道的。我试图将几十年的聊天记录合并在一起,这些聊天记录在开始和结束时以明确的文字分隔......

回答 1 投票 0

如何从Project Gutenberg文本中删除页眉/页脚?

我尝试过各种方法从Project Gutenberg文本中剥离许可证,用作语言学习项目的语料库,但我似乎无法想出一种无监督,可靠的方法。 ...

回答 3 投票 19

优化循环文件内容

我有两个文件,file1和file2。我需要检查file1中的所有内容是否都存在于file2中。 file1的内容如下:ABC1234 BFD7890 file2的内容如下...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.