text-processing 相关问题

机制化电子文本的创建或操作。

比较不同文件的两列,如果与linux匹配,则进行打印

我有2个文件文件1:包含(114行数据)头文件1.txt AC002310.2 AC007298.2 AL132780.1 TULP1 LINC02626 LINC02211 AC239809.3 GTF2F2 TCF3 SOX4 ...

回答 2 投票 0

如何使用sed搜索值列表的任何成员

不确定如何适当地问问题,但这是用例:我有一个〜18GB的XML文件(OpenStreetMap);约2.5亿行该文件有约250个有问题的条目正在破坏数据集。...

回答 1 投票 1

如何使用NodeJS读取大型utf-8编码的文本文件

关于如何使用NodeJS读取utf-8编码的文本文件有很多答案;但是,我的问题是如何读取大文件。此处,“大”表示超出了存储能力,例如64GB。说...

回答 1 投票 1

查找不以指定字符串结尾的文本文件的快速方法

我有很多XML文件,并希望通过验证它们是否以标记结尾来检查其完整性。 grep -L“” * .xml会很棘手,但速度很慢(太多太多...

回答 2 投票 2

有效的NLP实践数据集

请共享指向有效实施NLP(自然语言处理)的数据集的链接。我是初学者,想提高自己的技能。

回答 1 投票 -1

仅打印python中的前25个一致性

[我正在完成我大学的一项任务,我不知道如何仅打印单词的前25个一致性而不是整个列表。

回答 1 投票 0

用于将QString按给定数字进行拆分的算法,而不会破坏Qt C ++中的单词

我有长字符串,其中包含有意义的句子。我想按给定的字符数将其拆分,而该部分将保留一部分的最后一个字。我写了一种算法,它可以将字符串分割为... ...>

回答 1 投票 0

从大型语料库中提取包含一个单词的句子,包括标点符号,在python中

我正在使用大型语料库(〜30GB),我需要提取包含单词列表(〜5000)包括标点符号的句子。我正在使用正则表达式方法,但是我对任何建议都开放...

回答 2 投票 1

从文本文件中提取所有目录名称

我有一个文本文件,其中文件名及其子目录名可以出现在任何随机位置。例如。 input_file.txt这是一个文本文件。该行具有文件名和位置...

回答 2 投票 -1

将小写python转换为大写python的条件语言基础

我使用小写的简单纯文本,没有标点符号。是否有任何库可以帮助更改大写字母,例如名词在哪里或需要在哪里?喜欢先生之后的名字等等。任何...

回答 1 投票 -1

Text预处理Python

我有文字输入='那只棕色的狐狸。跳过了那只懒狗。我希望输出如下:[['quick','brown','fox','。'],['jumped','lazy','dog','。']]请让我知道该怎么办...

回答 1 投票 -1

更改sed中许多文件的最后一行-sed仅在第一个中更改

这是我的脚本#!/ bin / bash {1..100}中的num; sed'$ s / 6.36535 23.3762512.09434 / 6.76889 21.76071 12.19032 /'eq8_ $ num.gro | tee eq9_ $ num.gro完成,我要替换“ 6.36535 ...

回答 3 投票 0

来自目录名称的Grep yyyy-mm

快速问题,我有这个查找子句,可以在外部硬盘驱动器中找到备份目录。 pi @ raspberrypi:/ media / pi / WD / HS_BACKUP $查找。 -depth -maxdepth 2 -type d -name“ 20 *” / media / pi / WD / ...

回答 3 投票 0

根据使用awk的先前记录的计数,更新特定列中的字段

我必须更新下面输入文件的第一个字段(不包括作为标题的前两行。BGL,GLC和LIN之前的第一列中的数字是必须在...中更新的计数器。

回答 2 投票 0

如何将BASH shell变量作为getline中的字符串传递给AWK?

这是我的脚本,它非常适合一个文件:awk'BEGIN {while(getline 7.947 || $(NF-1)<12.741 || $(NF-1)> ...

回答 2 投票 0

删除字符串MASM32中的重复单词>>

我需要找到重复N次的所有单词,并将其从字符串中删除。我不了解如何在MASM32中遍历字符串并比较单词。有什么建议吗?

回答 1 投票 0

在awk中正确保留列之间的间距(每个字段的宽度?)>

我有一个大问题。我正在处理.gro文件,该文件如下所示:1BGL C5 1 2.636 14.120 1.951 -0.0345 -0.8088 -0.2809 1BGL H5 2 2.573 14.031 1.945 0.1969 -1 ....

回答 1 投票 0

使用sed命令替换fasta标头

我有一个看起来像这样的fasta文件。 > header1 ATGC...。> header2 ATGC ...我的列表文件看起来像这个生物1生物2,并且包含我要...的生物列表...

回答 1 投票 -1

regex在sed的下一个新行之前打印所有行

我具有以下文件内容:#example,Group,example.com dn:cn = example,ou = Group,dc = example,dc = com cn:example gidNumber:2344 objectClass:posixGroup objectClass:top memberUid:.. 。

回答 2 投票 0

增加文本文件中包含的版本号

此自我回答的问题解决了最初在文件中增加版本号中所述的情况:嵌入文本文件中的版本号将要增加。示例文本文件内容:...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.