text-processing 相关问题

机制化电子文本的创建或操作。

如果值存在,则使用linux join命令更新文本文件中的字段

我有两个非常大的文本文件,其中file2具有“更新和新项目”例如:file1:itemA,ABC,123 itemB ,, 456 itemC,XYZ,789 file2:itemB,DEF,456 itemC,XYZ,567 itemD,321, ZYX我想要我的最终输出......

回答 1 投票 0

如何使用正则表达式基于特定键提取特定字典?

我有字典形式的数据,每个字典中键值对的数量不同。我试图只提取基于特定键的特定字典(仅提取...

回答 1 投票 -1

sed命令评估功能不起作用

我有这个功能测试{echo $ 1;我有这个sed表达式echo“hello”| sed“s / hello / test world / e”预期结果是“world”但是它给出了结果sh:test:command not ...

回答 1 投票 1

在字符串中的x,y,z位置插入一个字符

我需要在2个字符之后在下面的字符串中插入“ - ”减号,然后在3个字符之后插入:mystring =“223334444”,并且所需的输出如下:22-333-4444我能够在...处插入字符

回答 3 投票 1

Text Analytics,DocumentTermMatrix在R中翻译成Python

我在R中有以下代码,并在Python中寻找等价物。我想要做的是从文本中取出文字,清理它们(删除标点,降低,剥离空白等)并创建......

回答 1 投票 0

如何将文件从文件提取到变量,同时用标记替换该文本?

我有一个属性文件:value;对(它的CSS)。我想通过这个文件和正则表达式将某些值提取到shell变量,同时用标记替换文件中的文本。例如......

回答 2 投票 1

基于关键词组对文本进行分类?

我有一份软件项目的要求清单,由其前身的遗体组装而成。每个要求应映射到一个或多个类别。每个类别都包含一个组......

回答 3 投票 6

在bash中的第n列之后将行转置到列

我有一个类似于以下格式的文件:$ cat file_in.csv 1308123; 28/01/2019; 28/01/2019; 22/01/2019 1308456; 20/11/2018; 27/11/2018; 09/11 / 2018; 15/11/2018; 10/11/2018; 02/12/2018 1308789; 06/12/2018; 04/12/2018 ......

回答 2 投票 1

如何在多行表中包装文本,而不会丢失格式?

我有以下形式的数据(主要是日志,但也包括用户注释):[2019_03_10] [21:12:55]#非常有用的文本高度iportance来证明我的问题。 [2019_03_10] [22:32:55]#Another Text。 [2019_03_10] [...

回答 5 投票 1

从Ob告中提取死亡名称实体 - NLP

我有一连串的广告,这是从一些报纸中提取的。广告可能会以如下所示的格式显示:我的任务是提取已故人员的姓名。约翰,小儿子......

回答 2 投票 0

转换可变数量的行,其中包含可变数量的行 然后是所有行直到下一个

我有以下输入,涉及多接口(几十个)网络设备(注意带#的行只是为了澄清而不存在于数据中):eth

回答 2 投票 -3

使用rapidminer提取文本信息

我有一个文本数据列表,我想从中提取某些部分。我目前正在使用正则表达式来提取我想要的数据,但它开始变得非常复杂,因为每个......

回答 1 投票 1

需要使用mawk删除重复的行(特别是)

我有一个很好的gawk命令。但我有一台安装了mawk的机器,当我尝试安装gawk时,它抱怨破坏了依赖关系。我想将此行更改为mawk语法。 ...

回答 1 投票 -1

在awk中使用数组来匹配行

我试图使用awk匹配两个文件(file1和file2)。对于file2中与file1匹配的列的每一行,我希望该命令打印出file1中的第二列。我看过......

回答 1 投票 1

如何在文本文件中替换$ {}占位符?

我想将一个“模板”文件的输出传递给MySQL,该文件包含散布的$ {dbName}等变量。什么是命令行实用程序来替换这些实例并将输出转储到...

回答 15 投票 124

如何使用相同的重复字母转换否定和单个单词

我有一个数据框,其中包含一个包含文本数据的列。我想删除那些毫无意义的词,并将“不是”的否定转换为“不是”来自文本数据。因为当我删除...

回答 2 投票 1

找出带有扩展字母的单词,并保留该字母的第一次出现

我有一个包含文本数据的数据框列。用重复的字母几乎没有单词。我想找到所有这些单词,然后将这些单词存储为字典中的键和正确的拼写...

回答 1 投票 0

删除由重复字母组成的单词

我有一个包含文本数据的数据框列。它几乎没有用重复字母组成的单词,而很少有其他单词具有重复字母。我想删除由......组成的单词

回答 1 投票 0

从dataframe列中删除无意义的单词

数据框列包含几乎没有三个和两个字母单词的句子。我想在dataframe列中找到所有这些单词,然后从dataframe列中删除它们....

回答 1 投票 0

如何才能在第一次出现匹配的行上进行替换?

我有一个类似这样的文件000099990000 Carlos C 000099990000 Ana B 000099990000 Ana A Test 000099990000 Ana B 000099990000 Carlos C我想找到第一次出现的Ana B,然后......

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.