text-processing 相关问题

机制化电子文本的创建或操作。

移除字符串,直到符合python中的条件。

我有这些字符串向量 text1 = " SPEECH Remarks at the European Economics and Financial Centre 欧洲央行副行长Luis de Guindos在欧洲经济和金融中心的讲话 ...

回答 1 投票 -1

如何计算每个字符的出现次数,包括大写和小写?

我一直试图通过使用以下代码来计算一个字符在文件上出现的次数: sed 's.&\ng' 1.txt。

回答 1 投票 0

如何删除每行中连续重复的字符?

我在一个文件Acanthocephala;Palaeacanthocephala;Polymorphida;Polymorphidae;;Profilicollis;Profilicollis_altmani;Acanthocephala;Eoacanthocephala;Neoechinorhynchida;......中有以下几行。

回答 4 投票 0

从给定的文本中识别出与领域相关的重要关键词。

我对NLP文本处理的领域比较陌生。我想知道如何从给定的文本中识别领域相关的重要关键词。例如,如果我要建立一个Q&A聊天机器人,它 ...

回答 1 投票 0

用python处理一个大文件(>60gb)

我有一个文本文件(>=60Gig),里面的记录是这样的:{"index": {"_type": "_doc", "_id": "bLcy4m8BAObvGO9GALME"}}。{"message":"{"__": "用户/",{"pFlags/":{"联系/":true},{"flags/":2135,...。

回答 1 投票 -3

具有多个输入的神经网络(keras,文本分类)。

我是机器学习的新手,对神经网络做了一些实验,也做了一些研究。我目前正试图做一个用于假新闻检测的迷你网络。我的数据有几个特征(...

回答 1 投票 0

如何使用 xslt 缩进一个 html 列表?

如何在生成的 html 中平等地缩进每个生成的 "record "节点? xml。 报告日期 房委会

回答 1 投票 0

如何从xslt输出的html列表中删除多余的缩进?

我如何平均缩进下面的每个“记录”?较大文档中的xml片段: 2020-06-14 Fraser ...

回答 1 投票 0

使用定界符将数据框中的列中的各个字符串分开,并将子字符串添加到单独的列中

例如,我有一个数据框:df = pd.DataFrame({“ EmailAdd”:[“ [email protected]”,“ [email protected]”],“主题”:[“报告提交”,“会议更新“] ...

回答 2 投票 0

删除Linux中XML标记中的双引号和空格

我想从XML标签 的值中删除空格和引号,在Linux上我的XML文件中(仅针对此标签而不是其他位置删除空格)。 XML示例内容看起来像...

回答 1 投票 0

在网格中搜索单词

我正在尝试编写一个函数,该函数采用字母的正方形网格并给定一个单词,以从单词列表中进行查找,它会水平,垂直或对角地搜索它(也向后看...]]

回答 2 投票 1

使用python将重复模式转换为JSON文件

[希望您做的很好,我有一个数据文件(包含数千个结构化数据模式),如下所示:PARTNER =“ ABC” ADDRESS1 =“ ABC Country INN” DEPARTMENT =“ ABC Department” CONTACT_PERSON =“ ...

回答 4 投票 0

如何基于定界符分隔数据框列中的字符串?

所以,我有一个数据帧,看起来像这样:我想将“文件名”列中的值分成基于“-”和“。”的字符串。并删除扩展名。然后我想把...

回答 1 投票 -1

无法合并文本文件并从文本文件中收集特定行

这里,我正在尝试合并文本文件,仅将文件的消息部分提取到单独的文件中,导入os import re message_data = [] path = r'C:\ Users \ Multiple Text files /'filenames = ['2019 -01-01 ....

回答 1 投票 0


KeyError:1738而在python中使用for循环

目标是使用停用词,词干等进行数据清理。我有一个语句列表,所以我使用for循环遍历每一行进行数据清理。如果我尝试在单行上执行其步骤,则...

回答 1 投票 3

如何将列的值与Spark上单独dataFrame上列的所有行进行比较

我有这两个数据框。我的目标是将第一个数据帧上的“ FilteredDescription”列的每个值与第二个数据帧上的“ Name”列的所有值进行比较。

回答 1 投票 -2

删除在语料库Python中出现超过x%的单词

我正在处理大量语料库,形式为标记/单词列表。语料库包含〜1900,000个单词,我已经运行了一个代码以获取最常用的单词,现在语料库中有140,000个单词。我...

回答 1 投票 0


keras Tokenizer的num_words参数如何工作?

[当使用Tokenizer类在keras中对文本序列进行标记时,我们可以指定参数'num_words'以仅考虑数据集中的[top] n个词。我的疑问是[top]值是什么意思? ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.