data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

Pandas read_csv():如果与模式不匹配则删除行

我有一个csv文件,我需要读取并解析为Pandas数据帧。从理论上讲,所有列都应遵循已知的数值数据和字符串模式。我知道有些记录坏了,......

回答 1 投票 0

如何在保持NaN值的同时使用pandas.melt()?

我正在清理一个混乱的数据框,其中所需的一些信息出现在列名中。此信息应融合到将要创建的单个列中。索引名称动物......

回答 1 投票 3

在r中将纵向数据与时间变量从宽格式转换为长格式

我有纵向数据,随着时间的推移,对多个物体进行多次测量。数据采用长格式,包含数百个变量和案例:Id时间1测量11 ...时间2 ......

回答 1 投票 0

将函数传递给新函数以读取文件

我在阅读一些大量的文本文件时遇到了问题。我首先定义读取我的文本文件如下:def reader(filename):用open(filename,encoding ='latin-1')作为文件:...

回答 1 投票 -2

如何从多列中选择一个值?

我需要智能地组合数据框中三列的值,如下所示。代码需要选择第一个类型预测为True,只有第一个类型预测即使另一个...

回答 1 投票 0

对于所有列,如何删除它们存在的特定字符串[重复]

在R编程中,对于所有列名,我想删除字符串“Cs”。如果它存在X.x不包含“Cs”。在这种情况下。我该怎么办? Cs.Month | X.x | Cs.ID | Cs.Discharge -------...

回答 1 投票 0

尝试在Python / pandas中使用正则表达式获取子字符串

我知道这可能看起来很愚蠢,但我一直在寻找各地并尝试使用正则表达式并且徒劳无功。我的脚本永远不适用于我的数据集上的所有类型的字符串。我有这个专栏......

回答 2 投票 2

R:为什么我会使用spread()丢失数据?

我有一个看起来像这样的东西。 #A tibble:1,000 x 3 id问题答案 ...

回答 1 投票 0

清理一个pandas系列:对于每一行,如果字符串在字典的值(values = list或set)中,则用key替换

我有一本书,我已经分解为每个角色的对话,但我注意到有相同的字符有很多拼写错误和不同的名字。我创建了一本希望关联的词典......

回答 1 投票 0

将一个数据集中的变量分配给另一个数据集中的多个字段

我试图将一个数据帧中的变量分配到另一个数据帧的多行 - 即此处的AWND变量(平均风速)。我想从这里获得AWND而且我...

回答 1 投票 0

在熊猫中进行多个字符串清理

我正在清理包含以下位置的数据框中的列:纽约纽约,纽约纽约美国拉斯维加斯,内华达州拉斯维加斯,内华达州,美国拉斯维加斯北部,美国我该如何清理...

回答 1 投票 -1

熊猫清理

我有一个这种格式的excel文件,我正在尝试在Pandas中读取它并清理它:我在read_excel文件中读取并从第7行开始创建一个多索引级别([2013,2016,2017 ...])。 ..

回答 1 投票 -4

R为每个组取最小列数

样本数据数据= data.frame(id = c(1,1,2,2,3,3,4,4,5,5),得分= c(10,6,1,7,6,0,8) ,5,5,1),WANT = c(6,6,1,1,0,0,5,5,1,1))目的是使新栏目WANT等于得分的最小值。 。

回答 1 投票 1

Pandas阈值数据序列基于模式的长度

我有这个数据帧A 0 -2 1 0 2 2 3 2 4 0 5 0 6 0 7 0 8 0 9 0 10 0 11 0 12 2 13 2 14 2 15 2 16 2 17 3 18 2 19 0 20 2 21 2 22 2它的情节是这样的我...

回答 2 投票 1

将行折叠到每个集合中最低的完整行

我正在清理一个巨大的数据集,它来自于在PDF上使用tabulizer()。列被正确描绘,但我有很多行,其中原始的一个单元格是巨大的,tabulizer ...

回答 1 投票 0

如何根据另一个表的时间范围匹配值?

我有两个表如下:table_A x | date 1 03/06 1 03/15 2 12/04 3 06/23 3 10/05 table_B x | y | start_date | end_date 1 a 03/02 03/08 1 b 03/09 03/20 1 c ...

回答 1 投票 1

将函数应用于列标题包含特定字符串的数据框中的列

我有一个名为passenger_details的数据框,如下所示乘客年龄性别Commute_to_work Commute_mode Commute_time ... Passenger1 32男性我开车上班...

回答 1 投票 1

基于Tableau Prep中的两个字段进行重复数据删除

如果我有两个字段的以下数据,人员ID和操作日期:示例数据我想删除重复的ID行,但保留具有最新日期的行。我试过各种计算...

回答 3 投票 0

按县和年份汇总数据

我有一个看起来像这样的数据框:年

回答 3 投票 0

查找并打印其子元素具有相似值的所有行

我的数据集有以下字段:用户产品时间A 10 10-JAN B 14 10-JAN C 20 10-JAN A 12 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.