data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

[使用python的iBooks目录中的数据清理文件名

我正在尝试打印以.pdf结尾的指定目录中所有文件的列表,一旦运行,我想扩展它以打印出名为“ unnamed document”或...的文件数量。

回答 1 投票 0

从一个表中选择在另一表中具有相似数据的数据

我有一个非常不寻常的问题,涉及在SQL Server的两个单独的表中匹配具有相似值的数据。例如,我有两个表:第一个表包含以下数据:...

回答 1 投票 0

从文本中删除字符串并放入单独的列中

我正在尝试删除下面字符串中的经/纬度坐标,以将其放置在R中的两个单独的列“ lat”和“ long”中。任何帮助都是最大的...

回答 4 投票 1

如何用所有列作为文本清除CSV并将所有列中的某些字段替换为该列中最近的项目?

我想清理与此数据集相似的数据集,因为我有一个大型数据集,其中有5列以上,10000行。每列都有文本信息,我必须对其进行编码,然后将其发送到...

回答 2 投票 0

比较两列,并用数字替换NaN

for i在range(len(df1)-1):if(df1 ['overall_rating'] [i] == np.nan)和(df1 ['recommended'] [i] == 0):df1 [ 'overall_rating'] [i] = df1 ['overall_rating'] [i] .replace(np.nan,1)else:df1 ['...

回答 1 投票 0

如何在不使用python循环的情况下检测和转换列值的单位?

据我所知,Python循环很慢,因此最好使用pandas内置函数。在我的问题中,一列将具有不同的货币,我需要将其转换为美元。我该如何...

回答 1 投票 0

所有功能使用一个缩放器,每个功能使用一个缩放器?

我有一个具有30多个功能的时间序列。对于使用scikit进行预处理的学习,您通常是对每个功能使用一个缩放器,还是对所有应标准化/标准化的功能使用一个缩放器?

回答 1 投票 0

使用Numpy保存文件时如何保留哈希标签符号?

我正在从不需要的字符串中清除一些文本数据。我的文本数据在第一行中包含#,并且当我保存文件时,该文件将消失,因为它无法被Python读取。文本示例:@ peak,+ ID,#...

回答 1 投票 0

熊猫替换列中的值,但是to_replace参数是包含元组的元组

我正在解码NLSY 79中的值。它们是职业。每个行业都有许多职业。例如:从17到29的所有职业都属于农业,林业和渔业...

回答 2 投票 0

清理数据以创建一致的变量命名

我使用的是一组“混乱”的数据,其中在数据输入过程中没有对变量输入的控制。为了进行分析,我需要在类别中保持一致,并且... ...>

回答 1 投票 0

如何在pandas / python中使用属性查找和替换所有单元格

我无法找到特定于df单元内查找属性的任何信息。以下是没有真实姓名/组织的数据示例,但否则您会发现它很混乱。我是数据清理的新手...

回答 1 投票 0

如何使用Python过滤列中的特定字符串?

我有一个数据集,其中的一列包含STATE / UT名称,还有包含状态名称的“ Total”。现在我想用包含%Total%的文本过滤数据并删除那些行(下面是屏幕截图)可以...

回答 1 投票 0

如何根据另一重复值将字符串从另一行追加到另一行

我有一个数据集,其中包含多个重复的“电子邮件”字段,我想用作唯一ID。但是,每个重复项都包含有关我要编译并保留的用户'Tags'的唯一信息...

回答 1 投票 0

在类型为float或特定类型的Pandas中查找数据框的所有列?

我有一个数据框df,其中某些列的类型为float64,而其他列的对象为。由于混合的性质,我无法使用df.fillna('unknown')#getting错误“ ValueError:无法...

回答 3 投票 44

我如何过滤数据框中多个值的单个列

我有一个数据框,我想通过一个列中的多个值对其进行过滤,我该如何做到这一点?当我按奇异值进行过滤时,通常使用df_filtered = df [df ['column'] == ...

回答 1 投票 -1

我如何总结两列唯一值的行

我正在尝试在df中创建一个行汇总,例如:df1名称Ch1 Val1 A a x1 A a x2 A b x3 B c x4 B c x5 B d x6 ...到df2 ...

回答 2 投票 -1

使用正则表达式删除文档字符串的有效方法

我正在尝试创建一个脚本来删除文件夹中的所有文档字符串。为此,我想使正则表达式尽可能高效。我从这个开始:import re doc_reg = r'(class | def)(。+)...

回答 1 投票 0

合并/合并/合并一个数据集中的两列,忽略NA

我是R新手,需要数据清理方面的帮助。在我的数据集中(称为“调查”),我想将两列合并/合并/合并(但是):“性别”和“ Geschlecht”列应该是一列...

回答 3 投票 1

合并/合并/合并一个数据集中的两列,忽略NA

我是R新手,需要数据清理方面的帮助。在我的数据集中(称为“调查”),我想将两列合并/合并/合并(但是):“性别”和“ Geschlecht”列应该是一列...

回答 2 投票 1

如何找到将一列拆分为两个新列的行?

我正在尝试通过DataFrame进行清理,并遇到了一些不寻常的元素。在下面发布的同一结果列中表示两个测试值。我想拆分...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.