data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

丢弃非唯一变量

假设我有一个小标题:#一个小标题:27 x 4#组:Var [27] PD Var P`R ^ 2` ... ...> ] >>

回答 1 投票 0

替换pandas数据框中多个列的列特定范围之外的值

我是熊猫的新手,我想清理包含许多列的数据框。我想将值保留在特定于每个列的范围内,例如,对于名为“ Age”的列,我想保留值...

回答 1 投票 1

R-如何以更有效的方式清洁REGEX

人。我是R的初学者,在尝试提高数据清理代码效率时遇到了一些困难。我基本上有一个小标题,其中有几列带有REGEX字符(“ R $” ...

回答 1 投票 0

当从excel转到R时,从数字的开头删除0。如何防止这种情况发生?

我有一系列存储在excel中的邮政编码(不是我的选择),我需要导入到R中,但是要保留使用匹配功能的能力,我需要以多数开头的“ 0”。 ..

回答 1 投票 0

如何匹配R中不同列中的数据?

我的数据集简化如下:有多个客户,每个客户可能有几笔贷款。至少具有1个LOAN_DEFAULT的客户被标记为CUSTOMER_DEFAULT,并且DEFAULT_DATE ...

回答 1 投票 0

如何为每日数据大小变化创建动态INT变量

每天我都会收到来自不同供应商的许多不同文件,并且大小差异很大。我正在寻找一些动态代码,这些代码将决定所有文件中的相关内容。我想要...

回答 1 投票 0

使用Tidyverse在R中将连续变量重新编码为具有*特定类别的类别

[第一次问一个问题,但我会尝试按书讲:)这个问题很简单,但是我在SO的任何地方都找不到我想要的东西。我发现这个有用的答案...

回答 1 投票 0

从数据框中删除不包含特定长度字符串的行

我有一个数据框,其中包含一列,其字符串形式为XXX / XX / XXX。我想删除'/'之间的字符串长度不等于2的所有行。我得到一个“钥匙...

回答 2 投票 2

合并和写入过滤后的数据的问题

我从更大的.csv文件中提供了一些经过过滤的数据(使用dplyr)。我打算以此为独立。线性回归模型中的变量,我也想将这些列和...

回答 1 投票 0

将行值转换为R中的单独列

我有一个数据集,该数据集提取感兴趣的变量,但在理想情况下将它们放在单独的列中时,将它们按行排列。看起来像这个GEOID NAME VARIABLE VALUE 00601 ...

回答 1 投票 0

如何从JSON文件中剥离所有HTML内容?

我想通过丢弃HTML标记中包含的所有文本(包括标记本身)来清理错误提取HTML内容的JSON文件。我试过这个功能:def stripIt(s):...

回答 2 投票 1

根据其他列的条件填充空值

我想根据第二列的值填充第一列的Null值。 (例如)对于col2中的“ Apples”,在col1中Nan的值应为12。对于“ Vegies”,在...

回答 1 投票 0

从pyspark数据框中删除空列

我有一个非常脏的csv,其中有几列只有空值。我想删除它们。我正在尝试选择该列中的空值计数不相等的所有列...

回答 2 投票 0

如何在pandas数据框的所有列中搜索模式,以及如何将其复制到另一列中

我的数据框有问题。我使用表格从pdf文件中导入了该文件,经过多次修改后,我达到了清理的水平,问题是某些数据已转移到...

回答 1 投票 0

使用条件插入缺失值字符串(pandas DataFrame)

Kaggle数据集(正在运行)-纽约Airbnb,它使用原始数据代码创建,以便更好地解释问题`airbnb = pd.read_csv(“ https://raw.githubusercontent.com/rafagarciac/Airbnb_NYC -...] >

回答 3 投票 0

如何从具有'?'的数据框中替换或删除数据?在R中吗?

我有一个数据集,其中很少有数据是“?”(请参见下图以供参考),工作类只有一个“?”在此示例数据中年龄工作类fnlwgt教育education_num marital_status ...

回答 1 投票 0

根据频率删除列中的单词

我有一个NLP项目,我想删除在关键字中仅出现一次的单词。也就是说,对于每一行,我都有一个关键字及其频率的列表。我想要...

回答 2 投票 -1

如何从文本中删除这些脚注

[好,所以我对RStudio的经验很少,我已经使用Google Studio进行了数小时的搜索,而我已经受够了-我不再关心自己自行解决这个问题的自豪感,我只是想做到这一点。我想要...

回答 1 投票 0

仅保留R中列中的某些值

我本质上是试图通过我只想要的邮政编码来过滤这个庞大的美国人口普查数据框。我正在使用tidycensus以便尽可能具体。 GEOID NAME变量值

回答 1 投票 0


© www.soinside.com 2019 - 2024. All rights reserved.