数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。
每当我导入数据时,我想检查是否有一行只是重复的标题,或者是否在某些列中发生这种情况。我知道如何很好地为NA或空值,但......
所以基本上,我一直在尝试根据另一列填充列的nan值。比方说,我有一个名为''适应''的专栏(意思是某个房子有多少人可以...
我正在尝试根据表中的merchant_id添加10行。这是原始表 - id email trend_type 1 [email protected] 2 [email protected]这就是我想要创建的 - id ...
我正在使用以下示例的数据框我想要实现的是基于ColA组合2个数据帧,并且ColC中的值应该在每个列之间匹配(即检查...
我从维基百科页面上删了一张桌子,接下来我要清理数据。我已经将数据转换为Pandas格式,现在我在清理数据时遇到了一些问题以下是代码我...
清理数据:如何遍历列表查找项目是否包含字符串,空格或空白,并在Python中删除该项目
我试图遍历一个数据列表来清理它。这是列表的一小部分:lines = ['Wirkstoffliste 1 - ','','','Gaschromatographie(GC)','LOQ','[mg / kg]','Acibenzolar-S -...
这里的问题与我几乎一个月前提出的另一个问题的相同类型的文件有关(我需要拆分一个地震文件,以便我有多个子文件)。我现在的目标是......
我有一些列与一些值相关联。我想给每个列(a和b)赋值(1和2)并将它们放在行中。以下是更好地了解转型的代码:#...
我负责一个OLAP数据库,我注意到一些清洁会带来一些好处。我的第一个分析是在大约50个表中删除了500百万行。还有这个 ...
我有一个dataframe列如下:name_col“Anna”“c(\”Anna \“,\ n \”Billy \“,\ n \”Fanny \“)”“c(\”Tom \“,\”Tim \“\ n)”“Minnie”我想获取上一栏中每一行的最后一个字符串,...
我试图通过清理我和朋友之间的Whatsapp聊天中的一些数据来熟悉R。到目前为止,我已将.txt转换为.csv,但我有一个问题。我想要我的排......
> str(data $ Installs)$ Installs:因子w / 21 level“”,“0 +”,“1 +”,“1,000 +”,..:8 20 15 18 11 17 17 5 5 8 ... db $ Installs = as.character(gsub(“\\ +”,“”,db $ Installs))str(db $ Installs)...
使用grepl进行数据清理[:alpha:]:[:punct:]
只是使用grepl错误。需要结合[:alpha:]:[:punct:]:在grepl中用[:alpha:] [:punct:]查找/删除行。提供数据。需要找到punct和alpha数据来放弃角色和......
我有一个数据框,其中包含'title'和'cuisine'列,其中包含多个相似类别的值。如何解决它们并转换为数字形式?另外如何在...中替换nan值
我目前有两个专栏:Word Sentence apple [this,fruit,is,an,apple] orange [orange,is,this,fruit] grape [this,is,grape] strawberry [strawberry,is,...
我使用以下代码(LINK)来清除数据框架中假设的df数据的潜在麻烦方面:dataframe
我有一个脚本的文本文件,并按如下顺序排列:0“字符一”“字符一对话。” 1个“字符二”“字符二的对话。” 2“角色一”“角色对话......
我有一个csv文件,其中列都在一行中,用引号括起来并用逗号分隔。列在一行中。如果有2个,则用逗号分隔csv中的行...
我有一个平衡的面板数据表,其中包含数千家公司,每家公司都有两年的观察结果(1和2)。对于数据清理过程,我需要排除有移位的观察...
我有一个看起来像这样的表 - 日期名称值项目01-03-2019 xyz 900 NaN NaN NaN 900刷02-03-2019 abc 1200 ...