data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

有没有一种简单的方法可以在对其中一列的值进行分组的同时获得数据框的转置? [重复]

我有以下数据框: df <- data.frame(group = c("A","A","A","B","B","C","C","C"), year = c(&

回答 1 投票 0

为什么在错误消息中发现了换行符,而实际上没有换行符?

此片段来自一个代码,旨在读取包含一百万个 pi 数字的文本文件,然后将所有六位连续数字提取到一个列表中(包括非唯一模式,以及...

回答 1 投票 0

从 Pandas Dataframe 的文本记录中删除 _x000D_

我有一个从 Excel 文件导入的 Pandas 数据框。其中一列如下所示: 关联 ========= A-324 A-76_x000D_ A-676 A-95 A-95_x00D_n A-495 ... 我能够使用重新...

回答 3 投票 0

停止 tidyverse 在 lapply 中重命名列

当我在 lapply() 中使用 group_by(col) 时,列 a 和 b 被重命名为 get(col)。我该如何阻止这种情况发生?我想在新对象中保留原始列名。 磁共振RE 输入 df...

回答 2 投票 0

使用 dax 查找 power bi 中当前员工的数量

我有一个这样的员工表。 雇员表 我的要求是使用 dax 统计组织中的现有员工。 在上表中,员工 ID 1001 有 3 行数据(即...

回答 1 投票 0

尝试完成 R 语句,出现错误[已关闭]

我正在做一项作业并尝试创建 R 语句,但不断出现错误。我花了很长时间试图弄清楚它。以下陈述是我所拥有的,并且几乎有错误......

回答 1 投票 0

自动编码器并没有改善我的神经网络损失

所以我试图通过使用自动编码器进行预处理来改善我的神经网络结果。数据看起来或多或少像这样: A栏 B栏 C栏 D 栏 目标 -70 -76 -76 -80 1 -9...

回答 1 投票 0

如何在正则表达式Python中获取匹配的组并将其保存为新列

我有一个数据框,我想知道是否有提及我在 DocumentIdentifier 列中查找的公司。也许应该通过正则表达式组来完成,但我不确定......

回答 1 投票 0

如何从允许受试者选择多个答案的问题中获得个体种族变量的百分比细分?

我运行此代码来获取样本中的种族细分: 数据集%>% group_by(种族) %>% 总结(百分比 = 100 * n()/nrow(数据集)) 然而,因为受试者能够...

回答 1 投票 0

R:在具有许多列名称的 Dataframe 中将数据从宽转为长

我有一个数据集,反映了一小群人(~30)对练习问题的回答。该数据集非常广泛,包含一年中每天发送的问题的数据。对于每个问题...

回答 1 投票 0

DataFrame.interpolation() 在其源代码中如何工作?

由于我找不到 DataFrame.interpolation() 的“method”参数的单个方法的声明,我在这里询问: pandas 的 DataFrame.interpolation() 是如何工作的...

回答 1 投票 0

使用中点假设累积年份之间的字符串

我有一个关于人员技能以及他们使用这些技能的年份的数据集。我想在他们使用这些技能的年份之间补充这些技能,因为我认为他们在“使用和

回答 1 投票 0

删除数字内的点

我有以下 JSON 类型文件: [{“sid”:“s-mtl-1”,“材料编号”:“0.4440”,“材料W编号”:“W0.4440”,“管子价格”:&

回答 2 投票 0

如何使用双pivot_longer解决与名称修复startegy相关的错误

我一直在尝试使用以下代码将单独的列转换为长格式: mtcars %>% ivot_longer(1:3,values_to = '值') %>% 枢轴_更长(6:7,values_to ='值...

回答 1 投票 0

尝试在 Power BI 中运行 Python 脚本时出错

尝试在 Power BI 中运行 python 脚本时,我不断收到以下错误。 我尝试卸载并重新安装所有 numpy 、 pandas 但无济于事。 请提供一些帮助,我将不胜感激...

回答 2 投票 0

颜色必须是 aRGB 十六进制值?

所以我之前为污染数据集运行了一些代码,并且代码运行得很好。现在,我收到此错误: 颜色必须是 aRGB 十六进制值 我唯一的代码行如下:

回答 4 投票 0

当 df 的目标单元格中的值不为 NA 时,如何组合 df 的行和列名称

我有一个像这样的 df: df1 <- data.frame(c(3,NA,5), c(NA, NA, 3), c(3, 2, NA)) names(df1) <- c('number1', 'number2', 'number3') rownames(df1) <- c('siteA', 'siteB', 'siteC') I want to mak...

回答 4 投票 0

如何在R中将纵向数据从宽格式转换为长格式?

这是我的数据的基本信息,它是一个纵向数据集。 变量有:ID、年龄、性别、Q1AnswerTime1、Q2AnswerTime1、Q3AnswerTime1、Q1AnswerTime2、Q2AnswerTime2、Q3AnswerTim...

回答 1 投票 0

查找两个数据框中的公共列并仅保留两个数据框中公共的列

我有一个包含基因名称的数据集。在该数据集中,我想从另外两个数据集中提取它们,即 gd 和 cd。 common_genes 是一个向量,其中包含我的基因名称

回答 1 投票 0

如何用不同元素匹配数据集中的多个元素? (例如年份和公司)

我正在处理由 CSV 文件组成的数据集,我的任务是对所有特定数据点进行求和,以便将它们视为一个而不是多个。举个例子,每条记录都...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.