data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

使用Python根据单元格值删除Excel中的一行

我正在尝试先清理 Excel 文件,然后再将其发送到数据库进行计算。 默认情况下,当 Excel 报告从我们的系统 (NextGen) 导出时,它会附加一行计算...

回答 1 投票 0

比较两个数据集(我零经验)

我有 2 个数据框:NPI 和 COMPLETE。 NPI 有 6921 个 obs。 164 个变量,完整的是 116 个变量的 16412 个观测值。 NPI 是完成 ce 的同一完整参与者池的数据子集...

回答 1 投票 0

如何执行存储在临时表单元格中的SQL脚本?

我有一个相当复杂的动态 SQL 脚本,它将数十个脚本输出到临时表中。例如: 更新表 更改列 UPDATE mydb.sch.tbl SET zipcode = null 其中 col = ''; 阿尔特...

回答 1 投票 0

用于删除数据集中所有包含 -1 的行的 Python 代码

我有以下代码用于我要清理的数据集。我需要删除几个元素,但目前删除其中包含 -1 的任何行会导致一些挑战。我尝试过...

回答 1 投票 0

清理训练数据后如何清理测试数据?

理想情况下,我应该尽早(或至少在特征工程之前)将数据拆分为训练数据和测试数据。这样训练模型的过程就不会受到我所知道的影响......

回答 1 投票 0

如何使用 pandas 或 pandas 中的 upsert 函数根据最新的 df 内容更新行值

我有多个文件,其中包含 12 周的销售数据,我每个月都会收到它们。我将循环遍历该文件夹并将它们附加到一个 df 中。因为每月的文件包含过去的 12

回答 1 投票 0

这里如何不使用嵌套lapply?

使用以下代码检查日期格式是否与我的数据框的日期变量匹配: df%>% 选择(日期变量)%>% lapply(函数(x) x[!is.na(x)]) %>% 申请(

回答 2 投票 0

尝试生成一个在新数据帧下组织复杂情况的循环

我对 R 比较陌生,正在尝试准备一个数据集以将其合并到另一个数据集中。原始数据集filtered_datum中的每一行表示一个医疗并发症。 record_id 值阻止...

回答 1 投票 0

从某些列中获取唯一值并将其添加到现有列

示例数据: 数据 <- data.frame (meat = c("lamb, beef", "chicken, pork, beef", "venison, beef, lamb", "NA", "NA", "NA", "NA"...

回答 1 投票 0

如何使用 PowerQuery 自动过滤错误表

如何使用 Power Query 自动过滤错误表。我有这段代码可以扫描我的 PDF 文件以在 Excel 中提取我想要的表格。我想自动过滤掉...

回答 1 投票 0

使用 R 识别调查中的直线响应:即受访者对调查中的所有 11 个问题列出“1”或“2”

在 R 中,我的数据集由 11055 个 obs 组成。 12 个变量。将每个个体的观察结果分为 11 个组,并用其 RID 表示。举个例子,我的数据集的前几行......

回答 1 投票 0

如何使用函数计算结果来更新数据帧的子集?

Python 新手。传统上我会尝试通过循环迭代二维数组。然而,据我了解,从性能角度来看,在 python 中不推荐这样做。正确的方法是什么

回答 1 投票 0

清理excel中的数据

我正在尝试清理数据,我有第一列,我提取了城市代码,但有一个问题,我无法提取州代码,因为除了ma之外,没有其他方法可以提取它......

回答 1 投票 0

使用 RegEX (SQL) 进行电子邮件验证

我正在尝试使用 RegEX 在 SQL 中验证电子邮件以达到以下标准。 创建一个查询(使用运算符 LIKE)来搜索包含以下内容的所有电子邮件地址: 只有一个符号“@” 在...

回答 1 投票 0

Excel Power Query:如何一步向所有列添加数字

我正在尝试向多列中的所有行添加一个或多个数字。现在,我必须按住转换选项卡标准添加中的每一列并一一输入数字。因此,

回答 1 投票 0

如何根据条件删除R中的重复行?

我有以下数据: df <- data.frame(id = c("001", "001", "001", "002", "002", "003", "003"), x = c(...

回答 1 投票 0

使用 Python/Pandas 进行 CSV 数据清理

以下情况需要帮助: csv源文件中的Excel数据如下: 我想清理并重新排列它,使其看起来像: 根据要求添加凌乱和干净的字典 将 pandas 导入为 pd

回答 1 投票 0

如何去掉多余的逗号?

所以我有一个数据框,其中有一列,如下所示: 组合柱 , 在退回列表中 看起来不错 , 无效的语法 ,在退回列表中,语法无效 无效域名, , 无效 DNS 看起来不错...

回答 0 投票 0

在 R 中使用均值和 CI 进行更长时间的枢轴

为了制作一些系数图,我想我最终需要得到一个包含 5 列的结果数据框:var、attend、mean、ci_lower 和 ci_upper。 然而,我试图延长的方式

回答 1 投票 0

用中位数替换离群值时,为什么会出现“ValueError:列的长度必须与键相同”

我尝试在数据帧上运行此循环以消除异常值并将其替换为中位数,但我遇到了这个问题:“ValueError:列必须与键长度相同”。 这……

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.