data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

用多列中的多个变量整理数据框

我正在使用“熔化”数据框,尽管也许“火山”是对它更合适的描述。 基本上,此数据框中有两列违反了第一条规则...

回答 1 投票 0

使用 Awk 从 Markdown 链接字符串中提取基本名称

这是一个字符串,我想从中提取文件名部分,但我无法做到。 所以请帮助我。 这是字符串,有很多很多类似的字符串,如下所示: ![我...

回答 1 投票 0

使用awk以先进和硬核的方法从尴尬的字符串中提取所需的字符串部分?

这是一个字符串,我想从中提取文件名部分,但我无法做到。 所以请帮助我。 这是字符串,有很多很多类似的字符串,如下所示: ![我...

回答 1 投票 0

合并列名称不同的列

我有一个 df 看起来有点像下面这样: Var1_E1_C1 <- c(1, NA, NA, 1, 1) Var1_E1_C2 <- c(NA, 3, 2, NA, NA) Var23_E2_C1 <- c(NA,2 , NA, 1, 1) Var23_E2_C2 <- c(3,NA , 1, NA, NA)

回答 1 投票 0

我有一长串客户购买的商品的数据列表,但我想将数据分组。我该怎么做?

这是一个很长的混合项目列表,我想对它们进行分类。除了手动对它们进行分类之外,我怎样才能在 Excel 上做到这一点,这几乎是不可能的 尝试过条件语句,但我不...

回答 1 投票 0

如何将数据清理纳入训练模型中

如果我清理数据并将中值归入 NaN 值,我是否应该以某种方式将其合并到将用于测试数据的模型中?也就是说,我的测试数据不需要...

回答 1 投票 0

在数据清理之前分割多行文本。分割 Oracle 用户表单数据的选项是什么?

我是一名医生,刚刚开始学习Python,所以如果我误用了一些术语,请原谅。 我们的电子健康系统使用 Oracle 用户表单。 血压数据显示在文本字段中,并且可以...

回答 1 投票 0

如何清理从 JSON 转换为 Pandas DataFrame 的数据?

我有一个 JSON 列表,我使用以下代码对其进行了规范化: json_nor = pd.json_normalize(数据, max_level=1) pd.set_option('display.max_colwidth', None) #查看 json_nor json_nor 这就是结果

回答 1 投票 0

R 函数,用于根据单行条件为分组数据赋值

我想根据分组变量中的值创建一个新的数据列。 例如,给定以下数据集,我想将组中的所有行指定为 TRUE...

回答 2 投票 0

机器学习部署和测试问题

我目前正在构建一个机器学习模型,并使用Python Flask将其与网站集成进行部署。我已经成功训练了模型并将数据处理成特征......

回答 1 投票 0

如何使用python或Power BI清理csv文件中某一列中的杂乱数据

我正在制作一个仪表板,向员工(现场技术人员)展示高效的工作时间。 我有一个从应用程序导出的 CSV 文件,技术人员在执行任务时使用该文件...

回答 1 投票 0

如何计算本应为一个的两个不同条目的所有实例?

如果这是一个愚蠢的问题,我深表歉意,但我最近开始学习 SQL,并且目前正在尝试清理数据集。 然而,有些条目有错误,比如在文本后面有一个“ ”(我...

回答 1 投票 0

Raggregate()和distinct()函数仅清理我的一些数据

我目前正在努力尝试估算或删除 R 中大部分重复的行......除了三列。我正在处理死亡率数据集,其中有国家/年龄组/年龄...

回答 1 投票 0

如何在 MySQL 中将字符串 'April 9, 2013' 转换为 'dd-mm-yyyy' 格式

我一直在尝试将由“2013年4月9日”格式的日期组成的列转换为“%d/%m/%Y”格式,这将导致“09-04-2013”。 我尝试过使用 STR_TO_DATE 函数...

回答 1 投票 0

根据不同列中的值删除重复的(几乎)行

考虑 SQL Server 中的以下结果: 身份证检查 ------------ 9052N 9052Y 2049 北 2049 是 6940 牛顿 6940 是 7941 号 8118 号 8187 号 如何删除重复的 ID 行并保留

回答 1 投票 0

PowerBI - 如何将答案列表转换为列答案

在PowerBI中,我有一个数据表,其中包括问题列和关联的答案列。 在答案栏中有混合列表(列表可能包含一个或多个答案)和非l...

回答 1 投票 0

如何在 R 中循环命名列表?

我正在模拟不同参数值的模型。本质上,我获得了包含多个数据帧的列表对象结果。 图书馆(大众) 模型_测试版 <- 0 model_se <- 0 model_p ...

回答 1 投票 0

标准化列中的不同时间格式

我有一个如下所示的数据框: 数据 <- data.frame(PROG_START = c("Tuesday, October 1, 2019", "1682294400")) > 打印(数据) 程序启动 1 星期二,

回答 1 投票 0

基于多列 pandas 的分组依据和总和的运行总计

我正在使用以下数据集,但在根据团队 ID 计算总分时遇到了麻烦。一支球队可以是主场也可以是客场,我正在计算他们的总计......

回答 1 投票 0

如何选择分类特征和数值特征来运行训练测试?

我试图连接两个不同长度的特征列表,这导致了 ValueError,因为两个列表的形状无法一起广播。我试图选择

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.