data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

机器学习部署和测试问题

我目前正在构建一个机器学习模型,并使用Python Flask将其与网站集成进行部署。我已经成功训练了模型并将数据处理成特征......

回答 1 投票 0

如何使用python或Power BI清理csv文件中某一列中的杂乱数据

我正在制作一个仪表板,向员工(现场技术人员)展示高效的工作时间。 我有一个从应用程序导出的 CSV 文件,技术人员在执行任务时使用该文件...

回答 1 投票 0

如何计算本应为一个的两个不同条目的所有实例?

如果这是一个愚蠢的问题,我深表歉意,但我最近开始学习 SQL,并且目前正在尝试清理数据集。 然而,有些条目有错误,比如在文本后面有一个“ ”(我...

回答 1 投票 0

Raggregate()和distinct()函数仅清理我的一些数据

我目前正在努力尝试估算或删除 R 中大部分重复的行......除了三列。我正在处理死亡率数据集,其中有国家/年龄组/年龄...

回答 1 投票 0

如何在 MySQL 中将字符串 'April 9, 2013' 转换为 'dd-mm-yyyy' 格式

我一直在尝试将由“2013年4月9日”格式的日期组成的列转换为“%d/%m/%Y”格式,这将导致“09-04-2013”。 我尝试过使用 STR_TO_DATE 函数...

回答 1 投票 0

根据不同列中的值删除重复的(几乎)行

考虑 SQL Server 中的以下结果: 身份证检查 ------------ 9052N 9052Y 2049 北 2049 是 6940 牛顿 6940 是 7941 号 8118 号 8187 号 如何删除重复的 ID 行并保留

回答 1 投票 0

PowerBI - 如何将答案列表转换为列答案

在PowerBI中,我有一个数据表,其中包括问题列和关联的答案列。 在答案栏中有混合列表(列表可能包含一个或多个答案)和非l...

回答 1 投票 0

如何在 R 中循环命名列表?

我正在模拟不同参数值的模型。本质上,我获得了包含多个数据帧的列表对象结果。 图书馆(大众) 模型_测试版 <- 0 model_se <- 0 model_p ...

回答 1 投票 0

标准化列中的不同时间格式

我有一个如下所示的数据框: 数据 <- data.frame(PROG_START = c("Tuesday, October 1, 2019", "1682294400")) > 打印(数据) 程序启动 1 星期二,

回答 1 投票 0

基于多列 pandas 的分组依据和总和的运行总计

我正在使用以下数据集,但在根据团队 ID 计算总分时遇到了麻烦。一支球队可以是主场也可以是客场,我正在计算他们的总计......

回答 1 投票 0

如何选择分类特征和数值特征来运行训练测试?

我试图连接两个不同长度的特征列表,这导致了 ValueError,因为两个列表的形状无法一起广播。我试图选择

回答 1 投票 0

在值和 NA 的行顺序序列中寻找中断模式

我正在使用一个数据集,其中每一行代表单个使用服务的位置。这也隐式地跟踪某人是否使用服务,因为如果他们不使用服务,则该列的值...

回答 2 投票 0

在 R 中寻找值和 NA 的行序列中的中断模式

我正在使用 R 中的数据集,其中每一行代表单个使用服务的位置。这也隐式地跟踪某人是否使用服务,因为如果他们不使用服务,则列值...

回答 1 投票 0

排查函数“数字表达式有 6 个元素:仅使用第一个元素”中的错误

我有以下示例数据 示例_数据 <- data.frame( ID = 1:6, Month.Of.birth = c("September", "April", "December", "June", "April", &q...

回答 1 投票 0

大规模重新标记避难所标记数据

假设我有以下由 tibble 和 Haven 包制作的 tibble: 图书馆(小标题) 图书馆(避风港) # 创建数值 价值观 <- c(1:5) # Combine values and colors into a named ...

回答 1 投票 0

如何使用 pyspark 根据间隙总和插入缺失值?

我有一个包含四个字段的时间序列数据集,例如:user_id、timestamp、miles 和total_mileage。英里是在一个时间步长内行驶的英里数,total_mileage 是汽车的里程......

回答 1 投票 0

根据某些规则修改数据框的列

我正在处理下一个示例,以便将一些想法应用于随机过程。假设我有一个数据框,如下所示: 国内流离失所者<-sort(rep(c("A","B","C",&

回答 1 投票 0

根据 Kimball 的说法,处理缺失数据的最佳实践是什么?

我有一个包含下表的数据库: 客户、发票、推销员、目标。 关心我的问题的是客户、发票。 发票中使用了客户 ID,但...

回答 2 投票 0

将 Excel 表格列(并非全部)转换为行 - 长到宽的转换

需要将Excel表格的列转换为行。我尝试将数据透视表的值转换为文本,但找不到用其基础数据替换值字段的方法(显示为 te...

回答 1 投票 0

从数字/文本列计算秒,表示时间(以小时/分钟/秒为单位)

在Power Query中我有一个列,例如看起来像这样 9小时8分4秒 这意味着 9 小时 8 分 4 秒。现在的挑战是我想将列中的这个值转换为su...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.