data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

如何在 R 中循环命名列表?

我正在模拟不同参数值的模型。本质上,我获得了包含多个数据帧的列表对象结果。 图书馆(大众) 模型_测试版 <- 0 model_se <- 0 model_p ...

回答 1 投票 0

标准化列中的不同时间格式

我有一个如下所示的数据框: 数据 <- data.frame(PROG_START = c("Tuesday, October 1, 2019", "1682294400")) > 打印(数据) 程序启动 1 星期二,

回答 1 投票 0

基于多列 pandas 的分组依据和总和的运行总计

我正在使用以下数据集,但在根据团队 ID 计算总分时遇到了麻烦。一支球队可以是主场也可以是客场,我正在计算他们的总计......

回答 1 投票 0

如何选择分类特征和数值特征来运行训练测试?

我试图连接两个不同长度的特征列表,这导致了 ValueError,因为两个列表的形状无法一起广播。我试图选择

回答 1 投票 0

在值和 NA 的行顺序序列中寻找中断模式

我正在使用一个数据集,其中每一行代表单个使用服务的位置。这也隐式地跟踪某人是否使用服务,因为如果他们不使用服务,则该列的值...

回答 2 投票 0

在 R 中寻找值和 NA 的行序列中的中断模式

我正在使用 R 中的数据集,其中每一行代表单个使用服务的位置。这也隐式地跟踪某人是否使用服务,因为如果他们不使用服务,则列值...

回答 1 投票 0

排查函数“数字表达式有 6 个元素:仅使用第一个元素”中的错误

我有以下示例数据 示例_数据 <- data.frame( ID = 1:6, Month.Of.birth = c("September", "April", "December", "June", "April", &q...

回答 1 投票 0

大规模重新标记避难所标记数据

假设我有以下由 tibble 和 Haven 包制作的 tibble: 图书馆(小标题) 图书馆(避风港) # 创建数值 价值观 <- c(1:5) # Combine values and colors into a named ...

回答 1 投票 0

如何使用 pyspark 根据间隙总和插入缺失值?

我有一个包含四个字段的时间序列数据集,例如:user_id、timestamp、miles 和total_mileage。英里是在一个时间步长内行驶的英里数,total_mileage 是汽车的里程......

回答 1 投票 0

根据某些规则修改数据框的列

我正在处理下一个示例,以便将一些想法应用于随机过程。假设我有一个数据框,如下所示: 国内流离失所者<-sort(rep(c("A","B","C",&

回答 1 投票 0

根据 Kimball 的说法,处理缺失数据的最佳实践是什么?

我有一个包含下表的数据库: 客户、发票、推销员、目标。 关心我的问题的是客户、发票。 发票中使用了客户 ID,但...

回答 2 投票 0

将 Excel 表格列(并非全部)转换为行 - 长到宽的转换

需要将Excel表格的列转换为行。我尝试将数据透视表的值转换为文本,但找不到用其基础数据替换值字段的方法(显示为 te...

回答 1 投票 0

从数字/文本列计算秒,表示时间(以小时/分钟/秒为单位)

在Power Query中我有一个列,例如看起来像这样 9小时8分4秒 这意味着 9 小时 8 分 4 秒。现在的挑战是我想将列中的这个值转换为su...

回答 2 投票 0

如何使用 pandas 将一列的随机行插入到另一列?`

提前感谢您的帮助和时间。 以下是相关信息: 亚洲 阿富汗 5,000 约旦 1,188 沙特阿拉伯 619 巴林 8 科威特 162 非洲

回答 1 投票 0

Excel Power Query 如何添加新列确定最近和第二个最近日期(当前与之前)

我有一个数据集,其中包含带有某些字段的报告日期。我想使用 Excel 强力查询添加一列(例如状态),确定最近的日期(例如 3/1/2022)并分配“Curr...

回答 2 投票 0

如何按两列分组并列出另外两列的唯一值?

我有这个csv: 汽车颜色代码城市 法拉利粉色 01 LA 法拉利红02 LA 兰博黄09德克萨斯州 兰博橙 08 德克萨斯州 我希望在 powerbi、grou 中有这种 groupby...

回答 1 投票 0

Power Query 对每种颜色和每种尺寸求和,返回可用尺寸列表上的值

我有一份衬衫颜色和建议尺寸的列表。我想在查询中创建一个新列,并根据过滤后的元素创建一个列表值(我不知道如何解释...

回答 1 投票 0

如何在 powerquery 中将数字转换为序数形式

有没有办法在powerquery中将排名数字转换为序数形式。 例如,排名:1、2、3、4、5、31、52 等。应显示为 1st、2nd、3rd、4th、5th、31st 52nd。 谢谢!

回答 2 投票 0

如何标准化列中的值

让我们采用具有以下内容的相同数据集: 年份 制造商 型号 内饰 车身变速箱 Vin 状态 状况 2015 蒂亚索兰托 LX SUV 自动 5xyk ca 5.0 2015 蒂亚·索伦...

回答 1 投票 0

寻求用于 CSV 数据分析的检索增强生成 (RAG) 工具的建议

在数据工程任务上花费了大量时间后,我正在寻找 RAG 工具或支持 CSV 文件的类似技术。我的项目涉及提取特定条件的信息......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.