data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

如何同时使用 group_by 和 mutate 来计算某些列的平均值?

我正在尝试计算四组的平均值。我的数据框看起来类似于以下内容: 性别 <- c("F", "F", "M", "M", "F") Phe...

回答 1 投票 0

不同文件中不同列名的数据清洗

假设创建一个 AI 工具,用户在其中上传文件到工具中,工具给出输出。 当数据未知时,请帮助我进行自动数据清理的方法

回答 0 投票 0

清理非结构化 PDF 数据

[原始数据] (https://i.stack.imgur.com/CYBgB.png) 给出的是包含大学学生安置详细信息的 PDF 数据。 它是完全非结构化的形式,需要清理......

回答 0 投票 0

如何使用我的 Python 脚本格式化数据以修复每个 ID 之间的错位问题,以便数据在 CSV 电子表格中一致显示?

对于上下文,我编写了这段 Python 代码,在我处理 JSON 数据后以规范化格式将 JSON 数据导出到 CSV 文件(此时,我只导出两个 ID 用于测试目的): 将熊猫导入为 pd

回答 0 投票 0

将矩阵字符值强制转换为数值

我有一个正在分析的历史房屋价值矩阵,在通过转置对象创建矩阵后,我无法将矩阵的值转换为数字而不是字符。我也...

回答 1 投票 0

我正在尝试将相似的列组合成行

我有一个非常混乱的数据框。 df 看起来像这样: student_id 日期测量级别 measure.1 level.1 .... 804322 9/2/2022 一些更严格的字符串...

回答 1 投票 0

如何去除 pandas 列中的重复值?

我会展示我的 csv。我正在使用来自 python 的熊猫并捆绑清理我的 csv。 这是我的问题 我希望我的结果看起来像这样 我知道我只需要摆脱我认为的一些重复项,但我...

回答 2 投票 0

如何使用 Trim 功能清理这些数据?

这是数据集 已尝试将 trim、clean、替换与 char160 组合使用但不起作用。 单独使用每个公式都不起作用。 只有第一个词改变了下面的其他词......

回答 1 投票 0

使用 Python 导入具有可变结构的 DataFrame XLS

几天前我收到了一个有点难以处理的数据集,我在这个数据集中看到的唯一固定的是记录本身总是从第9行开始并且名称......

回答 1 投票 0

从列 r

我正在寻找从数据列中删除特定单词(例如“co”“INC”等)而不从同一列中的其他单词中删除相同的字母。换句话说,我...

回答 2 投票 0

R 分组依据与最常见的因素相关联的每个分组元素

我想按列 a 分组,并为每个唯一的 a 选择最常见的因子 b。例如: tibble(a = c(1,1,1,2,2,2), b = factor(c('猫', '狗', '猫', '猫', '狗', '狗')) )%>% 重构...

回答 0 投票 0

如何根据 Pandas 数据框中的 NaN 模式删除特定的 NaN 值,同时保留其他值?

我有一个这样的数据框: 它遵循的模式是,如果 A 列的前 n 行被填充,那么接下来的 n 行将被“填充”(填充的单元格可能具有 NaN 值...

回答 0 投票 0

根据实际行的单元格中数组中的值创建重复行

我有一个数据集,每一行都有一个包含元素数组的单元格。我想将该数组分解为单独的元素并将行复制与数组长度一样多的次数并填充数组元素...

回答 3 投票 0

在 R 上重新排序数据

我有一个 Excel 工作簿,如下所示: 表格1 我想重新排序表格,使其看起来像这样: 表 2 在 R 上重新排列表格的代码是什么? 我还没有真正尝试过我...

回答 0 投票 0

在 R 中编写一个函数来处理多个 if else 重新编码语句

我有一个庞大的物质使用数据集,测量过去一周的每日使用情况。我正在尝试编写一个可以轻松处理它的函数。我需要完成两个步骤: 写一个重新编码

回答 2 投票 0

加载和清理一个非常大的 JSON 文件

我正在使用 Snapshot Serengeti 数据集进行图像分类项目。该数据集附带一个非常大的 JSON 文件 (5GB+),其中包含顶级键。我特别需要...

回答 1 投票 0

如何将脚本应用于文件夹中的所有文件?

我有几个 txt 文件已成功转换为 csv 文件,现在我想以相同的方式全部清理它们,但我的脚本在读取文件名时遇到问题。 首先我会...

回答 1 投票 0

如何使用 OpenRefine 删除或合并几乎重复的名称?

我有 250,000 行名字和姓氏。名字和姓氏在不同的列中,但它们可能不一致,例如: 约翰·史密斯 约翰·史密斯 约翰·史密斯 约翰·史密斯 我如何识别这些

回答 1 投票 0

如何只保留一列中与 R 中另一列匹配的值?

这是我的 df: 自由<- data.frame( lifetime = c( "tobacco,alcohol,cannabis,cocaine,stim", "tobacco,alcohol,cannabis,cocaine,stim,inhal", "tobacco,alcohol,sti...

回答 0 投票 0

如何在 python 中使用 tabula 阅读 PDF 时删除“Nan”值?

我正在使用 tabula-py 在 python 中读取我的课程时间表 PDF 文件,返回值“数据”有很多我似乎无法清理的“nan”值。有人可以提出解决方案吗? 我应该使用

回答 2 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.