data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

数据透视——如何基于多列汇总数据?

我正在查看就立法作证的证人数量。我目前有一个这样的数据集: df <- data.frame(bill_number = c(1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 4, 4), witn...

回答 1 投票 0

如何对值求和,然后将其粘贴到同一分组功能查询中的另一行,依此类推

我在电量查询方面有2个问题需要解决,如下: 我制作了一个自定义列End Inv.,其计算方式为:End Inv= Begin Inv.+ Delta 但第二天开始 Inv。应该等于...

回答 1 投票 0

去除数据中的异常值,保持原始趋势

在我的情节中,你可以看到只有一些噪音。我尝试使用 scipy.signal savgol_filter,但趋势已经改变。我只是想消除这些噪音并使它们符合曲线。谢谢你。

回答 2 投票 0

去除数据中的噪音,保持原始趋势

在我的情节中,你可以看到只有一些噪音。我尝试使用 scipy.signal savgol_filter,但趋势已经改变。我只是想消除这些噪音并使它们符合曲线。谢谢你。

回答 1 投票 0

如何使用 SSIS 将列名称添加到没有列标题的平面文件中。

我有多个包含 126 列的平面文件,但每个文件都没有列名称。我应该如何使用 SSIS 将列名称添加到这些文件中。这些文件需要使用SS导入...

回答 2 投票 0

有R函数可以选择特定的行号吗?

我是学习 R 过程中的初学者,我有一个包含书名和作者的数据集,我将其用作清理数据的练习。在这个过程的一部分中,我想分离列&

回答 1 投票 0

折叠/将多行聚合为单行,并基于相同的 ID 共享百分比

我需要一些关于如何聚合行共享 ID 以获取百分比数据的建议/提示。 我的数据框格式为: id 县_1 国家/地区_2 国家/地区_3 .... 国家/地区_x sum_by_id 1 10 ...

回答 1 投票 0

在任意 X 年的年份之间插入相关字符串

我有一个人员技能数据集以及他们获得这些技能的年份。我有一个函数可以按照中点假设插入这些技能(这里很好地回答了“htt...

回答 1 投票 0

删除数据的某些部分

请问我该如何转这个数据 8,36,874 卢比/年 6,69,578 卢比/年 9,44,110 卢比/年 用 Pandas 转换为整数。 我想处理这些数据,但逗号“R”和“/yr”使其添加供我分析,请...

回答 1 投票 0

如何修剪数据框的 X% 顶部和底部(基于列)?

我有以下数据框: 设置.种子(3994) 瓦尔<- round(runif(n=30, min = 5, max= 300), digits=0) cat <- rep(c("A", "B", "C"), each= 10) date <- as.Date(...

回答 1 投票 0

通过将数据框中的某些列乘以单列来创建新列

嗨,我想通过将数据框中的某些列乘以 R 中的单个列来生成多个新列,并将新列附加到原始 df 中。 我的初始数据格式如下...

回答 2 投票 0

如何使用 pandas 删除 ' 后面的所有字符

我有由导演和演员组成的 IMDB 数据 - 然而,由于某种原因,在导演栏中也显示了演员的名字,尽管已经有一个单独的栏。我是

回答 1 投票 0

如何使用合并功能合并多个 CSV 文件

有人提出并回答了几个与我类似的问题,但是他们都使用了 pd.concat 函数,而我想使用合并函数或可以给我类似的东西...

回答 1 投票 0

难以正确清理薪资数据(生成NA)

我正在尝试清理下面小标题的工资栏: 最低工资 最高工资 65K 75K 65K 75K 65K 75K 56.3K 90.8K 61.7K 105K 45,360 84,240 我不知道如何使以上两个...

回答 1 投票 0

根据行过滤多个 csv 文件时出错

我有一个包含 20 个 csv 文件的文件夹。每个文件大约有 10 列和数千行。 csv 文件如下所示: 基因 p 值 XYZ 一个罐头 0.05 123 MM2 0.02 第456章 我...

回答 1 投票 0

R:向量长度不等于列数

我有不同长度的向量,如 3、7、9、19 等。我想使用这些向量来填充每行中的多个列。我总共有 19 列。 当向量长度小于 19 时,我会

回答 1 投票 0

什么被传递给变异和修改?

我对 R 相当陌生,但对编程本身并不陌生。我在这里使用我的代码的简化示例。我有一个包含三列(doc_id、tag_list、single_tag)的数据框,所有这些都是

回答 2 投票 0

尝试创建文件列表时出错

我有一个包含 20 个 csv 文件的文件夹。每个文件大约有 10 列和数千行。 csv 文件如下所示: 基因 p 值 XYZ 一个罐头 0.05 123 MM2 0.02 第456章 我...

回答 1 投票 0

Python - 从列表中删除具有相同名称但扩展名不同的项目

我有一个图片列表,对于每张 .jpg 格式的图片,我都有一个相应的同名 .mov 文件。我想删除所有仅具有相应 .jpg 文件的 .mov 文件,因为...

回答 1 投票 0

如何从 R 中的列中删除多余的值

我正在处理数据集,在日期列中,某些值也有字母。它是一个很大的数据集,所以我需要能够将其应用到整个列。 示例:'XVII) (2016'

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.