data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

R中解压文件时,如何解决无文件错误?

1. 遇到的问题 这几天我遇到了一个很奇怪的错误。我写了一个循环来解压我磁盘里的几百个zip文件。起初一切都很好,但是在某些时候会卡住,并报出一个 ...

回答 1 投票 0

我是不是缺少一个可以逐行分割数据的分割函数?

**给出的 PPM 文件:** P3 3x4-image.ppm 3 4 255 0 0 0 255 255 255 0 0 0 255 255 255 0 0 255 255 255 0 0 255 255 255 0 0 255 255 255 0 0 255 255 255 255 试图。创建...

回答 1 投票 0

自动合并列,合并后的值用容器中的定界符分开。

我有一个大的数据框,其中很多列的列名中都有.。下面是我在下面的例子中的做法。#这和我们手上的df有点像

回答 2 投票 3

我是不是在循环上做错了什么?

我正在使用python做一些数据清洗,我已经使用datetime模块来分割日期时间,并试图创建另一列只有时间。我的脚本工作,但它只是把最后一列...。

回答 1 投票 0

如何消除Excel多行列中不需要的文字?

首先我很抱歉,如果这个问题在其他地方解决。无论如何,我最近下载了一个excel表格,上面有人们表示他们的种族。因此,如果你是亚洲人,你检查了 "亚洲"。当我下载...

回答 1 投票 -1

如何对R数据框中的所有变量进行归一化处理(除了作为因子的一个变量)。

我很难将max-min归一化函数应用于我的数据框架中的预测变量(30个),而不排除诊断变量(因为它是一个因素,不受......

回答 1 投票 0

如何在包含分组值的数据集上执行数据缩放标准化?

所以我有一个数据集,其中包含了用不同的给定求解器策略执行问题实例的结果。简化后的例子。

回答 1 投票 0

如何在Python Pandas中有条件地删除字符。

我有一个数据框如下:索引状态1 IPAMR-104.129.194.150-104.129.194.161;Clayment-STARR-65.115.39.42 2 Noti8nalMI-64.73.114.92-127.0.0.1 3 HSO_fm-dev-apps255-128.11......。

回答 2 投票 0

使用R,根据具有相同标识符的另一行的值替换一行中的值。

我想用R解决一个看似简单的问题,但我无法解决。我有以下数据:tmp town_id city_id flag 1 10500 111 1 2 15300 1110 1 ...。

回答 1 投票 0

在R中创建面板数据的比例变量(stateyear)

我有1990年以来各州人口中种族的人口普查数据。我想在R studio中做两件事,在年州一级。1.汇总所有那些谁是西班牙裔拉美裔的任何种族群体成... ...

回答 1 投票 -2

根据R中两列的数值求和。

我目前正在研究一个空中交通数据集,其中包含出发地、目的地和一些其他空中交通相关信息。然而,对于我的分析,我想把信息结合起来,只要 ...

回答 1 投票 -1

在pandas中,我如何用一列中的唯一值创建列,然后根据另一列中的值来填充?

我有一个n×n列,其中两个列如下:成本项目_x成本2项目_y 10蝙蝠45手套12球30球13手套25手套14蝙蝠... ...

回答 1 投票 1

根据R中两列的数值求和。

我目前正在研究一个空中交通数据集,其中包含出发地、目的地和一些其他空中交通相关信息。然而,对于我的分析,我想把信息结合起来,只要 ...

回答 1 投票 -1

清理多列的数据,并在之后进行连接。

我有一个数据框架dftest,其中有以下几列。ADDRESS1, ADDRESS2, ADDRESS3, POSTCODE. 我试图清理每一列中的数据,并随后将它们合并到列FULL ADDRESS中,并使用 ...

回答 1 投票 1

如何替换数据中的缺失值?

上图是我目前正在处理的数据的一部分,fips列中的一些数据丢失了。我正试图使用其他列的信息来替换缺失的值 ...

回答 2 投票 0

删除R中只出现一次且IDF较低的词。

我有一个数据框,里面有一列文字。我想做三个数据预处理步骤。1)删除只出现一次的词 2)删除反文档频率(IDF)低的词......。

回答 1 投票 0

如何在R中输出给定列中NA的行名?

我正在处理面板数据 我发现在我感兴趣的一列里有16个NA,输入: sum(is.na(df$X1995)) [1] 16 现在我想知道今年有哪些行的数值缺失。...

回答 1 投票 0

根据另一列的值添加新列 pandas。

有谁能帮帮我,我是Python新手,请耐心等待。我的数据看起来像这样,但有所有的区域信息。我试图创建一个新的列 "实际价格",计算出价格......。

回答 1 投票 0

在SQL中从行中省略某些字符

我有一列有序列号的记录,但其中一些序列号上附加了不需要的字符:- 8009914407 MCO 8558201722 US2 US3 MCO 7272950703 US2 MCO NULL 8558201722 ...。

回答 1 投票 0

使用replace_with_na函数将范围外的值替换为NA。

我有以下数据集结构(list(a = c(2, 1, 9, 2, 9, 8), b = c(4, 5, 1, 9, 12, NA), c = c(50, 34, 77, 88, 33, 60)), class = "data.frame", row.names = c(NA, -6L)) a b c 1 2 4 50 2 ....

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.