data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

删除R中只出现一次且IDF较低的词。

我有一个数据框,里面有一列文字。我想做三个数据预处理步骤。1)删除只出现一次的词 2)删除反文档频率(IDF)低的词......。

回答 1 投票 0

如何在R中输出给定列中NA的行名?

我正在处理面板数据 我发现在我感兴趣的一列里有16个NA,输入: sum(is.na(df$X1995)) [1] 16 现在我想知道今年有哪些行的数值缺失。...

回答 1 投票 0

根据另一列的值添加新列 pandas。

有谁能帮帮我,我是Python新手,请耐心等待。我的数据看起来像这样,但有所有的区域信息。我试图创建一个新的列 "实际价格",计算出价格......。

回答 1 投票 0

在SQL中从行中省略某些字符

我有一列有序列号的记录,但其中一些序列号上附加了不需要的字符:- 8009914407 MCO 8558201722 US2 US3 MCO 7272950703 US2 MCO NULL 8558201722 ...。

回答 1 投票 0

使用replace_with_na函数将范围外的值替换为NA。

我有以下数据集结构(list(a = c(2, 1, 9, 2, 9, 8), b = c(4, 5, 1, 9, 12, NA), c = c(50, 34, 77, 88, 33, 60)), class = "data.frame", row.names = c(NA, -6L)) a b c 1 2 4 50 2 ....

回答 2 投票 1

R: 我如何生成一个日期序列来填充一列中的所有行?

我想在Lubridate上生成以下序列 seq(ymd('2017-03-12'),ymd('2020-02-23'),by = '1 week'),并将生成的周数作为一列存储在现有的102行的data.frame中。当...

回答 1 投票 0

在python中从cvs中删除9999值?

我正在处理一个大型数据集(超过400列和200000行),对于一些没有记录的值,在该槽中有一个'-9999.99'的值。我如何从导入的数据中删除这些值?

回答 1 投票 0

在Python中,在邮政编码的第3个和第4个字符之间加一个空格。

我在Python里有一个df(数据框架),其中有一个postal_code变量,里面有加拿大的邮政编码。所有的邮政编码都收集在一行,如k1b6j2。但是,对于我来说,使用'PGEOCODE'......。

回答 1 投票 -1

R中的错误。下标var的类型错误,必须是数字或字符。它必须是数字或字符

代码:GeoSeparate % separate(GeoSeparate) GeoSeparate % separate(GeoColumn, into = c("Section1", "Section2"), sep = "\("))%>% separate(...)

回答 1 投票 0

SQL 17中的数据清理

我是新的SQL,我目前正在努力清理一个大型数据库。在下面的链接中,你可以看到我正在处理的数据。这基本上是所有保险的财务账目......。

回答 1 投票 0

在R中用replace_emoji()函数替换Emojis,由于编码不同,无法使用--UTF8Unicode?

我试图清理我的文本数据,并用单词替换Emojis,这样我就可以在以后进行情感分析。因此,我使用textclean包中的replace_emoji函数。这...

回答 1 投票 0

如何清理Dataframe列中的重复词?

我想清理我的数据来做一些分析。我的数据(.csv)是一些实验的输出,所以每一列都有相同的格式或重复的字。我添加了一个原始数据的图像。在我的四个数据中的每一个...

回答 1 投票 0

在R中需要一种有效的方法将彩色utf-8表情符号转换为默认皮肤。

有没有什么有效的方法可以把矢量中的彩色表情符号去掉,并把它们变成标准的形式?请看两个输出的例子,我可能没有使用适当的术语。目前我正在做...

回答 1 投票 4

替换R中测量单位的具体缩写。

我有一个数据集(一个文本语料库),我正在进行主题建模。在数据集中,计量单位或货币的拼写或缩写不同。例如,250米代表250 ...

回答 1 投票 1

如何在R中使用条件来删除记录

我有一个这样的数据框架。Person Test 1 new 1 new 1 old 1 old 1 old 2 new 2 new 2 old 我想删除新系统和旧系统中测试次数不等的行... ...

回答 1 投票 -1

大型数据集中的模糊合并问题。

我有一个大的数据集(300k),我想清理一个特殊的列--名字列。问题是,由于人为的输入,同一个名字可以有多个无意的拼写......。

回答 1 投票 -1

高效的自定义Regex查询。

所以,我有一个简单的疑问,但我是新的regex。我正在使用一个Pandas DataFrame。其中一列包含名称。然而,有些名字写得像 "John Doe",但有些写得像"..."。

回答 1 投票 0


什么是最长的字符串,可以转换为有效的DateTime?

我正在编写一个数据分析器,试图找出一个字段是数字、日期、字符串等。当检查许多记录时,.NET DateTime.TryParse的速度很慢,这是可以理解的(因为它检查许多 ...

回答 1 投票 0

如何从数据帧中删除某些条件

假设这是我的df人

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.