有关缺失数据问题的问题,可能涉及特殊数据结构,算法,统计方法,建模技术,可视化以及其他考虑因素。
我有一个样本数据集:df = data.frame(Id = c(NA,“ 601”,“ 865”,NA,“ 743”),Date = as.Date(c(“ 12/23/2019” ,“ 12/12/2019”,“ 12/23/2019”,“ 11/21/2019”,“ 12/19/2019”),格式=“%m /%d /%Y”),金额= c(1100,-1100,...
我现在正在处理丢失的数据。我的测试和训练集中缺少数据。我对如何处理测试集中的缺失数据有些困惑。如果我使用“平均值”进行插补...
df = data.frame(“ a” = c(1,2,3,“ q”,“ r”),“ b” = c(5,6,7,0,“ s”))dfWANT = data.frame(“ a” = c(1,2,3,“ NA”,“ NA”),“ b” = c(5,6,7,0,“ NA”))REP = c(“ q “,” r“,” s“)...
df = data.frame(“ a” = c(1,2,3,“ q”,“ r”),“ b” = c(5,6,7,0,“ s”))dfWANT = data.frame(“ a” = c(1,2,3,“ NA”,“ NA”),“ b” = c(5,6,7,0,“ NA”))REP = c(“ q “,” r“,” s“)...
我想用我的数据框的中位数来估算一些空白值,如下所示:ID薪水位置1 10 VP 2 VP 3 5 VP 4 15 AVP 5 20 AVP 6 AVP Now ...
假设存在一个具有随机数的数组[[1. 3. 4. 5. 1. 2. 5. 7.] [1. 3. 6. 4. 4. 0. 4. 0.] [5 。0. 5. 1. 3. 0. 5. 1.] [2. 1. 5. 4. 4. 1. 1. 3. 4.] [2. 1. 0. 0. 6. 1. 2. 1 。] [3. 5. 7. 2 .......>
我有一个数据框17631x15,想找到一种简单的方法来删除包含75%缺失值的行。我不确定如何在函数中填写阈值:out
我正在构建逻辑回归模型,并想了解对我的输出贡献最大的功能(1或0)。试图了解客户是否回到我的网站,什么功能...
我有用电量数据。在电源中断期间,数据为“ 0”。我想用过去一周中相同时间的数据替换那些0。在...
[这是我第一次尝试使用python进行连续数据帧的案例研究,这是2006-2016年期间属性的时间序列数据,但我缺少...的值]]
所以,我试图在SAS中导入一些数据集并将其加入,唯一的问题是加入它们后出现此错误-proc import datafile ='filepath / datasetA.csv'out = dataA dbms = ...
我有一个很大的数据集,其中每个邮政编码都有各自对应的纬度和经度。在数据集中,缺少一些邮政编码。我需要根据其......>
我有一种情况,我需要删除很多数据框列,这些列的缺失值很高。我创建了一个新的数据框,该框为我提供了丢失的值和丢失的比率...
我如何在Stata中制表一个变量以显示样本中的所有值,即使它们尚未在数据集中?
我正在尝试为工作中的报告制表一个变量,以显示按城市划分的当前实地调查的完成率。每周下载一个数据集,显示所有...
我正在使用以下代码来打印缺失值计数和列名。 #查找丢失的数据,然后进行相应的处理def find_missing(data):#丢失值的数量...
我添加了一个模拟数据框来举例说明我的问题。我有一个大的数据框,其中某些列缺少值。我想创建一些额外的布尔列,其中1对应于一个...
我正在尝试使用此行代码推断数据中的以下缺失值(NA),但它不起作用。请帮忙。我的数据:landkreis jahr deDomains []
使用`dplyr :: na_if`有可能创建丢失的数据吗?
我对模拟数据感兴趣,但有可能会丢失。如何使用dplyr :: na_if执行此操作?直觉上我想做些类似的事情:mtcars%>%mutate(mpg = na_if(mpg,...
我正在研究用于机器学习的案例,以检测交易中的欺诈行为。我在每笔交易中将人员及其欺诈比率分组。我使用他们的电子邮件是因为它定义了人员。 ...