missing-data 相关问题

有关缺失数据问题的问题,可能涉及特殊数据结构,算法,统计方法,建模技术,可视化以及其他考虑因素。

如果pandas数据帧字符串列缺少值,如何小写?

以下代码不起作用。导入pandas为pd import numpy as np df = pd.DataFrame(['ONE','Two',np.nan],columns = ['x'])xLower = df [“x”]。map(lambda x: x.lower())我应该如何调整它以获得......

回答 6 投票 39

如何使用另一列的模式正确地将这些NaN值归为?

我正在学习如何处理数据集中的缺失值。我有一张约100万条表的桌子。我正在尝试处理少量的缺失值。我的数据涉及自行车共享系统......

回答 1 投票 0

我可以用分组数据框中的列模式替换Nans吗?

我有一些数据看起来像...年份模型修剪2007年讴歌TL基地2010道奇复仇者SXT 2009道奇Caliber SXT 2008道奇Caliber SXT 2008道奇......

回答 2 投票 2

如何在每个组中的pandas数据帧中归一个列[重复]

全部,我有四列数据框('key1','key2','data1','data2')。我在data1中插入了一些nan。现在我想用每个组中最有价值的值填充nan ...

回答 1 投票 2

如何在Pandas中用组模式替换缺失值?

我按照这篇文章中的方法用组模式替换缺失值,但遇到“IndexError:index out of bounds”。 df ['SIC'] = df.groupby('CIK')。SIC.apply(lambda x:x.fillna(x ....

回答 1 投票 1

朱莉娅:在缺少的向量中找到大于0的值

我是朱莉娅的新手,作为一个Matlab / R用户,我发现它在很大程度上非常适合合作。但是,我对缺失的值以及如何使用它们感到困惑。让我说我......

回答 1 投票 1

强制附加在SAS中以保存丢失的数据

我试图根据名为ID_bloque的组变量保存一些名为ez乘积的向量。对于每个ID_bloque值,我的代码计算一个名为ez的向量并将其附加到...

回答 1 投票 0

Python,Pandas:仅返回缺少值的行

在Python中使用Pandas时...我正在使用包含一些缺失值的数据集,并且我想返回一个仅包含缺少数据的行的数据框。在那儿 ...

回答 2 投票 28

读取netCDF文件中的数据时,Missing_value属性丢失了吗?

我正在从NCEP / NCAR Reanalysis 1的netCDF文件中读取风成分(u和v)数据,以进行一些计算。我正在使用xarray来读取文件。在其中一个计算中,我想掩饰......

回答 1 投票 1

现有函数查找缺失和完整案例的数量

问题陈述在现有包中是否存在一个函数,该函数将给出数据帧的每列的缺失元素(即NA)的数量和完整元素的数量...

回答 2 投票 2

使用Python填充缺失的数据

我对Python不熟悉并且有这样的问题。我有一个多传感器数据的数据帧。数据集中存在NA缺失值,需要填写以下规则。如果下一个......

回答 1 投票 1

Excel 2016中的OData Feed / Power查询未检索全部/复制某些记录

在Excel中,我成功连接到Data.Medicare.gov的OData源(该网站是https://data.medicare.gov/Hospital-Compare/Healthcare-Associated-Infections-Hospital/77hc-ibv8/data和。 ..

回答 1 投票 0

插入缺少日期/时间的行

我是R的新手但是已经转向它来解决我正在尝试处理的大型数据集的问题。目前我有4列数据(Y值)设置对分钟间隔时间戳(月/日/ ...

回答 9 投票 35

执行正确数据分析的步骤

我有一个包含69列和50000行的数据集。我的数据集只包含二进制变量和数值变量。此外,一些二进制变量具有一些缺失值(约5%)。我知道 ...

回答 1 投票 0

在数据帧之间找到相等的行,包括NA作为值

我有两个数据帧:df =结构(列表(x = c(NA,NA,“b”,“b”,“b”),y = c(“f”,“f”,“f”,“ g“,”g“)),row.names = c(NA,-5L),class = c(”tbl_df“,”tbl“,”data.frame“))df2 =结构(list(x = .. 。

回答 2 投票 1

r ggmap:告诉mapdist如何将没有传输值的行分类为NA

我正在使用ggmap中的mapdist函数来评估两个地址之间的传输时间(以秒为单位)。我有一个包含完整地址的两列的数据集 - 例如“27 avenue ...

回答 1 投票 1

无法从sklearn.impute导入IterativeImputer

我有一个数据集,其中一列包含缺失值,这些值与另一列具有相对较高的相关性。我想从sklearn.impute使用IterativeImputer,但我收到此错误:...

回答 2 投票 0

同时拟合数据以在matlab中估计具有NaN数据的公共参数

对于三种浓度(c),我有超过4个时间点(t)测量的数据(y)。所以数据如下:在c1:y11,y12,y13,y14(在4个时间点测量)在c2:y21,y12,y23,y24 ...

回答 1 投票 1

Pandas Dataframe:用行平均值替换NaN

我正在努力学习大熊猫,但我对以下内容感到困惑。我想替换NaNs是一个具有行平均值的数据帧。因此像df.fillna(df.mean(axis = 1))这样的东西应该有效......

回答 2 投票 13

删除data.frame中包含全部或部分NA(缺失值)的行

我想删除此数据框中的行:a)包含所有列的NA。下面是我的示例数据框。基因hsap mmul mmus rnor cfam 1 ENSG00000208234 0 NA NA ...

回答 17 投票 760

© www.soinside.com 2019 - 2024. All rights reserved.