data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

找到每12行的平均值,并将输出写入具有年份和平均值的新csv文件

我有一个数据集,其中包含一列中的月份和年份,以及csv文件的csv filesnippet中另一列中的“AXA”的结束率。例如,我需要找到2017年的平均收盘价...

回答 1 投票 0

如何根据Python中的部分匹配从文本中删除子字符串?

我有一个很长的文本块,其中包含我想要根据部分匹配(90%)删除的子文本。 string =“亚当是一个住在密歇根的男孩。他喜欢吃苹果和橘子....

回答 2 投票 2

Python Pandas将多个列替换为零到Nan

列出了加载到pandas dataframe df2中的人员的属性。对于清理,我想用np.nan替换零值(0或'0')。 df2.dtypes ID对象名称对象...

回答 1 投票 7

问题标签用户未答复将特定列转移到数据框中特定列之前/之后[重复]

在数据框示例中:medcine_preg_oth medcine_preg_oth1 medcine_preg_oth2 medcine_preg_oth3 0 Berplex Berplex无无1 NaN ...

回答 1 投票 0

如何在不写入条目的情况下从左到右填充值?

我有一大堆无脊椎动物被鉴定为不同的分类学分辨率。我想要做的是阅读我的数据框中的每一行,然后用任何内容填补空白......

回答 1 投票 0

在SQL中过滤行

我的数据如下所示:Number(String),Number2(String),Transaction Type(String),Cost(Integer)在此处输入图像描述对于数字1,Cost 10和-10取消,因此剩余成本为100 ...

回答 4 投票 0

从列表中的列中提取2gram字符串

我有一个名为df性别国家评论的数据框男性美国机器学习和欺诈检测是必须学习的男性加拿大蒙特卡罗方法是伟大的,所以是嗯,pca,...

回答 3 投票 2

如何按顺序在Pandas中标记分类变量?

我有一个pandas数据帧,左边是列,下面是分类变量,右边是特定的实现,(低分辨率道歉)。对于统计回归,我想......

回答 2 投票 2

从列表中删除以某些表达式开头的字符串

我有一个与twitter hashtags相关的字符串列表。我想删除以某些前缀开头的整个字符串。例如:testlist = ['刚刚赶上#FlirtyDancing。就这样......

回答 4 投票 3

使用ast.literal_eval()清理数据时出现语法错误

我从librosa库中提取了数据集。这是五大数据。这些是总列数。这些数据是对象格式。它有'\ n'和空格等等。所以,需要......

回答 1 投票 0

如何删除包含'_id'的所有列 - Python

我有一个247列的数据框。许多列名称在列名称中包含“_id”。如何删除包含“_id”的所有列?

回答 2 投票 0

如何从python中的文本文档中删除所有标点符号和其他符号?

我想清理数据集进行分类。我想从文本中删除所有无用的符号。如何删除所有这些无用的符号,以便文本准备好进行标记化和分割?

回答 1 投票 0

如何需要Excel VBA创建和填写数据

1)在excel中编写一个语句,该语句将插入行并填充缺少任何小时的数据。 “DATE_HR”中的小时数应为00-23(24小时制)。 2)列出的小时数,“......

回答 1 投票 0

如何消除时间序列中的严重错误?

我有很长一段时间来自井的5分钟水位数据。该系列包含可在时间序列图中轻松查看的测量误差。水位时间序列图头(数据)#A tibble:...

回答 1 投票 0

数字取证 - 媒体消毒

我完成了我的媒体,我使用消毒对我的媒体进行了消毒。我只是想检查是否有人知道任何测试/方法/程序以确认媒体已经消毒。谢谢你

回答 1 投票 0

R:至少连续年份的数据框子集

我有一个大型数据框,具有以下结构:数据

回答 3 投票 1

如何收集每4列,但变量可能有不同的长度

我有一个数据框,由4列组成,重复145.列的长度是不一样的。我想重塑数据框,以便我只有4列。我还要......

回答 1 投票 0

如何从nlp中的数据框列中删除http URL链接

我有一个数据框,其中包含一个包含文本数据的列。我想从文本数据中删除所有URL链接。例如,df列看起来类似于this-user_id post_title 1#...

回答 1 投票 2

从凌乱的字符串中提取名称

messy是一个SAS字符变量,包含作者在自己的作品中引用的论文列表。这是一个凌乱的观察。 (标签:1;名称:Azad,Meghan B; pubyear:2008;卷:4;问题:2; pagenum:...

回答 1 投票 0

在python中清理调查数据 - 如何查找和清理两个文件中的常见行?

我正在研究一个调查数据分析项目,该项目包括2个Excel文件 - 在文件预调查中,它包含800多个响应记录;而在调查后的文件中,它包含500个回复。他们都 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.