data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

能否将 janitor::clean_names 仅用于数据框中的某些列?

我只想在我的数据框中的一些列名上使用 janitor::clean_names() 。 虹膜 %>% 看门人::clean_names() 以上清除所有列名。 我试过使用下面的方法来...

回答 0 投票 0

为什么我在 R 中的嵌套循环只运行一次子循环?

我希望得到 4 张清理数据的输出,每张有 9 列 原始数据看起来像这样 但只输出第一张表中的第一列 我的代码如下: 图书馆(阅读...

回答 0 投票 0

识别并纠正自然语言处理 (NLP) 的问答数据集中的错误

如何识别和纠正包含错误的问答数据集,例如错误答案或缺失信息,并确保数据集的准确性? 假设我有数千...

回答 0 投票 0

Pandas 保持最新行更新

假设我有一个如下所示的数据框: 联系方式 最后更新 0 011000111 2 2023-01-01 1 011000111 2 2023-01-02 2 011000112 2 2023-01-03 3 011000112 ...

回答 2 投票 0

如何从字符串列中删除 python 中的特殊字符,如 ('$9.99'、'@10.99'、'#13.99'),而不移动小数点?

我正在进行数据清理练习,我需要从对象类型(字符串)的“价格”列中删除特殊字符,如“$#@”。之后,我需要将它转换为 float ty...

回答 0 投票 0

跨多个数据帧重新编码相同的变量

我想创建一种简化的方法来跨多个数据帧重新编码相同的变量(以相同的方式)。例如,现在我正在重新编码来自状态数据集 FL 和 GA 的年龄变量。我是

回答 0 投票 0

使用不同列的条件匹配更新旧数据框并在 pandas 中添加新行

我有一个以下列和很多行的旧数据框,看起来像这样 >old_df 日期/时间 名称 detect_ID 类别 ID 12/1/2023 XXX 1 B 1400 12/1/2023 ...

回答 1 投票 0

如何从我的数据框中清除 ---> '' 字符?

我有一个数据框,其中包含我感兴趣的一些列,例如,discounted_price、actual_price、discount_percentage、rating 和 rating_count。在这个专栏中,我有一些数据想传达......

回答 2 投票 0

为用两个变量之间的任何交叉标识的组创建 ID 变量

我已经抓取了很多电话号码和 URL 重复的企业的谷歌地图数据。我需要创建一个变量,在电话号码或 U 中有任何重叠的 ID 组...

回答 0 投票 0

Python 仅删除重复的对

如果我有这样的数据框: 时间 X Y 2023-02-01T15:03:02.565333 200 10.1 2023-02-01T15:03:02.565333 200 10.1 2023-02-01T15:03:02.565333 200 10.1 2023-02-01T...

回答 1 投票 0

R dataframe/lapply():删除包含特定字符串的列中具有特定值的行,同时保留其他所有内容?

我有 16 个数据帧,我正在尝试质量检查并删除 R 中质量较差的行。我已经知道 lapply() 并将它用于更简单的争论问题,以将相同的东西应用于我的所有

回答 2 投票 0

如何附加在 for 循环和 if 语句中找到的结果

我正在练习循环遍历在特定列 (Z_SCORE) 中找到的值。但是我现在想将每次迭代的结果附加到数据框中。我能得到一些帮助吗...

回答 1 投票 0

如何根据条件将特定行/列中的值更改为 NaN?

我的数据集的日期列中有一些奇怪的值。我正在尝试将这些意外值更改为 NaN。 我不知道这些意想不到的值会是什么,因此我制作了 df 2 - 哪里...

回答 1 投票 0

r 从频率计数创建观察

我有基于三个变量 y , Col1, Col2 的频率计数,如下所示 Col1 Col2 y n 好 差 0 0 好 差 1 0 好富...

回答 3 投票 0

在R中读取一个混乱的CSV文件有困难

我一直在尝试将一个CSV读入R中。CSV的分隔方式很奇怪,所有的值都在一列中,用逗号分隔,就像这张图片。最上面一行是列名,然后是...

回答 1 投票 0

清理非统一短语清单

我有一个列表,它看起来像这样。["['brill building pop','quiet storm','balad','easy listening', "motown'"," 'disco','soul jazz','smooth jazz','soul','jazz','soft rock', "uk garage'","... ...

回答 1 投票 0

在2个不同的操作中,我得到的行数超过了操作后的行数 半回答

直到这个函数,一切都很好,我得到4999行,这是我得到的数量。你能检查下面的代码吗,我哪里出错了,我最终得到的是5095行而不是4999行,并且在...

回答 1 投票 0

如何过滤掉不以数字开头的行(CSV, PySpark)。已编辑。只包含数字

CSV文件 在df中的一列有一些不是以数字开头的行,我想把它们删除,我试过下面的一些代码,但它们不工作导入re df = sqlContext.read.csv("FileStore...")

回答 1 投票 1

机器学习--特征包含值列表

我有一个包含许多特征的数据集。我有一个特征,包含一个数据点的值列表。它的可以是这样的 。A B C 1 2 [3,4,5] 那么我们可以处理特征C的......

回答 1 投票 -3

在R中删除观察结果的文本内容。

我有一个变量,看起来像这样的ZIPCODE 1 2 3 NYC 4 NYC 5 NYC 6 我想只删除我观察结果前面的NYC,只保留后面的数字, ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.