data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

如何清除长文本中的重复(重复)段落?

所以我在数据框中有 100000 行,全部包含一个文本列。我想在进一步分析之前清理它。我找到了这个答案,它给了我很多信息。然而我仍然有重复...

回答 1 投票 0

在PowerQuery中减去两个时间列时得到负值

我正在研究 Google 的数据分析顶点案例研究。在给定的数据集中,我需要找到骑行开始时间和结束时间之间的差异。我总体上得到了正确的值...

回答 1 投票 0

ReplaceValue 在 Excel 查询编辑器中不起作用

我正在尝试在查询编辑器中完成 table.ReplaceValue 步骤,但值似乎不会随着我设置的条件而变化。 我尝试在编辑器中的代码中复制的步骤: 同时...

回答 1 投票 0

使用 R 将错误的值移至右列

我有一个名为 Brand_ID 的列,其中 ID 的范围应该是 0-6,但在我的 Brand_ID 列中记录了错误的 User_ID 数字。我一直找不到...

回答 1 投票 0

我的类别栏中的价格 - 使用 RStudio

j_数据集 你好!对 R 语言非常陌生。我有一个数据集,其中的“category_alias”列中有一些价格。问题单元格是数据放错位置的单元格,其中数据所在的单元格为空

回答 1 投票 0

如何统计R中某列中某个值的出现次数?

我有以下数据: df <- data.frame(id = c("1", "1", "1", "1", "2", "2", "2"), x = c(0, 1, 0, 1, 0...

回答 2 投票 0

如何在SQL中分割这些多行?

我目前正在学习SQL,还是个新手。我有一个任务,需要用日期和用户 ID 等各种条目拆分一些行。我真的需要帮助 +--------+--------------------...

回答 2 投票 0

根据单元格值合并行

我在 Power BI 中有数据,这些数据是通过链接到我公司 LiveChat 服务的 API 获取的。数据作为一行出现,每个代理及其类别作为单独的列出现。所以有...

回答 1 投票 0

如何使您查找的关键字在文本字符串中使用时返回 true?

我在kaggle上找到了这个数据集,我想对其进行EDA。 https://www.kaggle.com/datasets/andrewmvd/data-scientist-jobs/data 快速概述:数据集是从 glassdoor 数据科学工作帖子中删除的...

回答 2 投票 0

引用函数参数作为pivot_longer中的列名

我正在尝试编写一个使用pivot_longer的函数,并且想使用我的函数对象作为pivot_longer中names_to参数的对象。 记录<- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

回答 1 投票 0

当我尝试清理正在使用的数据框时出现未知字符串格式错误

我正在尝试设置给定的数据,以便我可以分析时间序列数据。我是编码新手,尤其是 Python。 包含代码后,我不断收到错误: ParserError:未知的字符串格式:

回答 1 投票 0

删除 Json 文件中的特定行

我正在尝试清理下面的 json 文件。我想删除“Stores”列表中键为“Company”的所有字典键值对。 { “公司”:“阿...

回答 2 投票 0

如何在Python中去掉“.0”

我有数据框 df.info(): M 5899 非空 float64 我需要去掉 M 列的 .0。 df['M'].value_counts() 4354.0 4382 454.0 98 234324.0 98 我试过了...

回答 1 投票 0

如何折叠 pandas 数据框中的行?

我有两个数据框。 df.A 有两列,一列包含道路名称,一列包含页码和网格(即 10 A4)。 df.B 将是结果 df,它有两列,其中一列具有唯一的道路名称...

回答 1 投票 0

使用 R 查找在选择列中重复值的行

长期堆栈溢出潜伏者,但现在决定试水,看看这里是否有人可以帮助我解决困扰我很长一段时间的数据清理问题。我有数据有记录...

回答 1 投票 0

从与数字混合的字符串中剥离字符串和日期、时间

我有这样的数据集: 将 pandas 导入为 pd 将 numpy 导入为 np x = np.array([ '355395.7037', '355369.6383', '355367.881', '355381.419', ...

回答 2 投票 0

从混合字符串与数字中剥离字符串和adte、时间

我有这样的数据集: 将 pandas 导入为 pd 将 numpy 导入为 np x = np.array([ '355395.7037', '355369.6383', '355367.881', '355381.419', ...

回答 1 投票 0

如何将 R 中嵌套的两组字符串中具有唯一值的行组合起来

这有点令人费解;我有一个数据框,其中有进行门诊就诊的患者,每次就诊都有药物,每列一种药物。在某些场合,有

回答 1 投票 0

删除注册商标SQL

我这里有一个数据集示例: 船名 联邦快递国际经济® 联邦快递陆运® FedEx® 国际 Connect Plus 联邦快递国际优先® FEDEX® 国际连接增强版 联邦快递

回答 2 投票 0

如何清理多列的 csv 数据?

我正在尝试帮助非营利组织进行一些数据分析。他们的电子表格如下所示: “S1”代表传感器,有两个读数(温度和湿度),读取三次...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.