数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。
所以我在数据框中有 100000 行,全部包含一个文本列。我想在进一步分析之前清理它。我找到了这个答案,它给了我很多信息。然而我仍然有重复...
我正在研究 Google 的数据分析顶点案例研究。在给定的数据集中,我需要找到骑行开始时间和结束时间之间的差异。我总体上得到了正确的值...
ReplaceValue 在 Excel 查询编辑器中不起作用
我正在尝试在查询编辑器中完成 table.ReplaceValue 步骤,但值似乎不会随着我设置的条件而变化。 我尝试在编辑器中的代码中复制的步骤: 同时...
我有一个名为 Brand_ID 的列,其中 ID 的范围应该是 0-6,但在我的 Brand_ID 列中记录了错误的 User_ID 数字。我一直找不到...
j_数据集 你好!对 R 语言非常陌生。我有一个数据集,其中的“category_alias”列中有一些价格。问题单元格是数据放错位置的单元格,其中数据所在的单元格为空
我有以下数据: df <- data.frame(id = c("1", "1", "1", "1", "2", "2", "2"), x = c(0, 1, 0, 1, 0...
我目前正在学习SQL,还是个新手。我有一个任务,需要用日期和用户 ID 等各种条目拆分一些行。我真的需要帮助 +--------+--------------------...
我在 Power BI 中有数据,这些数据是通过链接到我公司 LiveChat 服务的 API 获取的。数据作为一行出现,每个代理及其类别作为单独的列出现。所以有...
我在kaggle上找到了这个数据集,我想对其进行EDA。 https://www.kaggle.com/datasets/andrewmvd/data-scientist-jobs/data 快速概述:数据集是从 glassdoor 数据科学工作帖子中删除的...
我正在尝试编写一个使用pivot_longer的函数,并且想使用我的函数对象作为pivot_longer中names_to参数的对象。 记录<- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
我正在尝试设置给定的数据,以便我可以分析时间序列数据。我是编码新手,尤其是 Python。 包含代码后,我不断收到错误: ParserError:未知的字符串格式:
我正在尝试清理下面的 json 文件。我想删除“Stores”列表中键为“Company”的所有字典键值对。 { “公司”:“阿...
我有数据框 df.info(): M 5899 非空 float64 我需要去掉 M 列的 .0。 df['M'].value_counts() 4354.0 4382 454.0 98 234324.0 98 我试过了...
我有两个数据框。 df.A 有两列,一列包含道路名称,一列包含页码和网格(即 10 A4)。 df.B 将是结果 df,它有两列,其中一列具有唯一的道路名称...
长期堆栈溢出潜伏者,但现在决定试水,看看这里是否有人可以帮助我解决困扰我很长一段时间的数据清理问题。我有数据有记录...
我有这样的数据集: 将 pandas 导入为 pd 将 numpy 导入为 np x = np.array([ '355395.7037', '355369.6383', '355367.881', '355381.419', ...
我有这样的数据集: 将 pandas 导入为 pd 将 numpy 导入为 np x = np.array([ '355395.7037', '355369.6383', '355367.881', '355381.419', ...
这有点令人费解;我有一个数据框,其中有进行门诊就诊的患者,每次就诊都有药物,每列一种药物。在某些场合,有
我这里有一个数据集示例: 船名 联邦快递国际经济® 联邦快递陆运® FedEx® 国际 Connect Plus 联邦快递国际优先® FEDEX® 国际连接增强版 联邦快递
我正在尝试帮助非营利组织进行一些数据分析。他们的电子表格如下所示: “S1”代表传感器,有两个读数(温度和湿度),读取三次...