data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

不在编辑器中时,Power Query 是否将查询中的所有表保存在内存中?

我有一些 Excel 文件,它们使用强力查询通过内部 ODBC 连接获取数据。我需要将文件分发到企业中的其他计算机。数据安全不是一个问题,因为...

回答 1 投票 0

用户友好的数据清理

我觉得问这个问题有点傻,但我需要一个 GUI 工具来进行数据清理。 如果我能简化任务,一位高管提出接管我的部分数据清理工作。我一直在使用 R 来清理...

回答 2 投票 0

将同时包含 MM-DD-YYYY 和 DD-MM-YYYY 日期的列转换为仅 MM-DD-YYYY?

我无法找到解决方案来将表格上的日期列正确地从 mm-dd-yyyy 和 dd-mm-yyyy 的混合转换/更改为 mm-dd-yyyy。 列中的正确日期...

回答 1 投票 0

从数据框中删除特殊字符和字母数字的简单方法

我有一个大型数据集,其中有 x 行和 y 列。其中一列为单词和一些不需要的数据。不需要的数据没有特定的模式,因此我发现很难

回答 3 投票 0

如何从数据集中删除孤立的合作伙伴列?

R 和编码新手,所以我可能以完全错误的方式处理这个问题。感谢任何帮助或指导。 我有一份报告,在数据c...

回答 1 投票 0

Python上的数据解析

我有以下txt文件,我想使用不使用行号的数据文本解析方法输出2个字典txt文件,因为它应该适用...

回答 1 投票 0

如何将单元格的值偏移到另一列?

我的目标是在条件下将单元格的值拖动到另一列中的相应行。 我有下表: 第1栏 第2栏 35 无效的 27欧元 无效的 13 无效的 如果 Co 中的细胞...

回答 4 投票 0

删除R中给定列中具有某个连续值的所有行

我有一个数据框,我们称之为 DF,我需要删除某些行。该数据框与以下示例非常相似。 |符号|日期 |卷 | |----------------------------------------| |一个...

回答 1 投票 0

如何删除 R 中带有连续零的行?

我有一个 R 时间序列数据表,其中包含年份、位置、物种和人口计数列。 我一直在尝试找到一种方法来删除其中的时间序列(或仅年份)

回答 2 投票 0

如何纠正 R 列中的拼写错误?

这里是新手。 我正在尝试清理 R 中的数据集,但发现邮政编码是 9306 而不是 93060。 我用谷歌搜索并阅读了许多教程,但没有一个更新数据框。那个...

回答 1 投票 0

如何在 SQL 中实现“FROM”输入以从我的项目中提取信息?描述中的截图

我正在学习关于数据分析的 coursera 课程并跟随视频学习,但我不确定为什么会收到错误消息或视频如何获得“系绳”选项? 我附上了一个

回答 1 投票 0

如何在特殊字符之前停止正则表达式匹配

我正在尝试使用 python 来解决正则表达式,并且正在清理数据集。下面是示例。 玩家 DG Bradman(澳大利亚) HC 布鲁克 (ENG) 我正在尝试使用正则表达式来拆分玩家姓名和国家/地区...

回答 1 投票 0

逻辑错误:在Python中清理电话号码

我想创建一个函数来检查列表格式的电话号码。该功能将根据以下标准执行清洁: 以 62 开头,例如62xxxxxxxxxxxx 必须是 11 位数字

回答 1 投票 0

M 查询从字符串中的随机位置查找并提取具有特定位数计数的数字字符串

我找到了类似问题的答案,并尝试使它们适应我的情况,但没有任何效果对我有用。我试图“翻译”我现有的和工作的 Excel 公式,但是...

回答 1 投票 0

从同一文本字符串中提取多个 8 位数字,并将它们彼此分隔开

单元格中文本的长度通常为 100-300 个字母和数字字符。我不需要日期或少于 8 位的数字。例如,单元格将具有文本组合...

回答 1 投票 0

Weka 工具中列的平均值

如何应用列的平均值来删除数据集中的缺失值。 我想使用“列平均值”替换数据集中的缺失值,它将用

回答 1 投票 0

清洁电话

我想创建一个函数,可以传递电话号码列表,然后返回已清理的电话号码列表。 有效的电话号码应以 62 开头,并且必须是除 62 之外的 11 位数字。如果在

回答 2 投票 0

我需要从同一文本字符串中提取多个 8 位数字,并将它们彼此分隔开。这可能吗?

单元格中文本的长度通常为 100-300 个字母和数字字符。我不需要日期或少于 8 位的数字。例如,单元格将具有文本组合...

回答 1 投票 0

添加一个在参与者内恒定但在参与者之间不同的数字(lv.2变量)[循环r,MLM]

我想在多级模型中计算调节分析。我有 20 个任务块(1 级),供 33 名参与者(2 级)使用。对于我的相关 IV 和 DV,我已经编写了一个有效的循环: 对于(我...

回答 1 投票 0

基于多个条件和未知数提取数据以解决数据清理问题

我对Python相当陌生,并且有点陷入一个问题,我正在提取非常混乱的数据。 例如,我的专栏如下所示: ID 代码 描述 ID123 rdm代码 一些自由文本...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.