data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

按带有字符串前缀的数字对多行单元格元素进行排序,并删除不必要的空格

在我当前的项目中,有时需要比较 Excel 的两个不同列。为了便于比较,对单元格内容进行转换非常有用

回答 1 投票 0

查找表格中的空白数据

我有一个表,数据如下: 打印(车牌号) # 小标题:513 × 4 板行列数 1 1 A 1 6 2 1 A ...

回答 2 投票 0

当我的特征变量大部分为零时我该怎么办?

我有一组商店销售数据,我想利用外部 POI 特征及其人口统计因素来预测其他商店的销售情况。然而,我的特征变量几乎有 80% ze...

回答 1 投票 0

处理时间序列预测的大差距(TFT 模型)

我有一个每小时的时间序列数据,其中包含短的和大的缺失间隙。对于小间隙,我可以使用线性插值技术来填充缺失的点,但我想了解...

回答 1 投票 0

通过 id 连接列中的字符串

我有一个看起来像这样的小标题: dep_code dep_color 消息 1 10 1 一...

回答 2 投票 0

修改 SQL 查询以将各种 NVARCHAR 字符串转换为日期/时间格式,某些情况下被设置为 NULL,即使它们不应该如此?

问题: 目标是将 SQL Server 中的临时表列 TempExpirationDate 从 NVARCHAR 更新为 DATETIME,然后使用这些值更新我的实际表。 h 列中的日期值...

回答 1 投票 0

如何对R中的因子进行求和?

我有这样的数据: df <- data.frame(id = c("001", "002", "003", "004"), banana = c("banana", NA, NA, NA), ap...

回答 1 投票 0

R Studio 在使用 2-3 小时后停止响应

R Studio中的数据清理主要使用tidyr函数,使用2-3小时后就会冻结。恢复功能的唯一方法是关闭并重新启动。我尝试在控制台中停止运行但是...

回答 1 投票 0

Related() 与 2 个不同的表

_嗨,我有两个简单的独立表,通过一对多关系连接。当我尝试使用相关 DAX 公式将计算列添加到事实表时,结果全是空白。然而,我们...

回答 1 投票 0

如何给R中组的最后一行赋值?

与这个问题类似,我想选择每组的最后一行并为其赋值。 一个<- data.frame("ID" = c("A", "A", "B", "B", &q...

回答 1 投票 0

如何将Excel中的表格从长转为宽

我有下表,我想将其从“长”形式转换为宽形式。每个患者可以有多个程序 (procedure_code)。在我现有的表中,一名患者有多个

回答 1 投票 0

我如何知道是否应该在时间序列数据中插入缺失 (NaN) 值?

我正在使用 Kaggle 的公共数据集(可口可乐股票价格):https://www.kaggle.com/datasets/kalilurrahman/coca-cola-stock-live-and-updated/data 我注意到数据集的频率是...

回答 1 投票 0

从包含列表和记录类型的列中提取数据

我的表中有一个列包含列表和记录数据类型。如何将记录转换为列表类型,以便该列与我可以轻松将其转换为

回答 1 投票 0

如何清理 pandas 中的数据[重复]

大家好,可以帮我吗? 如何删除表情符号 如何删除消息栏中的标签名称(@xxxxx) 如何删除网址 我可以删除表情符号,但单元格中的整个句子都会消失...

回答 1 投票 0

用空格而不是作为字符类导入的点来协调数据:如何清理?

对于复杂的帖子提前表示歉意;这是我已经遇到的一个(非常令人沮丧的)问题相当长一段时间了。 我有一个数据集,正处于清理的最后步骤。最后的障碍是我

回答 1 投票 0

更改 Source.Name 的类型

当我导入包含 PDF 文件的文件夹时,文件顺序不正确。按升序排序时,顺序为 1.pdf, 10.pdf, 11.pdf, 2.pdf,... 而不是 1.pdf, 2.pdf, 3.pdf... 我认为这是

回答 1 投票 0

如何删除列中的重复项并保留最后一次出现的内容?

我的输入是这张表: 类别编号 YYYA XXXB XXXA XXXC ZZZA 当我选择 id 列并选择删除重复项时,它会保留第一个占用...

回答 2 投票 0

如何省略 R 中 table1 中的缺失值行

我有一个数据集如下。当我使用 table1() 从中创建 table1 时,会给出一行用于缺失值。我想知道是否可以从其中一个变量中排除“缺失行”...

回答 3 投票 0

使用语言模型进行后处理来提高提取的 PDF 文本质量的解决方案?

我创建了一个文本数据集,一种知识库,它是从大约 1000 个 PDF 中解析出来的,平均长度为 50 页。该数据集用于 RAG 实现。

回答 1 投票 0

如何在 R 中总结组外观察结果?

我正在尝试复制 Gayle & Wu (2013),并且有两个时间段的类似数据: df_2016 <- structure(list(YEAR = c(2016L, 2016L, 2016L, 2016L, 2016L, 2016L ), MARKET = c("ATL-AUS&

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.