数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。
提前感谢您的帮助和时间。 以下是相关信息: 亚洲 阿富汗 5,000 约旦 1,188 沙特阿拉伯 619 巴林 8 科威特 162 非洲
Excel Power Query 如何添加新列确定最近和第二个最近日期(当前与之前)
我有一个数据集,其中包含带有某些字段的报告日期。我想使用 Excel 强力查询添加一列(例如状态),确定最近的日期(例如 3/1/2022)并分配“Curr...
我有这个csv: 汽车颜色代码城市 法拉利粉色 01 LA 法拉利红02 LA 兰博黄09德克萨斯州 兰博橙 08 德克萨斯州 我希望在 powerbi、grou 中有这种 groupby...
Power Query 对每种颜色和每种尺寸求和,返回可用尺寸列表上的值
我有一份衬衫颜色和建议尺寸的列表。我想在查询中创建一个新列,并根据过滤后的元素创建一个列表值(我不知道如何解释...
有没有办法在powerquery中将排名数字转换为序数形式。 例如,排名:1、2、3、4、5、31、52 等。应显示为 1st、2nd、3rd、4th、5th、31st 52nd。 谢谢!
让我们采用具有以下内容的相同数据集: 年份 制造商 型号 内饰 车身变速箱 Vin 状态 状况 2015 蒂亚索兰托 LX SUV 自动 5xyk ca 5.0 2015 蒂亚·索伦...
寻求用于 CSV 数据分析的检索增强生成 (RAG) 工具的建议
在数据工程任务上花费了大量时间后,我正在寻找 RAG 工具或支持 CSV 文件的类似技术。我的项目涉及提取特定条件的信息......
NA 使用 matchmaker: match_df in R
我一直在使用matchmaker包中的清理字典工具:match_df。 代码如下: 数据 <-import("coded-data.csv") dict <- import("dict.csv") ...
我有 2 个表 - Troux 和 Url-shortener。 Troux 与 Url-shortener 具有一对多关系。它们都有 UUID 作为公共列。 UUID 是文本列,值为字母数字。我需要选择...
我非常感谢您对一些数据进行排序以减少我拥有的海量数据集(近 2600 行)的时间自相关性方面的帮助。我确信这可能是一个相当简单的事情...
来自 matchmaker 的 match_df 不适用于所有列?
我正在使用 matchmaker 包清理字符串数据。我已经使用 from、to 和 col 列创建了字典,以定义未清理的术语、已清理的术语以及未清理的列名称...
我在 powerbi 列中有带有前缀的值,例如标题:一些标题。 我想使用 dax 将此列放入另一个表,但没有前缀“标题:”,所以它应该是“一些标题”...
Powerbi:删除列中字符串值的一部分并将其放入另一个表中
我在 powerbi 列中有带有前缀的值,例如标题:一些标题。 我想使用 dax 将此列放入另一个表,但没有前缀“标题:”,所以它应该是“一些标题”...
背景 我正在使用 read_csv() (来自 readr)导入和清理数据集(头包含在下面),并注意到可能应该是整数列的各种列被保留为数字列...
我正在 BigQuery 中处理天气数据,在分析风速和能见度之前,需要将零(错误输入的缺失值)替换为空值。我当前的代码导致错误...
我正在 BigQuery 中处理天气数据,在分析风速和能见度之前,需要将零(错误输入的缺失值)替换为空值。我当前的代码导致错误...
我需要使用从数据帧的子集计算出的值来更新 df 子集的数据。 个人信噪比 XYZ 日期 价值 22222 A 扬 0,8 22222 乙 扬 0,2 22222 A 二月 0,8 22222 乙 二月 0,2 我有...
我目前在当地一家新闻台担任初级数据分析师,负责使用 BigQuery 分析天气趋势。在我的分析中,我遇到了数据清理过程的问题。 ...
我有下表,有两列: 日期 书名 2022年1月1日 标题1 标题2 2022 年 1 月 3 日 <- unsorted 02.01.2022 Title3 02.01.2022 Title4 The Date rows work as a sort of sub-hea...
将一列的唯一值扩展为多列,适用于 DataFrame 中的 X 列
我需要将DataFrame转换为以下形状: 将 pandas 导入为 pd 将 numpy 导入为 np df = pd.DataFrame({ 'foo': ['一', '一', '一', '二', '二', '二', '三', '三', '三'], ...