data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

编写一个转换变量模式和类的函数

我使用以下代码(LINK)来清除数据框架中假设的df数据的潜在麻烦方面:dataframe

回答 1 投票 1

使用pandas将.txt文件分成两列

我有一个脚本的文本文件,并按如下顺序排列:0“字符一”“字符一对话。” 1个“字符二”“字符二的对话。” 2“角色一”“角色对话......

回答 1 投票 0

通过分隔符清理csv

我有一个csv文件,其中列都在一行中,用引号括起来并用逗号分隔。列在一行中。如果有2个,则用逗号分隔csv中的行...

回答 1 投票 0

如何根据特定变量的变化删除观察?

我有一个平衡的面板数据表,其中包含数千家公司,每家公司都有两年的观察结果(1和2)。对于数据清理过程,我需要排除有移位的观察...

回答 4 投票 1

如何根据条件连接同一列的值?

我有一个看起来像这样的表 - 日期名称值项目01-03-2019 xyz 900 NaN NaN NaN 900刷02-03-2019 abc 1200 ...

回答 2 投票 1

使用spacy删除停用词

我正在清理我的数据框中的一个列,Sumcription,我正在尝试做三件事:Tokenize Lemmantize删除停止词导入spacy nlp = spacy.load('en_core_web_sm',parser = False,...

回答 1 投票 0

重新整形由变量后缀分组的从宽到长格式的数据集

与此文章类似但不同:将数据框架从宽格式转换为长格式我有一个带有唯一ID变量的宽数据集,以及带有4位数年份后缀的所有其他变量:ID MI1995 ...

回答 1 投票 0

R与字符串中的数字分开

我需要清理一些有单词和数字或只是数字的数据字符串。下面是一个玩具样本库(tidyverse)c(“555”,“Word 123”,“两个单词123”,“这里有三个单词123”)%>%...

回答 2 投票 0

从Power BI中的整个数据中删除空值

我有20多个表,而且还有更多的列,所以不可能逐个过 滤每个列的空值,是否有任何替代方法可以从...中删除整个数据中的空值

回答 1 投票 1

从Python中的数据框中提取String

我有一个包含“genres列”的数据框,它的结构如下:0 [{“id”:28,“name”:“Action”},{“id”:12,“nam ...”1 [{ “id”:12,“name”:“Adventure”},{“id”:14,“......”2 [{“id”......

回答 1 投票 0

如何在R中组合相同患者ID#的行条目,同时保留其他列和NA值?

我需要为这些多个ID组合一些列,并且可以使用第一个ID列表中的值来存储其他ID。例如,我只想将“支出”栏目结合起来......

回答 1 投票 0

大数据集清理:如何根据多个类别填写缺失数据并按行顺序搜索

这是我的第一篇StackOverflow帖子,所以我希望它不难理解。我有一个大型数据集(~14,000)行观鸟。这些数据是通过站在一个...

回答 1 投票 4

找出哪个表单共享问题

我有这样的数据集。 NA。 CODE ASSESSMENT_FORM_VERSION COLLEGE_CODE TOTAL_ITEMS SHARED_ITEMS 1 4020.1.2-01.8x.A.V1 AAO1.4.A IT 45 ...

回答 1 投票 0

用于获取hdfs中所有部件文件的行数的shell脚本

我在hdfs中有一组部件文件,位于以下结构中:/ folder1 / folder2 / daily_AB20180910.csv / folder1 / folder2 / daily_BC20180910.csv / folder1/folder2/daily_CD20180910.csv daily_AB20180910.csv,...

回答 1 投票 -2

计算标记到该键的集合的每个值的键数

我有一对像这样的RDD:id值id1 set(1232,3,1,93,35)id2 set(321,42,5,13)id3 set(1233,3,5)id4 set(1232,56, 3,35,5)现在,我想得到包含在......中的每个值的总计数。

回答 2 投票 1

如何将部分Excel数据转换为列以获得所需的输出?

例如 - 假设我有以下格式的数据 - 当前格式我需要以下列格式格式化数据以便于使用 - 必需格式当然数据包含很多...

回答 2 投票 2

pandas read_csv并将na_values设置为csv文件中的任何字符串[重复]

data.csv 1,22,3432 1,23,\ N 2,24,54335 2,25,3928我有一个从设备收集的csv数据文件。设备不时传递信息和...

回答 1 投票 0

如何用gsub清理括号?

我像下面的表一样进行数据抓取,但是我找不到解决方案来清理这个表与GSUB。即我尝试了类似的代码:populous_table $ Tax_GDP

回答 1 投票 0

Python相当于php FILTER_FLAG_STRIP_HIGH

使用OCR解析从pysical表单转换的大量低质量数据的数据集,并使用PostgreSQL COPY将.csv文件插入到psql中。有些记录有ASCII字节导致错误...

回答 1 投票 0

R中的数据清理:删除测试客户名称

我正在处理具有客户名和姓的客户数据。我想清理任何随机击键的名字。测试帐户在数据集中混乱并且具有垃圾名称。比如......

回答 4 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.