dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

Pyspark:如何使用不同的列连接两个具有不同条件的不同数据集?

我将把这两个数据集在不同列的不同条件下连接起来以获得Pyspark中的一个数据集 第一个数据集 df1: RC1 RC2 RC3 响应 AB2 AB1 AB6 吉恩 AB4 AB3 AB7 谢因 AB9 AB5...

回答 2 投票 0

Pandas 外部合并

我有两个数据框 数据框1 列 1 列 2 1A 1乙 2℃ 5Z 数据框2 列 1 列 2 1A 1B 2E 3X 我正在执行外部合并 合并= pd。

回答 1 投票 0

如何选择 pandas 数据框中的行百分比

在 python 中,我有一些结构如下的数据帧: 0 0 0 0 1 1 1 1 2 2 2 2 。 。 。 。 恩恩恩恩 如何选择中间 33% 的行(由索引决定,而不是值)? 这是我尝试的: df...

回答 5 投票 0

以 5 分钟为间隔对 DataFrame 进行分组

如何使用 Python/pandas 从此 csv 中获取 5 分钟数据? 对于每 5 分钟的间隔,我尝试获取该 5 分钟间隔的日期、时间、开盘价、最高价、最低价、收盘价、成交量。 达特...

回答 4 投票 0

探索数据集中混合值类型拆分的有效方法

早安社区, 我有许多现有的数据集遵循这种格式的变体: 姓名 时间 速度1 速度2 速度3 激光 21:29:30 F350 F350 F350 派瑞克斯 21:35:40 F350 F350 F350 漫画0710...

回答 1 投票 0

根据用户选择的值计算相关系数

作为更大的 Shiny 应用程序的一部分,我尝试按价格进行过滤(以钻石数据集为例)以创建反应式数据框。使用这个数据框,我想将价格与...相关联

回答 1 投票 0

如何检查并查找 pandas 数据框中的列中的空值并创建 CSV 日志文件并将空值详细信息写入日志文件中?

嗨,我有一个数据框,如下所示 代码区域角色类型 23.AA。经过 34.BB。 C.X 南。抄送。 A.Z 56. BB。 C.Y 67. 45.C.Y. 我需要检查...

回答 1 投票 0

MEMORY_AND_DISK_DESER 如何用于 PySpark DataFrame?

有人可以解释 PySpark DataFrame 缓存/持久性的默认 MEMORY_AND_DISK_DESER 存储级别的行为吗? (似乎 DataFrame 的默认存储级别曾经来自

回答 1 投票 0

根据同一数据帧中的查找将值添加到数据帧

我尝试着想出一个解决方案,用于在 pandas 数据框中查找和填充附加列以提高可读性。 当manager_id被填充时,可以得到以下数据(截断)...

回答 1 投票 0

数据框中的数据类型不兼容

我正在开发一个Python应用程序,并且正在使用pandas数据框。不幸的是,我有这样的警告: “设置不兼容数据类型的项目已被弃用,并且将来会引发错误

回答 1 投票 0

无法使用 Places API 替换数据集的地址值

我在将地址列的原始值替换为从 Places API 响应中获取的地址时遇到问题。尽管代码及其响应一帆风顺,但有些事情必须......

回答 1 投票 0

关于使用R STUDIO过滤不同长度的数据

我有 1000 行和 800 列的数据集。我想过滤每列中的非零值,并准备一个每列中仅包含非零值的新数据集。问题是每个c...

回答 1 投票 0

在具有多个分类代码的列条目中过滤数据框以查找分类代码的第一个字母

我正在尝试将专利数据框过滤到其分类代码中。我只想获取代码中具有特定首字母的专利,但每个列条目都有多个这样的专利

回答 1 投票 0

如何将一个数据帧的值添加到另一个数据帧,并由接收数据帧进行双重条件?

我正在尝试以一种特定的方式合并两个数据帧。它们都类似于以下两个: df1 <- data.frame(Countries = c("Portugal", "Andorra", "Spain", "

回答 1 投票 0

如何将数据框列中的对转换为两个新列

我一直在尝试采用像下面的 df 这样的 DataFrame,并将一些列(例如 B_m 和 B_n)变成两列(称为 B_m1、B_m2、B_n1 和 B_n2),对于其中的每一对值专栏...

回答 2 投票 0

根据另一列中的时间限制递增行块的编号

我有一个包含 3 个字段的 df,如下所示,我希望根据挑选开始时间增量生成班次编号。 如果选择22:00到0600之间的开始时间,则为班次1;然后迭代所有

回答 1 投票 0

创建新列并从现有列的值中分配它们的值[重复]

我从 Kaggle 下载了一个用于我的项目的数据集,我想创建新列并根据现有列分配它们的值。 我的实际数据集很复杂,我会给出一个类似的...

回答 1 投票 0

使用子集与 dplyr::filter 的不一致

我有一个数据框,根据使用的过滤方法给出不同的结果。请参见下面的屏幕截图,这看起来很奇怪。对于为什么会这样有什么想法吗?

回答 1 投票 0

提高我的分类 f1_score - pandas/sklearn

我想了解如何提高分类的 f1_score 的建议。我目前的数值约为 0.57。数据集: lotWaferDie - 测量缺陷的批次、电路板和芯片 字符串值...

回答 1 投票 0

基于多列 pandas 的分组依据和总和的运行总计

我正在使用以下数据集,但在根据团队 ID 计算总分时遇到了麻烦。一支球队可以是主场也可以是客场,我正在计算他们的总计......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.