dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

处理从 CSV 创建的数据框中的 NaN 条目

我正在尝试比较两个数据帧。第一个数据帧是从字典创建的。有些地方的值可能为空,如下所示: '房间 #': '' 第二个数据帧是根据相应的数据帧创建的...

回答 1 投票 0

来自不同数据框中的两列的新数据框

我需要从另外两个数据框的列创建一个新的数据框 df1=A, 乙, C df2 = X, 是, Z 索引是相同的,当我使用代码时会发生什么 #df3 ...

回答 1 投票 0

gym anytrading python 数据帧格式

我对gymanytrading很陌生,我有这个python数据框,其中有一列包含不同长度的列表列表,我正在尝试弄清楚如何将其放入gymanytrading

回答 1 投票 0

将 api 输出的所有响应插入具有单独列名称的 pandas 数据帧

我有一个 json 响应,如下所示。 ['{“accountNumber”:“2130005”,“billDayModelName”:“”,“billDayModelScore”:“0”,“defaultBadWriteOffModel...

回答 1 投票 0

Python,Pandas 写入数据帧,lxml.etree.SerializationError:IO_WRITE

从数据框中选取所需行的代码。原始数据是Excel格式的,我把它放在数据框中。 我想选择“测试日期”属于“201506”和“201508”的所有行,并且...

回答 2 投票 0

将 R 中特定列的值向右移动

我想将特定列的值向右移动,并将 NA 保留在左侧。 df = data.frame(a = c("一", "二", "三", "四", "五"...

回答 1 投票 0

“calculate_bartlett_sphericity”测试输出 nan 值

我有一个数据框V,如下所示: ECON1 ECON2 ECON3 食品1 食品2 食品3 ENV1 \ 28 0.310071 0.096913 0.228500 0.234986 0.260894 0.267858 0.489309 28 0.353609...

回答 1 投票 0

Pandas Dataframe 具有无法访问的列

我有一个非常奇怪的错误。 我读了一个 csv 文件,它包含 2 列:“Column”和“NA_Value”。 我正在用 pandas 读取文件。两列均可访问...

回答 1 投票 0

按日级别比较数据帧的列值与另一个数据帧

我有以下两个数据框 盒子 box_cap 尺寸偏好 1 16 1200 1 2 16 1550 2 3 15 1300 ...

回答 1 投票 0

在 PySpark 中将 Column 对象转换为 DataFrame

我有一个 JSON 列表,我正在使用 from_json 读取它。如何将生成的列类型转换为单列数据框? 从 pyspark.sql.functions 导入 from_json 来自 pyspark.sql.types 我...

回答 1 投票 0

如何从数据帧中查找属于时间范围内的行?

我想从我的数据框中找到上午 7 点到上午 11 点(含)之间的所有行 使用此代码,我将 csv 读入包含相关数据的数据框中 df = pd.read_csv(info.csv) amount_df = pd。

回答 1 投票 0

将数据集中的值增加到当前包含的最高数量

数据是 结构(列表(国家= c(“意大利”,“意大利”,“意大利”,“意大利”, “意大利”,“意大利”,“意大利”,&...

回答 1 投票 0

合并和合并Excel文件的时间范围

我正在尝试将大约 15 个以上的 Excel 文件合并为一个大文件。还有时间不匹配的情况,我想将一些时间范围合并为一个。例如,如果您有上午 10:15 - 上午 10:30 并且...

回答 1 投票 0

如何让pandas中的保留计算更加高效?

我正在尝试根据用户 ID 计算 7 天保留率(用户是否在 7 天内回来过?)。目前,我正在使用这段代码: df_retention['seven_day_retention']=df_retention.groupby('user_i...

回答 3 投票 0

自动更改列表的列表

如何改变 10 列,如果基因在模块内则包含 TRUE,如果不在模块内则包含 FALSE? gene_express = data.frame(gene = c('基因1', '基因2', '基因3', '基因4', '基因5', '基因...

回答 1 投票 0

通过数据帧中的重复数据删除事务保留每个主键的最新记录

我正在研究数据宠物项目,探索增量格式和表格。 初始加载文件包含 Op,它是操作标记为“I”的操作,在 pyspark 中读取并保存为 delta 格式。 接下来

回答 1 投票 0

在 for 循环中动态创建、合并和保存数据帧

我有两个不同的数据集。一个数据集描述级别和位置(包含 4 个文件)。第二个数据集描述了技术和位置(包含 3 个文件)。 导入操作系统 进口熊猫...

回答 1 投票 0

Pyspark - 通过数据帧中的重复数据删除事务保留每个主键的最新记录

我正在研究数据宠物项目,探索增量格式和表格。 初始加载文件包含 Op,它是操作标记为“I”的操作,在 pyspark 中读取并保存为 delta 格式。 接下来

回答 1 投票 0

计算 pandas 数据框中的相对成交量比率指标并将指标值添加为新列

我知道已经有一些关于此的帖子,但我的情况有点不同,我想在这方面获得一些帮助。 我有一个 pandas 数据框 symbol_df ,其 1 分钟条形图格式如下......

回答 1 投票 0

如何读取 .txt 文件以绘制显示日复一日、甚至月复一日的图表

我得到了以下格式的文件: 00:01:28,102,103,103 20-03-2024 00:02:16,111,110,110 00:02:33,108,109,109 00:02:49,107,108,108 24小时阅读.... 23:58:54,111,112,112 23:59:11,109,110,110 23:59:...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.