pandas 相关问题

Pandas是一个用于数据处理和分析的Python库,例如统计数据,实验科学结果,计量经济学或金融学中常见的数据框架,多维时间序列和横截面数据集。 Pandas是Python中主要的数据科学库之一。

将 python UDF 转换为 pandas UDF 以提高 PySpark 中的性能

我在Python中有多个函数在PySpark中用作UDF,但问题是我的数据太大,应用所有这些UDF需要很长时间才能完成转换。

回答 1 投票 0

组合两个具有不等列数的 pandas 数据框(超集)

我有以下代码 将 pandas 导入为 pd df1 = pd.DataFrame({'a':[1,2,3],'y':[7,8,9]}) df2 = pd.DataFrame({'b':[10,11,12],'x':[13,14,15],'y':[16,17,18]}) pd.DataFrame(np.vstack([df1, df2]), columns=df1.

回答 1 投票 0

使用 pandas 进行单元测试

我对一般的单元测试,尤其是 Python 的单元测试很陌生。 当尝试验证 pandas 数据帧 df 时,我通常: 检查 df 是否为空(使用此处详细介绍的方法之一)。

回答 1 投票 0

Pandas 为分层索引的内层增加价值

我有一个带有分层索引(MultiIndex)的 Pandas DataFrame。我通过对“cousub”和“year”的值进行分组来创建此数据框。 AnnualMed = df.groupby(["cousub", "年份"])[["比率", "

回答 2 投票 0

pd.ArrowDtype(pa.string()) 和 pd.StringDtype("pyarrow") 有什么区别?

从这里我们可以阅读:https://pandas.pydata.org/docs/user_guide/pyarrow.html 字符串别名“string[pyarrow]”映射到 pd.StringDtype(“pyarrow”),它不等于

回答 1 投票 0

pandas.DataFrame.query() - 如何使用 @ 访问类变量?

在使用 pandas.DataFrame.query() 时,使用查询字符串中的“@”字符来引用变量。但是,当您引用类变量时,这样做似乎会引发错误。请参阅示例...

回答 1 投票 0

如何找到多个重复行之后的第一行?

我的数据框是: 将 pandas 导入为 pd df = pd.DataFrame( { 'x': ['a', 'a', 'a', 'b', 'b', 'c', 'c', 'c',], 'y':列表(范围(8)) } ) 这是预期的输出。我想...

回答 1 投票 0

在 pandas groupby/apply 之后删除 rownumber 列

我有这个数据(多个查询,每个查询有多个变体,每个变体有多个持续时间): 将 pandas 导入为 pd df = pd.DataFrame({ “查询”:[“q1”,“...

回答 1 投票 0

如何在 pd.read_sql 查询中使用日期变量

我正在尝试使用 Python 从 Oracle 检索 Pandas 数据框的数据。虽然代码运行没有任何错误,但无法显示结果。问题出在...

回答 1 投票 0

内核似乎已经死亡。它会自动重新启动。 (导入 numpy 或 pandas 时)

导入 numpy 或 pandas 时出现此错误。 我已经尝试了类似帖子中找到的所有解决方案,但没有成功。我已经降级或升级了很多库,但问题仍然是...

回答 1 投票 0

如何在跳过另一个字段中重复的行的同时执行 pandas cumsum?

我正在尝试使用 pandas.cumsum() 函数,但在某种程度上忽略了 ID 列中具有重复值的行,并且具体只将最后一个值添加到累积和中,ign...

回答 2 投票 0

如何执行 pandas cumsum,同时跳过在另一个字段中重复的行

我正在尝试使用 pandas.cumsum() 函数,但在某种程度上忽略 ID 列中具有重复值的行,并且具体来说仅将最后一个值添加到累积和中,ign...

回答 1 投票 0

Pandas 将对象类型转换为字符串数组

我有一个 pandas 数据框列,其中包含字符串数组,例如 [“一二三四五六”] 但是当我打印专栏时

回答 1 投票 0

根据 Pandas DataFrame 检查列表中的值

我有一个 Pandas DataFrame,其中包含单词及其相关情绪的列表(每个单词可以附加多种情绪)。像这样的事情: 我还提取了文本的标记,使用...

回答 1 投票 0

用 pandas 将月份格式化为个位数

我有以下代码 将 pandas 导入为 pd pd.to_datetime(['8/23/1999']).strftime("%m/%d/%Y").astype('str') 这会生成 08/23/1999 不过我想得到 8/23/1999 有具体的吗

回答 1 投票 0

翻译后的 R 脚本在 Python 中引发错误

以下问题是 StatsExchange 上一篇文章的具体改编 [https://stats.stackexchange.com/questions/10182/intraclass-correlation-coefficient-vs-f-test-one-way-anova/ 11732#11...

回答 1 投票 0

在数据框中找不到子字符串值

我有以下代码,我在其中创建了数据框“nvaluestrans”。我想检查此数据帧的索引以查找“子字符串”变量中定义的文本。我有手动

回答 1 投票 0

管理不同格式的日期列

我正在尝试将文本格式但表示混合格式日期的 pandas 数据框列转换为正确的日期格式。下面是一个这样的例子, 将 pandas 导入为 pd pd.to_datetime(['0...

回答 1 投票 0

无法将 pandas 日期时间对象转换为其他格式

我尝试将 python 日期时间对象转换为另一种格式,如下所示 将 pandas 导入为 pd pd.to_datetime(['1/1/1900']).dt.strftime('%Y-%m') 但是上面的代码会产生错误。 可以请你...

回答 1 投票 0

比较两个线串地理数据框

我有两个地理数据框new_df(差异用蓝色圈出)[1]:https://i.sstatic.net/g6td5.png 这是一个从 shapefile 和 post_df [1] 导入的 geopandas 数据框:https://i.

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.