高效将numpy数组数组转换为pandas系列数组

问题描述 投票:0回答:2

如何有效地将 numpy 数组数组转换为数组列表?最终,我想让 pandas 系列数组成为一个列,一个数据框。如果有更好的方法可以直接实现,那就太好了。

以下可重现的代码解决了

list()
.tolist()
的问题,但在我的实际数据集上实现都太慢。我正在寻找更快的东西。

import numpy as np 
import pandas as pd

a = np.array([np.array([0,1,2,3]), np.array([4,5,6,7])])

s = pd.Series(a.tolist())

s = pd.Series(list(a))

这会导致形状从

a.shape = (2,4)
变为
s.values.shape = (2,)

python arrays pandas numpy
2个回答
8
投票

您的

a

In [2]: a = np.array([np.array([0,1,2,3]), np.array([4,5,6,7])])
   ...: 

a
是 (2,4) 数值数组;我们可以直接写
a = np.array([[0,1,2,3],[4,5,6,7]])
。创建 (2,) 数组数组需要不同的构造。

正如其他人所写,制作数据框这很简单:

In [3]: pd.DataFrame(a)     # dtypes int64
Out[3]: 
   0  1  2  3
0  0  1  2  3
1  4  5  6  7

但是从中制作一系列会引发错误:

In [4]: pd.Series(a)
---------------------------------------------------------------------------
...
Exception: Data must be 1-dimensional

如果显示此错误,您的问题会更清楚,以及为什么您尝试列表输入:

In [5]: pd.Series(a.tolist())
Out[5]: 
0    [0, 1, 2, 3]
1    [4, 5, 6, 7]
dtype: object
In [6]: pd.Series(list(a))
Out[6]: 
0    [0, 1, 2, 3]
1    [4, 5, 6, 7]
dtype: object

从表面上看,它们是相同的,但是当我们查看 Series 的实际元素时,我们会看到一个包含列表,另一个包含数组。这是因为

tolist
list()
从数组创建不同的列表。

In [8]: Out[5][0]
Out[8]: [0, 1, 2, 3]
In [9]: Out[6][0]
Out[9]: array([0, 1, 2, 3])

我的经验是

a.tolist()
相当快。
list(a)
相当于
[i for i in a]
;实际上,它在
a
的第一个维度上迭代,每次返回(在本例中)一个一维数组(行)。


让我们更改

a
,使其成为一维对象 dtype 数组:

In [14]: a = np.array([np.array([0,1,2,3]), np.array([4,5,6,7]), np.array([1]), None])
In [15]: a
Out[15]: 
array([array([0, 1, 2, 3]), array([4, 5, 6, 7]), array([1]), None],
      dtype=object)

现在我们可以用它制作一个系列:

In [16]: pd.Series(a)
Out[16]: 
0    [0, 1, 2, 3]
1    [4, 5, 6, 7]
2             [1]
3            None
dtype: object
In [17]: Out[16][0]
Out[17]: array([0, 1, 2, 3])

事实上,我们可以从

a
的切片中创建一系列,即仅包含原始 2 行的切片:

In [18]: pd.Series(a[:2])
Out[18]: 
0    [0, 1, 2, 3]
1    [4, 5, 6, 7]
dtype: object

构建 1d 对象 dtype 数组的技巧已在其他 SO 问题中深入讨论。

请注意,像这样的 Series 的行为与多列 DataFrame 不同。我见过编写 csv 文件的尝试,其中像这样的元素被保存为带引号的字符串。


让我们比较一些施工时间:

制作这两种类型的更大数组:

In [25]: a0 = np.ones([1000,4],int)
In [26]: a1 = np.empty(1000, object)
In [27]: a1[:] = [np.ones(4,int) for _ in range(1000)]
# a1[:] = list(a0)   # faster

首先制作一个DataFrame:

In [28]: timeit pd.DataFrame(a0)
136 µs ± 919 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

这与

Out[3]
的时间相同;显然只是使用二维数组(任何大小)制作 DataFrame 的开销为
values

像你一样制作一个系列:

In [29]: timeit pd.Series(list(a0))
434 µs ± 12.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
In [30]: timeit pd.Series(a0.tolist())
315 µs ± 5.64 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

这两个都比小

a
长,反映了创作的迭代性质。

以及一维对象数组:

In [31]: timeit pd.Series(a1)
103 µs ± 1.66 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

这与小型一维数组相同。与

In[28]
一样,我认为只是创建一个
Series
对象,然后为其分配一个未更改的值数组的开销。

现在构建

a1
数组的速度较慢。

a1
这样的对象数组在很多方面就像一个列表 - 它包含指向内存中其他位置的对象的指针。如果元素类型不同(例如包含字符串或 None),它可能很有用,但在计算上它并不等同于二维数组。


总之,如果源数组确实是一维对象 dtype 数组,您可以从中快速创建一个

Series
。如果它确实是一个二维数组,您需要以某种方式首先将其转换为列表或一维对象数组。


1
投票

您可以从公共长度列表或列表列表的字典中制作DataFrame。在前一种情况下,pandas 将键转换为列名,将列表转换为列值,在后一种情况下,每个列表都被视为行。

import numpy as np 
import pandas as pd

a = np.array([np.array([0,1,2,3]), np.array([4,5,6,7])])
df = pd.DataFrame()
df['a'] = a.tolist()
df

输出:

    a
0   [0, 1, 2, 3]
1   [4, 5, 6, 7]
© www.soinside.com 2019 - 2024. All rights reserved.