如何使用点绘制 pandas 数据框的两列

Question

我有一个 pandas 数据框，想要绘制一列中的值与另一列中的值。幸运的是，有与数据框相关的

plot

方法似乎可以满足我的需要：

df.plot(x='col_name_1', y='col_name_2')

不幸的是，在绘图样式中（在kind参数后面列出

here

）似乎没有点。我可以使用线条或条形，甚至密度，但不能使用点。有没有解决办法可以帮助解决这个问题。

Answer 1

调用

style

时可以指定绘制线的

df.plot：

df.plot(x='col_name_1', y='col_name_2', style='o')

style

参数也可以是

dict

或

list

，例如：

import numpy as np
import pandas as pd

d = {'one' : np.random.rand(10),
     'two' : np.random.rand(10)}

df = pd.DataFrame(d)

df.plot(style=['o','rx'])

所有接受的样式格式都列在

matplotlib.pyplot.plot

的文档中。

Output

Answer 2

对于这个（以及大多数绘图）我不会依赖 Pandas 包装器到 matplotlib。相反，直接使用 matplotlib 即可：

import matplotlib.pyplot as plt
plt.scatter(df['col_name_1'], df['col_name_2'])
plt.show() # Depending on whether you use IPython or interactive mode, etc.

并记住，您可以使用

df.col_name_1.values

访问列值的 NumPy 数组。

在一列具有毫秒精度的时间戳值的情况下，我在使用 Pandas 默认绘图时遇到了麻烦。在尝试将对象转换为

datetime64

类型时，我还发现了一个令人讨厌的问题：< Pandas 在询问 Timestamp 列值是否具有 attr astype > 时给出了错误的结果。

Answer 3

Pandas

使用

matplotlib

作为基本绘图的库。对于您的情况，最简单的方法将使用以下内容：

import pandas as pd
import numpy as np

#creating sample data 
sample_data={'col_name_1':np.random.rand(20),
      'col_name_2': np.random.rand(20)}
df= pd.DataFrame(sample_data)
df.plot(x='col_name_1', y='col_name_2', style='o')

但是，如果您想要更多自定义绘图而不进入

seaborn

的基本级别，我建议使用

matplotlib.

作为替代解决方案在这种情况下，您的解决方案将如下：

import pandas as pd
import seaborn as sns
import numpy as np

#creating sample data 
sample_data={'col_name_1':np.random.rand(20),
      'col_name_2': np.random.rand(20)}
df= pd.DataFrame(sample_data)
sns.scatterplot(x="col_name_1", y="col_name_2", data=df)

Answer 4

现在在最新的 pandas 中你可以直接使用 df.plot.scatter 函数

df = pd.DataFrame([[5.1, 3.5, 0], [4.9, 3.0, 0], [7.0, 3.2, 1],
                   [6.4, 3.2, 1], [5.9, 3.0, 2]],
                  columns=['length', 'width', 'species'])
ax1 = df.plot.scatter(x='length',
                      y='width',
                      c='DarkBlue')

https://pandas.pydata.org/pandas-docs/version/0.23/ generated/pandas.DataFrame.plot.scatter.html

Answer 5

当这个问题发布时，散点图是 pandas 中的一个单独的函数。从 pandas 0.13 开始，您可以使用

kind='scatter'

绘制两列的散点图。

df = pd.DataFrame({'colA': np.random.rand(10), 'colB': np.random.rand(10)})
df.plot(x='colA', y='colB', kind='scatter')

如果您想更改标记（例如

），那么您可以使用

marker=

参数：

df.plot(x='colA', y='colB', kind='scatter', marker='x')

这与

df.plot(style='o')

有什么不同？

在底层，

df.plot

默认为matplotlib线图（即

Axes.plot()

或

plt.plot

），因此传递

style=

类似于

plt.plot(x, y, 'o')

。特别是，这会创建一个存储标记属性的

Axes.lines

对象。

另一方面，

df.plot(kind='scatter')

（或

df.plot.scatter

）使用matplotlib的

Axes.scatter

；这将创建一个

Axes.collections

对象来存储标记属性。

一个显着的区别是当您想要更改标记大小时；对于

kind='scatter'

，您必须像

s=

一样使用

plt.scatter

，但是对于线图，您必须使用

ms=

来代替。以下两个函数调用产生相同的输出。

df.plot(x='colA', y='colB', kind='scatter', s=36)  # case 1
df.plot(x='colA', y='colB', style='o', ms=6)       # case 2

您可以阅读此问答，了解为什么标记大小值应该不同，以便这些方法产生相同的输出。

如何使用点绘制 pandas 数据框的两列

问题描述投票：0回答：5

5个回答

这与
`df.plot(style='o')`
有什么不同？

最新问题

如何使用点绘制 pandas 数据框的两列

问题描述 投票：0回答：5

5个回答

这与df.plot(style='o')有什么不同？

最新问题

问题描述投票：0回答：5

这与
`df.plot(style='o')`
有什么不同？