我有一个 pandas 数据框,想要绘制一列中的值与另一列中的值。幸运的是,有与数据框相关的
plot
方法似乎可以满足我的需要:
df.plot(x='col_name_1', y='col_name_2')
不幸的是,在绘图样式中(在kind
参数后面列出
here)似乎没有点。我可以使用线条或条形,甚至密度,但不能使用点。有没有解决办法可以帮助解决这个问题。
调用
style
时可以指定绘制线的
df.plot
:
df.plot(x='col_name_1', y='col_name_2', style='o')
style
参数也可以是dict
或list
,例如:
import numpy as np
import pandas as pd
d = {'one' : np.random.rand(10),
'two' : np.random.rand(10)}
df = pd.DataFrame(d)
df.plot(style=['o','rx'])
matplotlib.pyplot.plot
的文档中。
对于这个(以及大多数绘图)我不会依赖 Pandas 包装器到 matplotlib。相反,直接使用 matplotlib 即可:
import matplotlib.pyplot as plt
plt.scatter(df['col_name_1'], df['col_name_2'])
plt.show() # Depending on whether you use IPython or interactive mode, etc.
并记住,您可以使用
df.col_name_1.values
访问列值的 NumPy 数组。
在一列具有毫秒精度的时间戳值的情况下,我在使用 Pandas 默认绘图时遇到了麻烦。在尝试将对象转换为
datetime64
类型时,我还发现了一个令人讨厌的问题:< Pandas 在询问 Timestamp 列值是否具有 attr astype > 时给出了错误的结果。
Pandas
使用 matplotlib
作为基本绘图的库。对于您的情况,最简单的方法将使用以下内容:
import pandas as pd
import numpy as np
#creating sample data
sample_data={'col_name_1':np.random.rand(20),
'col_name_2': np.random.rand(20)}
df= pd.DataFrame(sample_data)
df.plot(x='col_name_1', y='col_name_2', style='o')
但是,如果您想要更多自定义绘图而不进入
seaborn
的基本级别,我建议使用 matplotlib.
作为替代解决方案 在这种情况下,您的解决方案将如下:
import pandas as pd
import seaborn as sns
import numpy as np
#creating sample data
sample_data={'col_name_1':np.random.rand(20),
'col_name_2': np.random.rand(20)}
df= pd.DataFrame(sample_data)
sns.scatterplot(x="col_name_1", y="col_name_2", data=df)
现在在最新的 pandas 中你可以直接使用 df.plot.scatter 函数
df = pd.DataFrame([[5.1, 3.5, 0], [4.9, 3.0, 0], [7.0, 3.2, 1],
[6.4, 3.2, 1], [5.9, 3.0, 2]],
columns=['length', 'width', 'species'])
ax1 = df.plot.scatter(x='length',
y='width',
c='DarkBlue')
https://pandas.pydata.org/pandas-docs/version/0.23/ generated/pandas.DataFrame.plot.scatter.html
当这个问题发布时,散点图是 pandas 中的一个单独的函数。从 pandas 0.13 开始,您可以使用
kind='scatter'
绘制两列的散点图。
df = pd.DataFrame({'colA': np.random.rand(10), 'colB': np.random.rand(10)})
df.plot(x='colA', y='colB', kind='scatter')
如果您想更改标记(例如
x
),那么您可以使用marker=
参数:
df.plot(x='colA', y='colB', kind='scatter', marker='x')
df.plot(style='o')
有什么不同?在底层,
df.plot
默认为matplotlib线图(即Axes.plot()
或plt.plot
),因此传递style=
类似于plt.plot(x, y, 'o')
。特别是,这会创建一个存储标记属性的 Axes.lines
对象。
另一方面,
df.plot(kind='scatter')
(或df.plot.scatter
)使用matplotlib的Axes.scatter
;这将创建一个 Axes.collections
对象来存储标记属性。
一个显着的区别是当您想要更改标记大小时;对于
kind='scatter'
,您必须像 s=
一样使用 plt.scatter
,但是对于线图,您必须使用 ms=
来代替。以下两个函数调用产生相同的输出。
df.plot(x='colA', y='colB', kind='scatter', s=36) # case 1
df.plot(x='colA', y='colB', style='o', ms=6) # case 2
您可以阅读此问答,了解为什么标记大小值应该不同,以便这些方法产生相同的输出。