我想在数据框架中使用偏斜分布创建一个新列。我希望它有64000个数据点,最小值为0(没有负值),并且某种偏斜的形状,其中大多数人接近0,然后以较高的值向右平移。
我已经尝试过了,但是我做不到。非常感谢您的帮助。
rv = skewnorm.rvs(400000, size=100000)
您可以根据所要使用的内容使用exponential或poisson分布。 指数分布将给出连续值,而泊松将给出离散值。两者都可以在numpy
包中找到。创建numpy
数组后,可以轻松将其添加到pandas
数据帧中。
指数分布(numpy):
import numpy as np
beta = 10
s = np.random.exponential(beta, 64000)
beta
用作比例参数,将确定值的大小,同时保持总体分布形状。用beta=10
和100个箱进行绘图:
泊松分布(numpy):
import numpy as np
lam = 0.9
s = np.random.poisson(lam , 64000)
速率参数lam
将确定分布的形状。平均值和方差都将等于lam
。注意,仅获得离散值。带有lam=0.9
和8个槽的图: