Python 3.5,从sklearn预处理
df = quandl.get('WIKI/GOOGL')
X = np.array(df)
X = preprocessing.scale(X)
preprocessing.scale()算法将您的数据放在一个比例上。这对于大量稀疏的数据集很有用。简而言之,您的数据非常分散。例如,X的值可能是这样的:
X = [1,4,400,10000,100000]
稀疏性的问题在于它非常偏颇或在统计学上倾斜。因此,缩放数据会将所有值集中到一个刻度上,从而消除稀疏性。关于它如何在数学细节中工作,这遵循标准化和标准化的相同概念。您可以对这些进行研究,以了解它的详细信息。但为了让生活变得更简单,sklearn算法可以为您完成一切!
缩放数据可将所有值集中在一个刻度上,消除稀疏性,并遵循标准化和标准化的相同概念。要查看效果,可以在处理前后对数据帧调用describe:
df.describe()
#with X is already pre-proccessed
df2 = pandas.DataFrame(X)
df2.describe()
你会看到df2的平均值为0,每个字段的标准变量为1。
preprocessing.scale()方法有助于数据点的标准化。它将除以标准偏差并减去每个数据点的平均值。