如何“调整”数据集,使总和等于1.(我以为我知道正确的术语)

问题描述 投票:0回答:1

我提前道歉这个问题措辞粗糙的方式。我最长时间的印象是我正在尝试做的事情被称为“规范化数据”,但谷歌搜索后试图找到这样做的方法,我似乎错了所以我不确定它到底是什么我打算这样做(请跟我说)。

我有一组这样的数据:

0.17407
0.05013
0.08520
0.02892
0.02986
0.06286
0.04453
0.00425
0.20470
0.02267
0.01470
0.02460
0.01735
0.01069
0.02168
0.13912
0.02004
0.02018
0.07837

当你添加它们时,你得到1.05392

我想“调整”数据集,以便相对值保持不变但总和等于1.当我用Google搜索规范化数据集时,我找到了这样的公式:

(x-min(x))/(max(x)-min(x))

但是,这只是将每个数据点“排名”为最大值的某个百分比,这样您的数据集中的最大值等于1,最小值为0。

额外:如果没有规范化数据,有人可以告诉我这是什么。很明显,我一直在徘徊这种无知的信念。

math statistics dataset normalization
1个回答
1
投票

如果您希望数据总和为1,则可以规范化数据。您可以通过除以系列的总和(sum_i x_i,其中x_i是数据系列的元素)进行标准化。

你提到的公式是另一种可能的重新缩放,但正如你所观察到的那样,它具有不同的效果。请注意,在第一种情况下,您映射x -> c*x(在您的情况下:x -> 1/1.05392*x),而第二种情况用x -> c*x + offset重新缩放。还要注意,后者不是线性的(除非是min(x) = 0),即f(x+y) != f(x) + f(y)

如果你的整个混乱是关于事物的命名,那么我不会太担心。毕竟只有惯例和共同协议,但没有绝对的真理/权威。这些术语在不同领域重复使用,参见Normalization on Wikipedia

规范化或规范化是指使某些事物更正常或更规则的过程

© www.soinside.com 2019 - 2024. All rights reserved.