我不明白为什么我们在神经网络中如此频繁地使用“e”,可能是 sigmoid 函数或 softmax 函数。
在 sigmoid 函数中,我们本质上是将值 y=mx+b 压缩到 0-1 范围内,所以为什么我们专门使用“e”。如果我们凭直觉,使用“2”而不是“e”是有意义的,我的意思是我们要进行二元分类,这样才有意义,对吗?
另外,在 softmax 函数中,我们采用 e^x / sum(e^x) 为什么我们需要这样做,我的意思是我们试图获得 x 属于哪个类的概率,所以为什么我们不能直接这样做你知道像这样 x/sum(abs(x)) 吗?