在Tensorflow中向神经网络添加额外层的麻烦

问题描述 投票:0回答:1

我正在尝试向神经网络添加第二个隐藏层,对MNIST数据集进行训练。只有一个简单的隐藏层,训练工作正常,准确性稳步提高。

当我尝试添加第二层时,每次开始训练时精度都会停留在0.117。只是无法弄清楚我在这里做错了什么?

我试过把sigmoid添加到我的y没有运气。

XTrain = XTrain[0:10000,:]
YTrain = YTrain[0:10000]

K = len(set(YTrain))
N = len(YTrain)
M = 12 #Hidden layer units
D = XTrain.shape[1]


tfX = tf.placeholder(tf.float32, [None, D])
tfY = tf.placeholder(tf.float32, [None, K])                    

# HIDDEN LAYER 1
W1 = tf.Variable(tf.random_normal([D,M], stddev=0.01))
b1 = tf.Variable(tf.random_normal([M], stddev=0.01))

# HIDDEN LAYER 2
W2 = tf.Variable(tf.random_normal([M,M], stddev=0.01))
b2 = tf.Variable(tf.random_normal([M], stddev=0.01))

# OUTPUT LAYER 
W3 = tf.Variable(tf.random_normal([M,K], stddev=0.01))
b3 = tf.Variable(tf.random_normal([K], stddev=0.01))

# MODEL
h1 = tf.nn.sigmoid(tf.matmul(tfX, W1) + b1)
h2 = tf.nn.sigmoid(tf.matmul(h1, W2) + b2)
y = tf.matmul(h2,W3) + b3

# Softmax and cross-entropy
cost = tf.reduce_mean(
  tf.nn.softmax_cross_entropy_with_logits_v2(
    labels = tfY,
    logits = y)
)

# Targets One-Hot encoded
T = np.zeros((N,K)) 
for i in range(N):
    T[i,YTrain[i]] = 1

#Gradient descent
train_op = tf.train.GradientDescentOptimizer(0.05).minimize(cost)

predict_op = tf.argmax(y, 1)

# Start session and initialize variables
sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init)

# TRAIN
for i in range(10000):
    sess.run(train_op, feed_dict={tfX: XTrain, tfY: T})
    pred = sess.run(predict_op, feed_dict={tfX: XTrain, tfY: T})
    if i % 20 == 0:
        print("Accuracy:", np.mean(YTrain == pred)) 

当我开始训练时,输出如下所示:

精度:0.0991精度:0.1127精度:0.1127精度:0.1127精度:0.1127精度:0.1127精度:0.1127精度:0.1127精度:0.1127精度:0.1127精度:0.1127精度:0.1127

python tensorflow hidden layer
1个回答
0
投票

我自己想出了解决问题的方法。

显然,权重的初始化是不对的。如果我将初始化更改为:

# HIDDEN LAYER 1
W1 = tf.Variable(tf.random_normal([D,M], stddev=1) / np.sqrt(D))
b1 = tf.Variable(tf.random_normal([M], stddev=1))

# HIDDEN LAYER 2
W2 = tf.Variable(tf.random_normal([M,M], stddev=1) / np.sqrt(M))
b2 = tf.Variable(tf.random_normal([M], stddev=1))

# OUTPUT LAYER 
W3 = tf.Variable(tf.random_normal([M,K], stddev=1) / np.sqrt(M))
b3 = tf.Variable(tf.random_normal([K], stddev=1))

为什么我仍然不太确定,会欣赏任何答案和反馈。

© www.soinside.com 2019 - 2024. All rights reserved.