如何构建具有多维输入和输出的Keras模型?

问题描述 投票:0回答:1

我正在建立一个神经网络来制作歌曲。我有一个文件,其中包含一首歌的所有音符,一行对应一个音符:

0 0 0.05511 0.78740
0 0 0.07874 0.50393
0 0 0.71653 1
0 0 0.50393 0
.. .. .. ..

我想给神经网络提供10个第一个音符,我希望它给下一个音符作为输出,必须在这10个音符之后播放。

但是我不知道如何构建第一层和最后一层(Dense,LSTM ......),因为我有:

  1. 输入10x4维(4列10行)。
  2. 输出1x4维度(1行和4列)。

这是我的代码的开头(它无法正确读取我的数据):

model = Sequential()
model.add(Dense(10, activation='relu',input_shape = (10,4)))
model.add(Dense(4, activation='relu'))

谢谢您的帮助。

python multidimensional-array machine-learning neural-network keras
1个回答
0
投票

这是一个序列预测问题,最好用经常性或长期短期记忆网络解决。

以下可以是一个很好的首发:

from keras.models import Sequential
from keras.layers import LSTM, Dense, Dropout
import numpy as np

#assuming all 4 columns correspond to 1 song
data_dim = 4
#so one song would be 10x4 2D array 
number_of_notes_per_song = 10
nsongs_train = 100
#tunable parameter
batch_size = 32
epochs = 5

# I generated dummy data, but you have your own...
x_train = np.random.random((nsongs_train, number_of_notes_per_song, data_dim)).reshape(nsongs_train*number_of_notes_per_song,data_dim)

#this is a supervised learning problem, but your dataset has no labels..
#we can use last note in each song as a label when training LSTM 
X = x_train[np.mod(np.arange(x_train.shape[0]),number_of_notes_per_song)!=0].reshape(nsongs_train,number_of_notes_per_song-1,data_dim)
y = x_train[::number_of_notes_per_song].reshape(nsongs_train,data_dim) 

model = Sequential()
model.add(LSTM(32, input_shape=(number_of_notes_per_song-1, data_dim),return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(64))
model.add(Dropout(0.2))
model.add(Dense(data_dim, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam')

model.fit(X,y,batch_size=batch_size, epochs=epochs)

#predict on unseen data, expects tensors of shape (None, number_of_notes_per_song-1, data_dim)
model.predict(...)

请注意,这是受监督的机器学习问题,但您的数据集没有标签。我们可以通过使用每首歌曲中的最后一个音符作为标签来解决这个问题。这有效地将序列长度减少了1个音符。

另请注意,如果您的歌曲有数百个音符,最好将它们以子序列提供给LSTM,而不是在歌曲结束之前重置状态。 Here是与Keras进行有状态训练的一个例子。

如果需要预测整首歌曲(而不仅仅是下一个字符),则需要在所有return_sequences=True图层中设置LSTM,并在输出处使用TimeDistributed密集图层。

© www.soinside.com 2019 - 2024. All rights reserved.