从tfrecords导入数据后,批处理后标签的顺序是错误的

问题描述 投票:1回答:1

从tfrecords文件导入数据时出现问题。 tfrecords中的每个样本都包含一个长度为100的feautures向量和一个长度为13的单热标签向量。我使用下面的代码从tfrecords导入数据,参考官方指南https://www.tensorflow.org/programmers_guide/datasets

def read_data(examples):
    features = {"features": tf.FixedLenFeature([seq_len], tf.int64),
               "label": tf.FixedLenFeature([category], tf.int64)}
    parsed_features = tf.parse_single_example(examples, features)
    return parsed_features['features'], parsed_features['label']

# get next batch of data and label
def next_batch(filename, batch_size):
    data = tf.data.TFRecordDataset(filename)
    data = data.map(read_data)
    data = data.batch(batch_size)
    iterator = data.make_one_shot_iterator()
    next_data, next_label = iterator.get_next()
    return next_data, next_label

with tf.Session() as sess:
    filetrain = 'train.tfrecords'
    next_data, next_label = next_batch(filetrain, num_example_train)
    sess.run(tf.global_variables_initializer())

    data = sess.run(next_data)
    label = sess.run(next_label)

问题是批处理后标签的顺序会出错。如果我删除代码'data = data.batch',一切都OK。

我认为一个可能的原因是功能和标签是独立批处理的。因此我尝试在批处理后解析示例,但得到错误“输入序列化必须是标量”。如果您知道如何处理这个问题,请帮助我,非常感谢!

python tensorflow tensorflow-datasets
1个回答
1
投票

我确信这是重复的,但我找不到其他问题,所以我会在这里回答。

您的问题是为数据和标签调用sess.run()两次。每当你调用sess.run时,你的图形都会被评估(即,一个新的批处理被提取并在图形中运行,直到你传递给run的第一个参数的列表中的张量的所有值都已知)。

这样做,你的datalabel指的是两个不同的批次(因此他们看起来错了)。

你需要在同一个电话中获得它们:

data, label = sess.run([next_data, next_label])
© www.soinside.com 2019 - 2024. All rights reserved.