Nvidia 4060 TI 8GB 在分类中比CPU慢

Question

我正在使用本教程： https://www.tensorflow.org/tutorials/images/classification

在测试中，CPU 运行大约需要 50 秒，GPU 大约需要 7-8 分钟。我猜我做错了什么。

我的CPU是intel i5第10代，带有96内存。我希望 GPU 的运行速度至少快 2 倍

我启用了混合精度，以便确保它使用张量核心

从tensorflow.keras导入mixed_ precision mix_ precision.set_global_policy('mixed_float16')

我错过了什么......使用分类算法时，rtx 4060 ti 8gb vram 这么慢吗？

我有大约 1000 个类，但这不相关，因为 cpu 快得多......

我使用的是512批次，vram为6/8，cpu大部分时间约为50%

我也在做BatchNormalization

model = Sequential([
  data_augmentation,
  layers.Rescaling(1./255),
  layers.Conv2D(16, 3, padding='same', activation='relu'),
  BatchNormalization(),
  layers.MaxPooling2D(),
  layers.Conv2D(32, 3, padding='same', activation='relu'),
  BatchNormalization(),
  layers.MaxPooling2D(),
  layers.Conv2D(64, 3, padding='same', activation='relu'),
  BatchNormalization(),
  layers.MaxPooling2D(),
  layers.Dropout(0.2),
  BatchNormalization(),
  layers.Flatten(),
  layers.Dense(128, activation='relu'),
  layers.Dense(num_classes, name="outputs")
])

ps：我是ai新手

我尝试使用不同的批量大小

我尝试禁用 GPU 并仅在 cpu 上运行来进行测试

我检查了 ram、磁盘和 cpu 是否存在瓶颈（没有一个是 100%）。当我在 cpu 上运行时，使用率为 100%，gpu 为 1% 或更少

这些是我做过的批量测试

Batch Time 
4 377s 
8  304s
16  317s 
32 335s
64 446s

And this is the model:

 Layer (type)                Output Shape              Param #   
=================================================================
 sequential_1 (Sequential)   (None, 256, 256, 3)       0         
                                                                 
 rescaling_2 (Rescaling)     (None, 256, 256, 3)       0         
                                                                 
 conv2d_3 (Conv2D)           (None, 256, 256, 16)      448       
                                                                 
 batch_normalization (BatchN  (None, 256, 256, 16)     64        
 ormalization)                                                   
                                                                 
 max_pooling2d_3 (MaxPooling  (None, 128, 128, 16)     0         
 2D)                                                             
                                                                 
 conv2d_4 (Conv2D)           (None, 128, 128, 32)      4640      
                                                                 
 batch_normalization_1 (Batc  (None, 128, 128, 32)     128       
 hNormalization)                                                 
                                                                 
 max_pooling2d_4 (MaxPooling  (None, 64, 64, 32)       0         
 2D)                                                             
                                                                 
 conv2d_5 (Conv2D)           (None, 64, 64, 64)        18496     
                                                                 
 batch_normalization_2 (Batc  (None, 64, 64, 64)       256       
 hNormalization)                                                 
                                                                 
 max_pooling2d_5 (MaxPooling  (None, 32, 32, 64)       0         
 2D)                                                             
                                                                 
 dropout (Dropout)           (None, 32, 32, 64)        0         
                                                                 
 batch_normalization_3 (Batc  (None, 32, 32, 64)       256       
 hNormalization)                                                 
                                                                 
 flatten_1 (Flatten)         (None, 65536)             0         
                                                                 
 dense_2 (Dense)             (None, 128)               8388736   
                                                                 
 outputs (Dense)             (None, 863)               111327    
                                                                 
=================================================================
Total params: 8,524,351
Trainable params: 8,523,999
Non-trainable params: 352
_________________________________________________________________

这就是我加载数据的方式：

folder = "some-folder"
train_ds = tf.keras.utils.image_dataset_from_directory(

    folder,
 validation_split=0.2,
  subset="training",
  seed=1,
  image_size=image_size,
  batch_size=batch_size)

val_ds = tf.keras.utils.image_dataset_from_directory(
    folder,
    validation_split=0.2,
  subset="validation",
  seed=1,
  image_size=image_size,
  batch_size=batch_size)

这是自动调谐部分

AUTOTUNE = tf.data.AUTOTUNE

train_ds = train_ds.cache().shuffle(1000).prefetch(buffer_size=AUTOTUNE)
val_ds = val_ds.cache().prefetch(buffer_size=AUTOTUNE)
normalization_layer = layers.Rescaling(1. / 255)

normalized_ds = train_ds.map(lambda x, y: (normalization_layer(x), y))
niter = iter(normalized_ds)
image_batch, labels_batch = next(niter)
first_image = image_batch[0]
# Notice the pixel values are now in `[0,1]`.
print(np.min(first_image), np.max(first_image))

Nvidia 4060 TI 8GB 在分类中比CPU慢

问题描述投票：0回答：0

最新问题

Nvidia 4060 TI 8GB 在分类中比CPU慢

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0