我正在开发我的第一个GANs模型,我使用MNIST数据集遵循Tensorflows官方文档。我运行得很顺利。我尝试用我自己的数据集替换MNIST,我准备好了与MNSIT相同的大小:28 * 28,它的工作。
但是,我的数据集比MNIST更复杂,因此我尝试增大数据集的图像大小:512 * 512,但我不断得到与输入和输出形状相关的错误。我无法弄清楚鉴别器和生成器的所有这些输入和输出形状之间的关系。假设我想将我的数据集从28 * 28(MNSIT大小)更改为y*y(自定义大小),我需要在这些层中调整哪些输入/输出形状?为什么?有人可以澄清这个流程吗?
这是我的代码,我重塑我的数据集匹配MNIST大小:
train_images = train_images.reshape(train_images.shape[0], 28, 28, 1).astype('float32')
这里我将它归一化
train_images = (train_images - 127.5) / 127.5 # Normalize the images to [-1, 1]
这是发生器模型,其中最后一层的输出形状指示某个28 * 28:
def make_generator_model():
model = tf.keras.Sequential()
model.add(layers.Dense(7*7*256, use_bias=False, input_shape=(100,)))
model.add(layers.BatchNormalization())
model.add(layers.LeakyReLU())
model.add(layers.Reshape((7, 7, 256)))
assert model.output_shape == (None, 7, 7, 256) # Note: None is the batch size
model.add(layers.Conv2DTranspose(128, (5, 5), strides=(1, 1), padding='same', use_bias=False))
assert model.output_shape == (None, 7, 7, 128)
model.add(layers.BatchNormalization())
model.add(layers.LeakyReLU())
model.add(layers.Conv2DTranspose(64, (5, 5), strides=(2, 2), padding='same', use_bias=False))
assert model.output_shape == (None, 14, 14, 64)
model.add(layers.BatchNormalization())
model.add(layers.LeakyReLU())
model.add(layers.Conv2DTranspose(1, (5, 5), strides=(2, 2), padding='same', use_bias=False, activation='tanh'))
assert model.output_shape == (None, 28, 28, 1)
return model
这是鉴别器模型,其中第一层的输入指示某个28 * 28:
def make_discriminator_model():
model = tf.keras.Sequential()
model.add(layers.Conv2D(64, (5, 5), strides=(2, 2), padding='same',
input_shape=[28, 28, 1]))
model.add(layers.LeakyReLU())
model.add(layers.Dropout(0.3))
model.add(layers.Conv2D(128, (5, 5), strides=(2, 2), padding='same'))
model.add(layers.LeakyReLU())
model.add(layers.Dropout(0.3))
model.add(layers.Flatten())
model.add(layers.Dense(1))
return model
2条答案
按热度按时间pcww981p1#
以下是计算Conv2DTranspose输出形状的公式,您可以将其视为一种可学习的上采样方式:
其中,
H = output size
,H1 = input size
,HF = height of filter
。从"how-to-calculate-the-output-shape-of-conv2d-transpose"因此Conv2DTranspose的输入和输出形状应该是:
其中None表示批大小
要使代码可运行,您可以将第一个密集层的输出形状更改为
(8*8*256)
,并重复Conv2DTranspose->BatchNormalization->LeakyReLU
块,直到灰度变为(512*512)
或RGB变为(512*512*3)
。对于鉴别器,只需要改变第一层的
input_shape
,因为Conv2D
和padding='same'
不改变Tensor的形状。然而,以上的改变并不能保证你的模型会有好的结果。你真的需要仔细考虑你的任务来决定你的模型架构应该是什么样的。
yuvru6vn2#
我认为鉴别器中的input_shape必须是发生器中的最后一个输出形状,因为鉴别器从发生器获取图像