Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
tensorflow
GitHub Repository: tensorflow/docs-l10n
Path: blob/master/site/pt-br/tutorials/generative/cyclegan.ipynb
25118 views
Kernel: Python 3
#@title Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. # You may obtain a copy of the License at # # https://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, software # distributed under the License is distributed on an "AS IS" BASIS, # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. # See the License for the specific language governing permissions and # limitations under the License.

CycleGAN

Este notebook demonstra a conversão desemparelhada imagem-para-imagem usando uma GAN condicional, conforme descrito no artigo Conversão desemparelhada imagem-para-imagem usando Redes Adversárias com Ciclo Consistente, também conhecida como CycleGAN. O artigo propõe um método que consegue capturar as características de um domínio de imagem e descobrir se essas características podem ser convertidas em outro domínio de imagem, tudo sem qualquer exemplo de treinamento emparelhado.

Este notebook pressupõe que você conheça o Pix2Pix. Saiba mais no tutorial do Pix2Pix. O código para a CycleGAN é similar. A principal diferença é uma função de perda adicional e o uso de dados de treinamento desemparelhados.

A CycleGAN usa uma perda de consistência do ciclo para que o treinamento possa ser feito sem a necessidade de se ter dados emparelhados. Em outras palavras, ela pode converter um domínio em outro sem um mapeamento um-para-um entre o domínio fonte e alvo.

Isso abre a possibilidade de se fazer diversas tarefas interessantes, como aprimoramento de fotos, colorização de imagens, transferência de estilos, etc. Você só precisa do dataset fonte e alvo (que é simplesmente um diretório de imagens).

Imagem da saída 1 Imagem da saída 2

Configuração do pipeline de entrada

Instale o pacote tensorflow_examples, que permite a importação do gerador e do discriminador.

!pip install git+https://github.com/tensorflow/examples.git
import tensorflow as tf
import tensorflow_datasets as tfds from tensorflow_examples.models.pix2pix import pix2pix import os import time import matplotlib.pyplot as plt from IPython.display import clear_output AUTOTUNE = tf.data.AUTOTUNE

Pipeline de entrada

Este tutorial treina um modelo para converter imagens de cavalos em imagens de zebras. Este dataset e outros parecidos estão disponíveis aqui.

Conforme mencionado no artigo, aplique jitter e espelhamento aleatórios ao dataset de treinamento. Há algumas técnicas de ampliação de imagens que evitam o overfitting.

Isso é similar ao que foi feito no Pix2Pix

  • Com jitter aleatório, a imagem é redimensionada para 286x286 e depois cortada aleatoriamente para 256x256.

  • Com espelhamento aleatório, a imagem é invertida horizontalmente de forma aleatória, por exemplo, da esquerda para a direita.

dataset, metadata = tfds.load('cycle_gan/horse2zebra', with_info=True, as_supervised=True) train_horses, train_zebras = dataset['trainA'], dataset['trainB'] test_horses, test_zebras = dataset['testA'], dataset['testB']
BUFFER_SIZE = 1000 BATCH_SIZE = 1 IMG_WIDTH = 256 IMG_HEIGHT = 256
def random_crop(image): cropped_image = tf.image.random_crop( image, size=[IMG_HEIGHT, IMG_WIDTH, 3]) return cropped_image
# normalizing the images to [-1, 1] def normalize(image): image = tf.cast(image, tf.float32) image = (image / 127.5) - 1 return image
def random_jitter(image): # resizing to 286 x 286 x 3 image = tf.image.resize(image, [286, 286], method=tf.image.ResizeMethod.NEAREST_NEIGHBOR) # randomly cropping to 256 x 256 x 3 image = random_crop(image) # random mirroring image = tf.image.random_flip_left_right(image) return image
def preprocess_image_train(image, label): image = random_jitter(image) image = normalize(image) return image
def preprocess_image_test(image, label): image = normalize(image) return image
train_horses = train_horses.cache().map( preprocess_image_train, num_parallel_calls=AUTOTUNE).shuffle( BUFFER_SIZE).batch(BATCH_SIZE) train_zebras = train_zebras.cache().map( preprocess_image_train, num_parallel_calls=AUTOTUNE).shuffle( BUFFER_SIZE).batch(BATCH_SIZE) test_horses = test_horses.map( preprocess_image_test, num_parallel_calls=AUTOTUNE).cache().shuffle( BUFFER_SIZE).batch(BATCH_SIZE) test_zebras = test_zebras.map( preprocess_image_test, num_parallel_calls=AUTOTUNE).cache().shuffle( BUFFER_SIZE).batch(BATCH_SIZE)
sample_horse = next(iter(train_horses)) sample_zebra = next(iter(train_zebras))
plt.subplot(121) plt.title('Horse') plt.imshow(sample_horse[0] * 0.5 + 0.5) plt.subplot(122) plt.title('Horse with random jitter') plt.imshow(random_jitter(sample_horse[0]) * 0.5 + 0.5)
plt.subplot(121) plt.title('Zebra') plt.imshow(sample_zebra[0] * 0.5 + 0.5) plt.subplot(122) plt.title('Zebra with random jitter') plt.imshow(random_jitter(sample_zebra[0]) * 0.5 + 0.5)

Importar e reutilizar os modelos do Pix2Pix

Importe o gerador e o discriminador usados no Pix2Pix do pacote tensorflow_examples instalado.

A arquitetura do modelo usada neste tutorial é muito similar à usada no Pix2Pix. Veja algumas diferenças:

Há dois geradores (G e F) e dois discriminadores (X e Y) sendo treinados.

  • O Gerador G aprende a transformar a imagem X na imagem Y. (G:X>Y)(G: X -> Y)

  • O Gerador F aprende a transformar a imagem Y na imagem X. (F:Y>X)(F: Y -> X)

  • O discriminador D_X aprende a diferenciar entre a imagem X e a imagem gerada X ((F(Y))).

  • O discriminador D_Y aprende a diferenciar entre a imagem Y e a imagem gerada Y ((G(X))).

Modelo da CycleGAN

OUTPUT_CHANNELS = 3 generator_g = pix2pix.unet_generator(OUTPUT_CHANNELS, norm_type='instancenorm') generator_f = pix2pix.unet_generator(OUTPUT_CHANNELS, norm_type='instancenorm') discriminator_x = pix2pix.discriminator(norm_type='instancenorm', target=False) discriminator_y = pix2pix.discriminator(norm_type='instancenorm', target=False)
to_zebra = generator_g(sample_horse) to_horse = generator_f(sample_zebra) plt.figure(figsize=(8, 8)) contrast = 8 imgs = [sample_horse, to_zebra, sample_zebra, to_horse] title = ['Horse', 'To Zebra', 'Zebra', 'To Horse'] for i in range(len(imgs)): plt.subplot(2, 2, i+1) plt.title(title[i]) if i % 2 == 0: plt.imshow(imgs[i][0] * 0.5 + 0.5) else: plt.imshow(imgs[i][0] * 0.5 * contrast + 0.5) plt.show()
plt.figure(figsize=(8, 8)) plt.subplot(121) plt.title('Is a real zebra?') plt.imshow(discriminator_y(sample_zebra)[0, ..., -1], cmap='RdBu_r') plt.subplot(122) plt.title('Is a real horse?') plt.imshow(discriminator_x(sample_horse)[0, ..., -1], cmap='RdBu_r') plt.show()

Funções de perda

Na CycleGAN, não há dados emparelhados para fazer o treinamento e, portanto, não há garantia de que o par de entrada x e alvo y seja significativo durante o treinamento. Dessa forma, para forçar a rede a aprender o mapeamento correto, os autores propõem a perda de consistência do ciclo.

A perda do discriminador e a perda do gerador são similares às usadas no Pix2Pix.

LAMBDA = 10
loss_obj = tf.keras.losses.BinaryCrossentropy(from_logits=True)
def discriminator_loss(real, generated): real_loss = loss_obj(tf.ones_like(real), real) generated_loss = loss_obj(tf.zeros_like(generated), generated) total_disc_loss = real_loss + generated_loss return total_disc_loss * 0.5
def generator_loss(generated): return loss_obj(tf.ones_like(generated), generated)

Consistência do ciclo significa que o resultado deve ficar próximo da entrada original. Por exemplo, se uma frase for traduzida do inglês para o francês e depois traduzida de volta do francês para o inglês, a frase resultante deve ser a mesma que a original.

Na perda de consistência do ciclo:

  • A imagem XX é passada pelo gerador GG, que gera a imagem gerada Y^\hat{Y}.

  • A imagem gerada Y^\hat{Y} é passada pelo gerador FF, que gera a imagem que passou pelo ciclo X^\hat{X}.

  • O erro absoluto médio é calculado entre XX e X^\hat{X}.

forward cycle consistency loss:X>G(X)>F(G(X))X^forward\ cycle\ consistency\ loss: X -> G(X) -> F(G(X)) \sim \hat{X}backward cycle consistency loss:Y>F(Y)>G(F(Y))Y^backward\ cycle\ consistency\ loss: Y -> F(Y) -> G(F(Y)) \sim \hat{Y}

Perda do ciclo

def calc_cycle_loss(real_image, cycled_image): loss1 = tf.reduce_mean(tf.abs(real_image - cycled_image)) return LAMBDA * loss1

Conforme mostrado acima, o gerador GG é responsável por transformar a imagem XX na imagem YY. A perda de identidade diz que, se você alimentar a imagem YY no gerador GG, ele deve gerar a imagem real YY ou algo próximo da imagem YY.

Se você executar o modelo “zebra para cabalo” em um cavalo ou o modelo “cavalo para zebra” em uma zebra, ele não deve modificar a imagem muito, já que ela já contém a classe alvo.

Identity loss=G(Y)Y+F(X)XIdentity\ loss = |G(Y) - Y| + |F(X) - X|
def identity_loss(real_image, same_image): loss = tf.reduce_mean(tf.abs(real_image - same_image)) return LAMBDA * 0.5 * loss

Inicialize os otimizadores para todos os geradores e discriminadores.

generator_g_optimizer = tf.keras.optimizers.Adam(2e-4, beta_1=0.5) generator_f_optimizer = tf.keras.optimizers.Adam(2e-4, beta_1=0.5) discriminator_x_optimizer = tf.keras.optimizers.Adam(2e-4, beta_1=0.5) discriminator_y_optimizer = tf.keras.optimizers.Adam(2e-4, beta_1=0.5)

Checkpoints

checkpoint_path = "./checkpoints/train" ckpt = tf.train.Checkpoint(generator_g=generator_g, generator_f=generator_f, discriminator_x=discriminator_x, discriminator_y=discriminator_y, generator_g_optimizer=generator_g_optimizer, generator_f_optimizer=generator_f_optimizer, discriminator_x_optimizer=discriminator_x_optimizer, discriminator_y_optimizer=discriminator_y_optimizer) ckpt_manager = tf.train.CheckpointManager(ckpt, checkpoint_path, max_to_keep=5) # if a checkpoint exists, restore the latest checkpoint. if ckpt_manager.latest_checkpoint: ckpt.restore(ckpt_manager.latest_checkpoint) print ('Latest checkpoint restored!!')

Treinamento

Observação: o modelo deste exemplo é treinado com menos épocas (10) do que o artigo (200) para manter o tempo de treinamento razoável para este tutorial. As imagens geradas terão uma qualidade muito inferior.

EPOCHS = 10
def generate_images(model, test_input): prediction = model(test_input) plt.figure(figsize=(12, 12)) display_list = [test_input[0], prediction[0]] title = ['Input Image', 'Predicted Image'] for i in range(2): plt.subplot(1, 2, i+1) plt.title(title[i]) # getting the pixel values between [0, 1] to plot it. plt.imshow(display_list[i] * 0.5 + 0.5) plt.axis('off') plt.show()

Embora o loop de treinamento pareça complicado, ele consiste de quatro passos básicos:

  • Obter as previsões.

  • Calcular a perda.

  • Calcular os gradientes usando retropropagação.

  • Aplicar os gradientes ao otimizador.

@tf.function def train_step(real_x, real_y): # persistent is set to True because the tape is used more than # once to calculate the gradients. with tf.GradientTape(persistent=True) as tape: # Generator G translates X -> Y # Generator F translates Y -> X. fake_y = generator_g(real_x, training=True) cycled_x = generator_f(fake_y, training=True) fake_x = generator_f(real_y, training=True) cycled_y = generator_g(fake_x, training=True) # same_x and same_y are used for identity loss. same_x = generator_f(real_x, training=True) same_y = generator_g(real_y, training=True) disc_real_x = discriminator_x(real_x, training=True) disc_real_y = discriminator_y(real_y, training=True) disc_fake_x = discriminator_x(fake_x, training=True) disc_fake_y = discriminator_y(fake_y, training=True) # calculate the loss gen_g_loss = generator_loss(disc_fake_y) gen_f_loss = generator_loss(disc_fake_x) total_cycle_loss = calc_cycle_loss(real_x, cycled_x) + calc_cycle_loss(real_y, cycled_y) # Total generator loss = adversarial loss + cycle loss total_gen_g_loss = gen_g_loss + total_cycle_loss + identity_loss(real_y, same_y) total_gen_f_loss = gen_f_loss + total_cycle_loss + identity_loss(real_x, same_x) disc_x_loss = discriminator_loss(disc_real_x, disc_fake_x) disc_y_loss = discriminator_loss(disc_real_y, disc_fake_y) # Calculate the gradients for generator and discriminator generator_g_gradients = tape.gradient(total_gen_g_loss, generator_g.trainable_variables) generator_f_gradients = tape.gradient(total_gen_f_loss, generator_f.trainable_variables) discriminator_x_gradients = tape.gradient(disc_x_loss, discriminator_x.trainable_variables) discriminator_y_gradients = tape.gradient(disc_y_loss, discriminator_y.trainable_variables) # Apply the gradients to the optimizer generator_g_optimizer.apply_gradients(zip(generator_g_gradients, generator_g.trainable_variables)) generator_f_optimizer.apply_gradients(zip(generator_f_gradients, generator_f.trainable_variables)) discriminator_x_optimizer.apply_gradients(zip(discriminator_x_gradients, discriminator_x.trainable_variables)) discriminator_y_optimizer.apply_gradients(zip(discriminator_y_gradients, discriminator_y.trainable_variables))
for epoch in range(EPOCHS): start = time.time() n = 0 for image_x, image_y in tf.data.Dataset.zip((train_horses, train_zebras)): train_step(image_x, image_y) if n % 10 == 0: print ('.', end='') n += 1 clear_output(wait=True) # Using a consistent image (sample_horse) so that the progress of the model # is clearly visible. generate_images(generator_g, sample_horse) if (epoch + 1) % 5 == 0: ckpt_save_path = ckpt_manager.save() print ('Saving checkpoint for epoch {} at {}'.format(epoch+1, ckpt_save_path)) print ('Time taken for epoch {} is {} sec\n'.format(epoch + 1, time.time()-start))

Gerar usando o dataset de teste

# Run the trained model on the test dataset for inp in test_horses.take(5): generate_images(generator_g, inp)

Próximos passos

Este tutorial mostrou como implementar uma CycleGAN começando pelo gerador e discriminador implementados no tutorial do Pix2Pix. Agora, você pode tentar usar um dataset diferente disponível nos TensorFlow Datasets.

Além disso, você pode fazer o treinamento usando um número maior de épocas para melhorar os resultados ou pode implementar o gerador ResNet modificado usado no artigo em vez do gerador U-Net usado aqui.