CoCalc -- test_models_unet_2d

GitHub Repository: shivamshrirao/diffusers
Path: blob/main/tests/models/test_models_unet_2d_flax.py
²⁸⁴² views
1
import gc
2
import unittest
3

4
from parameterized import parameterized
5

6
from diffusers import FlaxUNet2DConditionModel
7
from diffusers.utils import is_flax_available
8
from diffusers.utils.testing_utils import load_hf_numpy, require_flax, slow
9

10

11
if is_flax_available():
12
    import jax
13
    import jax.numpy as jnp
14

15

16
@slow
17
@require_flax
18
class FlaxUNet2DConditionModelIntegrationTests(unittest.TestCase):
19
    def get_file_format(self, seed, shape):
20
        return f"gaussian_noise_s={seed}_shape={'_'.join([str(s) for s in shape])}.npy"
21

22
    def tearDown(self):
23
        # clean up the VRAM after each test
24
        super().tearDown()
25
        gc.collect()
26

27
    def get_latents(self, seed=0, shape=(4, 4, 64, 64), fp16=False):
28
        dtype = jnp.bfloat16 if fp16 else jnp.float32
29
        image = jnp.array(load_hf_numpy(self.get_file_format(seed, shape)), dtype=dtype)
30
        return image
31

32
    def get_unet_model(self, fp16=False, model_id="CompVis/stable-diffusion-v1-4"):
33
        dtype = jnp.bfloat16 if fp16 else jnp.float32
34
        revision = "bf16" if fp16 else None
35

36
        model, params = FlaxUNet2DConditionModel.from_pretrained(
37
            model_id, subfolder="unet", dtype=dtype, revision=revision
38
        )
39
        return model, params
40

41
    def get_encoder_hidden_states(self, seed=0, shape=(4, 77, 768), fp16=False):
42
        dtype = jnp.bfloat16 if fp16 else jnp.float32
43
        hidden_states = jnp.array(load_hf_numpy(self.get_file_format(seed, shape)), dtype=dtype)
44
        return hidden_states
45

46
    @parameterized.expand(
47
        [
48
            # fmt: off
49
            [83, 4, [-0.2323, -0.1304, 0.0813, -0.3093, -0.0919, -0.1571, -0.1125, -0.5806]],
50
            [17, 0.55, [-0.0831, -0.2443, 0.0901, -0.0919, 0.3396, 0.0103, -0.3743, 0.0701]],
51
            [8, 0.89, [-0.4863, 0.0859, 0.0875, -0.1658, 0.9199, -0.0114, 0.4839, 0.4639]],
52
            [3, 1000, [-0.5649, 0.2402, -0.5518, 0.1248, 1.1328, -0.2443, -0.0325, -1.0078]],
53
            # fmt: on
54
        ]
55
    )
56
    def test_compvis_sd_v1_4_flax_vs_torch_fp16(self, seed, timestep, expected_slice):
57
        model, params = self.get_unet_model(model_id="CompVis/stable-diffusion-v1-4", fp16=True)
58
        latents = self.get_latents(seed, fp16=True)
59
        encoder_hidden_states = self.get_encoder_hidden_states(seed, fp16=True)
60

61
        sample = model.apply(
62
            {"params": params},
63
            latents,
64
            jnp.array(timestep, dtype=jnp.int32),
65
            encoder_hidden_states=encoder_hidden_states,
66
        ).sample
67

68
        assert sample.shape == latents.shape
69

70
        output_slice = jnp.asarray(jax.device_get((sample[-1, -2:, -2:, :2].flatten())), dtype=jnp.float32)
71
        expected_output_slice = jnp.array(expected_slice, dtype=jnp.float32)
72

73
        # Found torch (float16) and flax (bfloat16) outputs to be within this tolerance, in the same hardware
74
        assert jnp.allclose(output_slice, expected_output_slice, atol=1e-2)
75

76
    @parameterized.expand(
77
        [
78
            # fmt: off
79
            [83, 4, [0.1514, 0.0807, 0.1624, 0.1016, -0.1896, 0.0263, 0.0677, 0.2310]],
80
            [17, 0.55, [0.1164, -0.0216, 0.0170, 0.1589, -0.3120, 0.1005, -0.0581, -0.1458]],
81
            [8, 0.89, [-0.1758, -0.0169, 0.1004, -0.1411, 0.1312, 0.1103, -0.1996, 0.2139]],
82
            [3, 1000, [0.1214, 0.0352, -0.0731, -0.1562, -0.0994, -0.0906, -0.2340, -0.0539]],
83
            # fmt: on
84
        ]
85
    )
86
    def test_stabilityai_sd_v2_flax_vs_torch_fp16(self, seed, timestep, expected_slice):
87
        model, params = self.get_unet_model(model_id="stabilityai/stable-diffusion-2", fp16=True)
88
        latents = self.get_latents(seed, shape=(4, 4, 96, 96), fp16=True)
89
        encoder_hidden_states = self.get_encoder_hidden_states(seed, shape=(4, 77, 1024), fp16=True)
90

91
        sample = model.apply(
92
            {"params": params},
93
            latents,
94
            jnp.array(timestep, dtype=jnp.int32),
95
            encoder_hidden_states=encoder_hidden_states,
96
        ).sample
97

98
        assert sample.shape == latents.shape
99

100
        output_slice = jnp.asarray(jax.device_get((sample[-1, -2:, -2:, :2].flatten())), dtype=jnp.float32)
101
        expected_output_slice = jnp.array(expected_slice, dtype=jnp.float32)
102

103
        # Found torch (float16) and flax (bfloat16) outputs to be within this tolerance, on the same hardware
104
        assert jnp.allclose(output_slice, expected_output_slice, atol=1e-2)
105

106
Product

Resources

Company