CoCalc -- radam.py

GitHub Repository: prophesier/diff-svc
Path: blob/main/modules/parallel_wavegan/optimizers/radam.py
⁶⁹⁴ views
1
# -*- coding: utf-8 -*-
2

3
"""RAdam optimizer.
4

5
This code is drived from https://github.com/LiyuanLucasLiu/RAdam.
6
"""
7

8
import math
9
import torch
10

11
from torch.optim.optimizer import Optimizer
12

13

14
class RAdam(Optimizer):
15
    """Rectified Adam optimizer."""
16

17
    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0):
18
        """Initilize RAdam optimizer."""
19
        defaults = dict(lr=lr, betas=betas, eps=eps, weight_decay=weight_decay)
20
        self.buffer = [[None, None, None] for ind in range(10)]
21
        super(RAdam, self).__init__(params, defaults)
22

23
    def __setstate__(self, state):
24
        """Set state."""
25
        super(RAdam, self).__setstate__(state)
26

27
    def step(self, closure=None):
28
        """Run one step."""
29
        loss = None
30
        if closure is not None:
31
            loss = closure()
32

33
        for group in self.param_groups:
34

35
            for p in group['params']:
36
                if p.grad is None:
37
                    continue
38
                grad = p.grad.data.float()
39
                if grad.is_sparse:
40
                    raise RuntimeError('RAdam does not support sparse gradients')
41

42
                p_data_fp32 = p.data.float()
43

44
                state = self.state[p]
45

46
                if len(state) == 0:
47
                    state['step'] = 0
48
                    state['exp_avg'] = torch.zeros_like(p_data_fp32)
49
                    state['exp_avg_sq'] = torch.zeros_like(p_data_fp32)
50
                else:
51
                    state['exp_avg'] = state['exp_avg'].type_as(p_data_fp32)
52
                    state['exp_avg_sq'] = state['exp_avg_sq'].type_as(p_data_fp32)
53

54
                exp_avg, exp_avg_sq = state['exp_avg'], state['exp_avg_sq']
55
                beta1, beta2 = group['betas']
56

57
                exp_avg_sq.mul_(beta2).addcmul_(1 - beta2, grad, grad)
58
                exp_avg.mul_(beta1).add_(1 - beta1, grad)
59

60
                state['step'] += 1
61
                buffered = self.buffer[int(state['step'] % 10)]
62
                if state['step'] == buffered[0]:
63
                    N_sma, step_size = buffered[1], buffered[2]
64
                else:
65
                    buffered[0] = state['step']
66
                    beta2_t = beta2 ** state['step']
67
                    N_sma_max = 2 / (1 - beta2) - 1
68
                    N_sma = N_sma_max - 2 * state['step'] * beta2_t / (1 - beta2_t)
69
                    buffered[1] = N_sma
70

71
                    # more conservative since it's an approximated value
72
                    if N_sma >= 5:
73
                        step_size = math.sqrt(
74
                            (1 - beta2_t) * (N_sma - 4) / (N_sma_max - 4) * (N_sma - 2) / N_sma * N_sma_max / (N_sma_max - 2)) / (1 - beta1 ** state['step'])  # NOQA
75
                    else:
76
                        step_size = 1.0 / (1 - beta1 ** state['step'])
77
                    buffered[2] = step_size
78

79
                if group['weight_decay'] != 0:
80
                    p_data_fp32.add_(-group['weight_decay'] * group['lr'], p_data_fp32)
81

82
                # more conservative since it's an approximated value
83
                if N_sma >= 5:
84
                    denom = exp_avg_sq.sqrt().add_(group['eps'])
85
                    p_data_fp32.addcdiv_(-step_size * group['lr'], exp_avg, denom)
86
                else:
87
                    p_data_fp32.add_(-step_size * group['lr'], exp_avg)
88

89
                p.data.copy_(p_data_fp32)
90

91
        return loss
92

93
Product

Resources

Company