CoCalc -- config

GitHub Repository: prophesier/diff-svc
Path: blob/main/training/config_nsf.yaml
⁶⁹⁵ views
1
K_step: 1000
2
accumulate_grad_batches: 1
3
audio_num_mel_bins: 128
4
audio_sample_rate: 44100
5
binarization_args:
6
  shuffle: false
7
  with_align: true
8
  with_f0: true
9
  with_hubert: true
10
  with_spk_embed: false
11
  with_wav: false
12
binarizer_cls: preprocessing.SVCpre.SVCBinarizer
13
binary_data_dir: data/binary/nyaru
14
check_val_every_n_epoch: 10
15
choose_test_manually: false
16
clip_grad_norm: 1
17
config_path: training/config_nsf.yaml
18
content_cond_steps: []
19
cwt_add_f0_loss: false
20
cwt_hidden_size: 128
21
cwt_layers: 2
22
cwt_loss: l1
23
cwt_std_scale: 0.8
24
datasets:
25
- opencpop
26
debug: false
27
dec_ffn_kernel_size: 9
28
dec_layers: 4
29
decay_steps: 40000
30
decoder_type: fft
31
dict_dir: ''
32
diff_decoder_type: wavenet
33
diff_loss_type: l2
34
dilation_cycle_length: 4
35
dropout: 0.1
36
ds_workers: 4
37
dur_enc_hidden_stride_kernel:
38
- 0,2,3
39
- 0,2,3
40
- 0,1,3
41
dur_loss: mse
42
dur_predictor_kernel: 3
43
dur_predictor_layers: 5
44
enc_ffn_kernel_size: 9
45
enc_layers: 4
46
encoder_K: 8
47
encoder_type: fft
48
endless_ds: false
49
f0_bin: 256
50
f0_max: 1100.0
51
f0_min: 40.0
52
ffn_act: gelu
53
ffn_padding: SAME
54
fft_size: 2048
55
fmax: 16000
56
fmin: 40
57
fs2_ckpt: ''
58
gaussian_start: true
59
gen_dir_name: ''
60
gen_tgt_spk_id: -1
61
hidden_size: 256
62
hop_size: 512
63
hubert_path: checkpoints/hubert/hubert_soft.pt
64
hubert_gpu: true
65
infer: false
66
keep_bins: 128
67
lambda_commit: 0.25
68
lambda_energy: 0.0
69
lambda_f0: 1.0
70
lambda_ph_dur: 0.3
71
lambda_sent_dur: 1.0
72
lambda_uv: 1.0
73
lambda_word_dur: 1.0
74
load_ckpt: ''
75
log_interval: 100
76
loud_norm: false
77
lr: 0.0008
78
max_beta: 0.02
79
max_epochs: 3000
80
max_eval_sentences: 1
81
max_eval_tokens: 60000
82
max_frames: 42000
83
max_input_tokens: 60000
84
max_sentences: 88
85
max_tokens: 128000
86
max_updates: 1000000
87
mel_loss: ssim:0.5|l1:0.5
88
mel_vmax: 1.5
89
mel_vmin: -6.0
90
min_level_db: -120
91
norm_type: gn
92
num_ckpt_keep: 10
93
num_heads: 2
94
num_sanity_val_steps: 1
95
num_spk: 1
96
num_test_samples: 0
97
num_valid_plots: 10
98
optimizer_adam_beta1: 0.9
99
optimizer_adam_beta2: 0.98
100
out_wav_norm: false
101
pe_ckpt: checkpoints/0102_xiaoma_pe/model_ckpt_steps_60000.ckpt
102
pe_enable: false
103
perform_enhance: true
104
pitch_ar: false
105
pitch_enc_hidden_stride_kernel:
106
- 0,2,5
107
- 0,2,5
108
- 0,2,5
109
pitch_extractor: parselmouth
110
pitch_loss: l2
111
pitch_norm: log
112
pitch_type: frame
113
pndm_speedup: 10
114
pre_align_args:
115
  allow_no_txt: false
116
  denoise: false
117
  forced_align: mfa
118
  txt_processor: zh_g2pM
119
  use_sox: true
120
  use_tone: false
121
pre_align_cls: data_gen.singing.pre_align.SingingPreAlign
122
predictor_dropout: 0.5
123
predictor_grad: 0.1
124
predictor_hidden: -1
125
predictor_kernel: 5
126
predictor_layers: 5
127
prenet_dropout: 0.5
128
prenet_hidden_size: 256
129
pretrain_fs_ckpt: ''
130
processed_data_dir: xxx
131
profile_infer: false
132
raw_data_dir: data/raw/nyaru
133
ref_norm_layer: bn
134
rel_pos: true
135
reset_phone_dict: true
136
residual_channels: 384
137
residual_layers: 20
138
save_best: false
139
save_ckpt: true
140
save_codes:
141
- configs
142
- modules
143
- src
144
- utils
145
save_f0: true
146
save_gt: false
147
schedule_type: linear
148
seed: 1234
149
sort_by_len: true
150
speaker_id: nyaru
151
spec_max:
152
- 0.0
153
spec_min:
154
- -5.0
155
spk_cond_steps: []
156
stop_token_weight: 5.0
157
task_cls: training.task.SVC_task.SVCTask
158
test_ids: []
159
test_input_dir: ''
160
test_num: 0
161
test_prefixes:
162
- test
163
test_set_name: test
164
timesteps: 1000
165
train_set_name: train
166
use_crepe: true
167
use_denoise: false
168
use_energy_embed: false
169
use_gt_dur: false
170
use_gt_f0: false
171
use_midi: false
172
use_nsf: true
173
use_pitch_embed: true
174
use_pos_embed: true
175
use_spk_embed: false
176
use_spk_id: false
177
use_split_spk_id: false
178
use_uv: false
179
use_vec: false
180
use_var_enc: false
181
val_check_interval: 2000
182
valid_num: 0
183
valid_set_name: valid
184
vocoder: network.vocoders.nsf_hifigan.NsfHifiGAN
185
vocoder_ckpt: checkpoints/nsf_hifigan/model
186
warmup_updates: 2000
187
wav2spec_eps: 1e-6
188
weight_decay: 0
189
win_size: 2048
190
work_dir: checkpoints/nyaru
191
no_fs2: true
192

193
Product

Resources

Company