Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
labmlai
GitHub Repository: labmlai/annotated_deep_learning_paper_implementations
Path: blob/master/translate_cache/optimizers/configs.si.json
4924 views
1
{
2
"<h1>Configurable Optimizer</h1>\n": "<h1>\u0db8\u0dcf\u0db1\u0d9a\u0dbd\u0dc4\u0dd0\u0d9a\u0dd2 \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba</h1>\n",
3
"<p> <a id=\"OptimizerConfigs\"></a></p>\n<h2>Optimizer Configurations</h2>\n": "<p> <a id=\"OptimizerConfigs\"></a></p>\n<h2>\u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0dba\u0db1\u0dca</h2>\n",
4
"<p>Beta values <span translate=no>_^_0_^_</span> for Adam </p>\n": "<p>\u0d86\u0daf\u0db8\u0dca <span translate=no>_^_0_^_</span> \u0dc3\u0db3\u0dc4\u0dcf \u0db6\u0dd3\u0da7\u0dcf \u0d85\u0d9c\u0dba\u0db1\u0dca </p>\n",
5
"<p>Epsilon <span translate=no>_^_0_^_</span> for adam </p>\n": "<p>\u0d86\u0daf\u0db8\u0dca <span translate=no>_^_0_^_</span> \u0dc3\u0db3\u0dc4\u0dcf \u0d91\u0db4\u0dca\u0dc3\u0dd2\u0dbd\u0db1\u0dca </p>\n",
6
"<p>Learning rate <span translate=no>_^_0_^_</span> </p>\n": "<p>\u0d89\u0d9c\u0dd9\u0db1\u0dd4\u0db8\u0dca\u0d85\u0db1\u0dd4\u0db4\u0dcf\u0dad\u0dba <span translate=no>_^_0_^_</span> </p>\n",
7
"<p>Model embedding size for Noam optimizer </p>\n": "<p>Noam\u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba \u0dc3\u0db3\u0dc4\u0dcf \u0d86\u0daf\u0dbb\u0dca\u0dc1 \u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8 \u0db4\u0dca\u0dbb\u0db8\u0dcf\u0dab\u0dba </p>\n",
8
"<p>Momentum for SGD </p>\n": "<p>SGD\u0dc3\u0db3\u0dc4\u0dcf \u0d9c\u0db8\u0dca\u0dba\u0dad\u0dcf\u0dc0 </p>\n",
9
"<p>Number of warmup optimizer steps </p>\n": "<p>\u0d8b\u0db1\u0dd4\u0dc3\u0dd4\u0db8\u0dca\u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2\u0d9a\u0dbb\u0dab \u0db4\u0dd2\u0dba\u0dc0\u0dbb \u0d9c\u0dab\u0db1 </p>\n",
10
"<p>Optimizer </p>\n": "<p>\u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba </p>\n",
11
"<p>Parameters to be optimized </p>\n": "<p>\u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2\u0d9a\u0dbb\u0dab\u0dba\u0d9a\u0dc5 \u0dba\u0dd4\u0dad\u0dd4 \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd3\u0db1\u0dca </p>\n",
12
"<p>Total number of optimizer steps (for cosine decay) </p>\n": "<p>\u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2\u0d9a\u0dbb\u0dab\u0db4\u0dd2\u0dba\u0dc0\u0dbb \u0d9c\u0dab\u0db1 (\u0d9a\u0ddc\u0dc3\u0dba\u0dd2\u0db1\u0dca \u0d9a\u0dca\u0dc2\u0dba \u0dc0\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf) </p>\n",
13
"<p>Weight decay </p>\n": "<p>\u0dc3\u0dd2\u0dbb\u0dd4\u0dbb\u0dda\u0db6\u0dbb \u0d9a\u0dca\u0dc2\u0dba </p>\n",
14
"<p>Whether the adam update is optimized (different epsilon) </p>\n": "<p>\u0d86\u0daf\u0db8\u0dca\u0dba\u0dcf\u0dc0\u0dad\u0dca\u0d9a\u0dcf\u0dbd\u0dd3\u0db1 \u0dc0\u0dd3\u0db8\u0dad \u0dba\u0db1\u0dca\u0db1 (\u0dc0\u0dd2\u0dc0\u0dd2\u0db0 epsilon) </p>\n",
15
"<p>Whether to degenerate to SGD in AdaBelief </p>\n": "<p>Adeabelief\u0dc4\u0dd2 SGD \u0dc0\u0dd9\u0dad \u0db4\u0dbb\u0dd2\u0dc4\u0dcf\u0db1\u0dd2\u0dba\u0da7 \u0db4\u0dad\u0dca \u0dc0\u0dd2\u0dba \u0dba\u0dd4\u0dad\u0dd4\u0daf \u0dba\u0db1\u0dca\u0db1 </p>\n",
16
"<p>Whether to use AMSGrad </p>\n": "<p>AMSGrad\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dc5 \u0dba\u0dd4\u0dad\u0dd4\u0daf \u0dba\u0db1\u0dca\u0db1 </p>\n",
17
"<p>Whether to use Rectified Adam in AdaBelief </p>\n": "<p>Adamelief\u0dc4\u0dd2 \u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0d9a\u0dbb\u0db1 \u0dbd\u0daf \u0d86\u0daf\u0db8\u0dca \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dc5 \u0dba\u0dd4\u0dad\u0dd4\u0daf \u0dba\u0db1\u0dca\u0db1 </p>\n",
18
"<p>Whether weight decay is absolute or should be multiplied by learning rate </p>\n": "<p>\u0db6\u0dbb\u0d9a\u0dca\u0dc2\u0dba \u0dc0\u0dd3\u0db8 \u0db1\u0dd2\u0dbb\u0db4\u0dda\u0d9a\u0dca\u0dc2 \u0dc4\u0ddd \u0d89\u0d9c\u0dd9\u0db1\u0dd4\u0db8\u0dca \u0d85\u0db1\u0dd4\u0db4\u0dcf\u0dad\u0dba \u0d9c\u0dd4\u0dab \u0d9a\u0dc5 \u0dba\u0dd4\u0dad\u0dd4 \u0daf \u0dba\u0db1\u0dca\u0db1 </p>\n",
19
"<p>Whether weight decay is decoupled; i.e. weight decay is not added to gradients </p>\n": "<p>\u0db6\u0dbb\u0d9a\u0dca\u0dc2\u0dba \u0dc0\u0dd3\u0db8 \u0daf\u0dd2\u0dbb\u0dcf\u0db4\u0dad\u0dca \u0dc0\u0dda\u0daf; \u0d91\u0db1\u0db8\u0dca \u0db6\u0dbb \u0d9a\u0dca\u0dc2\u0dba \u0dc0\u0dd3\u0db8 \u0d85\u0db1\u0dd4\u0d9a\u0dca\u0dbb\u0db8\u0dd2\u0d9a \u0dc0\u0dbd\u0da7 \u0d91\u0d9a\u0dad\u0dd4 \u0db1\u0ddc\u0dc0\u0dda </p>\n",
20
"Configurable optimizer module": "\u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0d9c\u0dad \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2\u0d9a\u0dbb\u0dab \u0db8\u0ddc\u0da9\u0dd2\u0dba\u0dd4\u0dbd\u0dba",
21
"This implements a configurable module for optimizers.": "\u0db8\u0dd9\u0dba \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba \u0dc3\u0db3\u0dc4\u0dcf \u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0d9c\u0dad \u0d9a\u0dc5 \u0dc4\u0dd0\u0d9a\u0dd2 \u0db8\u0ddc\u0da9\u0dd2\u0dba\u0dd4\u0dbd\u0dba\u0d9a\u0dca \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dbb\u0dba\u0dd2."
22
}
23