Path: blob/master/translate_cache/optimizers/radam.si.json
4924 views
{1"<h1>Rectified Adam (RAdam) optimizer</h1>\n": "<h1>\u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2\u0d9a\u0dbb\u0db1 \u0dbd\u0daf \u0d86\u0daf\u0db8\u0dca (RaDAM) \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2</h1>\n",2"<h2>Rectified Adam Optimizer</h2>\n<p>This class extends from AMSAdam optimizer defined in <a href=\"amsadam.html\"><span translate=no>_^_0_^_</span></a>.</p>\n": "<h2>\u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2\u0d9a\u0dbb\u0db1 \u0dbd\u0daf \u0d86\u0daf\u0db8\u0dca \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba</h2>\n<p>\u0db8\u0dd9\u0db8\u0db4\u0db1\u0dca\u0dad\u0dd2\u0dba \u0d87\u0db8\u0dca\u0dc3\u0dcf\u0da9\u0db8\u0dca \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba\u0dd9\u0db1\u0dca \u0d85\u0dbb\u0dca\u0dae \u0daf\u0d9a\u0dca\u0dc0\u0dcf \u0d87\u0dad <a href=\"amsadam.html\"><span translate=no>_^_0_^_</span></a>. </p>\n",3"<h2>Rectified Adam</h2>\n": "<h2>\u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2\u0d9a\u0dbb\u0db1 \u0dbd\u0daf \u0d86\u0daf\u0db8\u0dca</h2>\n",4"<h3>Approximating <span translate=no>_^_0_^_</span></h3>\n": "<h3>\u0d86\u0dc3\u0db1\u0dca\u0db1\u0d9a\u0dd2\u0dbb\u0dd3\u0db8 <span translate=no>_^_0_^_</span></h3>\n",5"<h3>Calculate rectification term <span translate=no>_^_0_^_</span></h3>\n": "<h3>\u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2\u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda \u0db4\u0daf\u0dba \u0d9c\u0dab\u0db1\u0dba \u0d9a\u0dbb\u0db1\u0dca\u0db1 <span translate=no>_^_0_^_</span></h3>\n",6"<h3>Do the <em>RAdam</em> parameter update</h3>\n<ul><li><span translate=no>_^_0_^_</span> is the optimizer state of the parameter (tensor) </li>\n<li><span translate=no>_^_1_^_</span> stores optimizer attributes of the parameter group </li>\n<li><span translate=no>_^_2_^_</span> is the parameter tensor <span translate=no>_^_3_^_</span> </li>\n<li><span translate=no>_^_4_^_</span> and <span translate=no>_^_5_^_</span> are the uncorrected first and second moments <span translate=no>_^_6_^_</span> and <span translate=no>_^_7_^_</span>; i.e. <span translate=no>_^_8_^_</span> and <span translate=no>_^_9_^_</span> without bias correction</li></ul>\n": "<h3><em>RadAM</em> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2 \u0dba\u0dcf\u0dc0\u0dad\u0dca\u0d9a\u0dcf\u0dbd\u0dd3\u0db1 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0d9a\u0dbb\u0db1\u0dca\u0db1</h3>\n<ul><li><span translate=no>_^_0_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba \u0dbb\u0dcf\u0da2\u0dca\u0dba \u0dc0\u0dda (tensor) </li>\n<li><span translate=no>_^_1_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2 \u0d9a\u0dab\u0dca\u0da9\u0dcf\u0dba\u0db8\u0dda \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2\u0d9a\u0dbb\u0dab \u0d9c\u0dd4\u0dab\u0dcf\u0d82\u0d9c \u0d9c\u0db6\u0da9\u0dcf \u0d9a\u0dbb\u0dba\u0dd2 </li>\n<li><span translate=no>_^_2_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba tensor \u0dc0\u0dda <span translate=no>_^_3_^_</span> </li>\n<li><span translate=no>_^_4_^_</span> <span translate=no>_^_5_^_</span> \u0dc3\u0dc4 \u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0db1\u0ddc\u0d9a\u0dc5 \u0db4\u0dc5\u0db8\u0dd4 \u0dc4\u0dcf \u0daf\u0dd9\u0dc0\u0db1 \u0d85\u0dc0\u0dc3\u0dca\u0dae\u0dcf <span translate=no>_^_6_^_</span> \u0dc3\u0dc4 <span translate=no>_^_7_^_</span>; i.e. <span translate=no>_^_8_^_</span> <span translate=no>_^_9_^_</span> \u0db4\u0d9a\u0dca\u0dc2\u0d9c\u0dca\u0dbb\u0dcf\u0dc4\u0dd3 \u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0d9a\u0dd2\u0db1\u0dca \u0dad\u0ddc\u0dbb\u0dc0</li></ul>\n",7"<h3>Exponential moving average as simple moving average</h3>\n": "<h3>\u0dc3\u0dbb\u0dbd\u0dc0\u0dd9\u0db1\u0dc3\u0dca\u0dc0\u0db1 \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0dba \u0dbd\u0dd9\u0dc3 \u0d9d\u0dcf\u0dad\u0dd3\u0dba \u0dc0\u0dd9\u0db1\u0dc3\u0dca\u0dc0\u0db1 \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0dba</h3>\n",8"<h3>Initialize the optimizer</h3>\n<ul><li><span translate=no>_^_0_^_</span> is the list of parameters </li>\n<li><span translate=no>_^_1_^_</span> is the learning rate <span translate=no>_^_2_^_</span> </li>\n<li><span translate=no>_^_3_^_</span> is a tuple of (<span translate=no>_^_4_^_</span>, <span translate=no>_^_5_^_</span>) </li>\n<li><span translate=no>_^_6_^_</span> is <span translate=no>_^_7_^_</span> or <span translate=no>_^_8_^_</span> based on <span translate=no>_^_9_^_</span> </li>\n<li><span translate=no>_^_10_^_</span> is an instance of class <span translate=no>_^_11_^_</span> defined in <a href=\"index.html\"><span translate=no>_^_12_^_</span></a> </li>\n<li><span translate=no>_^_13_^_</span> is a flag whether to optimize the bias correction of the second moment by doing it after adding <span translate=no>_^_14_^_</span> </li>\n<li><span translate=no>_^_15_^_</span> is a flag indicating whether to use AMSGrad or fallback to plain Adam </li>\n<li><span translate=no>_^_16_^_</span> whether to use sgd when the rectification term <span translate=no>_^_17_^_</span> is intractable. </li>\n<li><span translate=no>_^_18_^_</span> is a dictionary of default for group values. This is useful when you want to extend the class <span translate=no>_^_19_^_</span>.</li></ul>\n": "<h3>\u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba\u0d86\u0dbb\u0db8\u0dca\u0db7 \u0d9a\u0dbb\u0db1\u0dca\u0db1</h3>\n<ul><li><span translate=no>_^_0_^_</span> \u0dba\u0db1\u0dd4 \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd3\u0db1\u0dca \u0dbd\u0dd0\u0dba\u0dd2\u0dc3\u0dca\u0dad\u0dd4\u0dc0\u0dba\u0dd2 </li>\n<li><span translate=no>_^_1_^_</span> \u0dba\u0db1\u0dd4 \u0d89\u0d9c\u0dd9\u0db1\u0dd4\u0db8\u0dca \u0d85\u0db1\u0dd4\u0db4\u0dcf\u0dad\u0dba\u0dba\u0dd2 <span translate=no>_^_2_^_</span> </li>\n<li><span translate=no>_^_3_^_</span> (<span translate=no>_^_4_^_</span>, <span translate=no>_^_5_^_</span>) \u0d9a tuple \u0dc0\u0dda </li>\n<li><span translate=no>_^_6_^_</span> <span translate=no>_^_7_^_</span> \u0dc4\u0ddd \u0db8\u0dad <span translate=no>_^_8_^_</span> \u0db4\u0daf\u0db1\u0db8\u0dca \u0dc0\u0dda <span translate=no>_^_9_^_</span> </li>\n<li><span translate=no>_^_10_^_</span> <span translate=no>_^_11_^_</span> \u0d85\u0dbb\u0dca\u0dae \u0daf\u0d9a\u0dca\u0dc0\u0dcf \u0d87\u0dad\u0dd2 \u0db4\u0db1\u0dca\u0dad\u0dd2\u0dba\u0dda \u0d85\u0dc0\u0dc3\u0dca\u0dae\u0dcf\u0dc0\u0d9a\u0dd2 <a href=\"index.html\"><span translate=no>_^_12_^_</span></a> </li>\n<li><span translate=no>_^_13_^_</span> \u0d91\u0d9a\u0dad\u0dd4 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dd9\u0db1\u0dca \u0db4\u0dc3\u0dd4 \u0d91\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dd9\u0db1\u0dca \u0daf\u0dd9\u0dc0\u0db1 \u0db8\u0ddc\u0dc4\u0ddc\u0dad\u0dda \u0db4\u0d9a\u0dca\u0dc2\u0d9c\u0dca\u0dbb\u0dcf\u0dc4\u0dd3\u0dc0 \u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0db0\u0da2\u0dba\u0d9a\u0dd2 <span translate=no>_^_14_^_</span> </li>\n<li><span translate=no>_^_15_^_</span> \u0d86\u0daf\u0db8\u0dca \u0dc3\u0dbb\u0dbd \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf AMSGrad \u0dc4\u0ddd \u0dc0\u0dd0\u0da7\u0dd3\u0db8 \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dc5 \u0dba\u0dd4\u0dad\u0dd4\u0daf \u0dba\u0db1\u0dca\u0db1 \u0daf\u0dd0\u0d9a\u0dca\u0dc0\u0dd9\u0db1 \u0db0\u0da2\u0dba\u0d9a\u0dd2 </li>\n<li><span translate=no>_^_16_^_</span> \u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda \u0db4\u0daf\u0dba <span translate=no>_^_17_^_</span> \u0db1\u0ddc\u0dc3\u0dd0\u0dbd\u0d9a\u0dd2\u0dba \u0dc4\u0dd0\u0d9a\u0dd2 \u0dc0\u0dd2\u0da7 sgd \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dc5 \u0dba\u0dd4\u0dad\u0dd4\u0daf \u0dba\u0db1\u0dca\u0db1. </li>\n<li><span translate=no>_^_18_^_</span> \u0d9a\u0dab\u0dca\u0da9\u0dcf\u0dba\u0db8\u0dca \u0d85\u0d9c\u0dba\u0db1\u0dca \u0dc3\u0db3\u0dc4\u0dcf \u0db4\u0dd9\u0dbb\u0db1\u0dd2\u0db8\u0dd2 \u0dc1\u0db6\u0dca\u0daf \u0d9a\u0ddd\u0dc2\u0dba\u0d9a\u0dd2. \u0d94\u0db6\u0da7 \u0db4\u0db1\u0dca\u0dad\u0dd2\u0dba \u0daf\u0dd3\u0dbb\u0dca extend \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0da7 \u0d85\u0dc0\u0dc1\u0dca\u0dba \u0dc0\u0dd2\u0da7 \u0db8\u0dd9\u0dba \u0db4\u0dca\u0dbb\u0dba\u0ddd\u0da2\u0db1\u0dc0\u0dad\u0dca <span translate=no>_^_19_^_</span>\u0dc0\u0dda. </li></ul>\n",9"<h3>Plot <span translate=no>_^_0_^_</span> against <span translate=no>_^_1_^_</span> for various <span translate=no>_^_2_^_</span></h3>\n<p><span translate=no>_^_3_^_</span></p>\n": "<h3>\u0dc0\u0dd2\u0dc0\u0dd2\u0db0 <span translate=no>_^_1_^_</span> \u0dc3\u0db3\u0dc4\u0dcf <span translate=no>_^_0_^_</span> \u0d9a\u0dd4\u0db8\u0db1\u0dca\u0dad\u0dca\u0dbb\u0dab\u0dba <span translate=no>_^_2_^_</span></h3>\n<p><span translate=no>_^_3_^_</span></p>\n",10"<h3>Rectification term</h3>\n": "<h3>\u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2\u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda \u0db4\u0daf\u0dba</h3>\n",11"<h3>Rectification</h3>\n": "<h3>\u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2\u0d9a\u0dd2\u0dbb\u0dd3\u0db8</h3>\n",12"<h3>Scaled inverse chi-squared</h3>\n": "<h3>\u0db4\u0dbb\u0dd2\u0db8\u0dcf\u0dab\u0dba\u0d9a\u0dc5 \u0db4\u0dca\u0dbb\u0dad\u0dd2\u0dbd\u0ddd\u0db8 \u0da0\u0dd2-\u0d9a\u0ddc\u0da7\u0dd4</h3>\n",13"<h3>Take an update step for a given parameter tensor</h3>\n<ul><li><span translate=no>_^_0_^_</span> is the optimizer state of the parameter (tensor) </li>\n<li><span translate=no>_^_1_^_</span> stores optimizer attributes of the parameter group </li>\n<li><span translate=no>_^_2_^_</span> is the current gradient tensor <span translate=no>_^_3_^_</span> for the parameter <span translate=no>_^_4_^_</span> </li>\n<li><span translate=no>_^_5_^_</span> is the parameter tensor <span translate=no>_^_6_^_</span></li></ul>\n": "<h3>\u0daf\u0dd3\u0d87\u0dad\u0dd2 \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2 \u0da7\u0dd9\u0db1\u0dca\u0dc3\u0dbb\u0dba\u0d9a\u0dca \u0dc3\u0db3\u0dc4\u0dcf \u0dba\u0dcf\u0dc0\u0dad\u0dca\u0d9a\u0dcf\u0dbd\u0dd3\u0db1 \u0db4\u0dd2\u0dba\u0dc0\u0dbb\u0d9a\u0dca \u0d9c\u0db1\u0dca\u0db1</h3>\n<ul><li><span translate=no>_^_0_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba \u0dbb\u0dcf\u0da2\u0dca\u0dba \u0dc0\u0dda (tensor) </li>\n<li><span translate=no>_^_1_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2 \u0d9a\u0dab\u0dca\u0da9\u0dcf\u0dba\u0db8\u0dda \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2\u0d9a\u0dbb\u0dab \u0d9c\u0dd4\u0dab\u0dcf\u0d82\u0d9c \u0d9c\u0db6\u0da9\u0dcf \u0d9a\u0dbb\u0dba\u0dd2 </li>\n<li><span translate=no>_^_2_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba <span translate=no>_^_3_^_</span> \u0dc3\u0db3\u0dc4\u0dcf \u0dc0\u0dad\u0dca\u0db8\u0db1\u0dca \u0db5\u0dbd\u0dba \u0d85\u0db1\u0dd4\u0d9a\u0dca\u0dbb\u0db8\u0dd2\u0d9a tensor \u0dc0\u0dda <span translate=no>_^_4_^_</span> </li>\n</ul><li><span translate=no>_^_5_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba tensor \u0dc0\u0dda <span translate=no>_^_6_^_</span></li>\n",14"<p><a href=\"https://en.wikipedia.org/wiki/Scaled_inverse_chi-squared_distribution\">Scaled inverse chi-squared</a> is the distribution of squared inverse of mean of <span translate=no>_^_0_^_</span> normal distributions. <span translate=no>_^_1_^_</span> where <span translate=no>_^_2_^_</span>.</p>\n": "<p><a href=\"https://en.wikipedia.org/wiki/Scaled_inverse_chi-squared_distribution\">\u0db4\u0dbb\u0dd2\u0db8\u0dcf\u0dab\u0dba \u0d9a\u0dbb\u0db1 \u0dbd\u0daf \u0db4\u0dca\u0dbb\u0dad\u0dd2\u0dbd\u0ddd\u0db8 \u0da0\u0dd2-\u0da0\u0dad\u0dd4\u0dbb\u0dc3\u0dca\u0dbb\u0dcf\u0d9a\u0dcf\u0dbb</a> \u0dba\u0db1\u0dd4 <span translate=no>_^_0_^_</span> \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba \u0db6\u0dd9\u0daf\u0dcf\u0dc4\u0dd0\u0dbb\u0dd3\u0db8\u0dca \u0dc0\u0dbd \u0db8\u0db0\u0dca\u0dba\u0db1\u0dca\u0dba\u0dba\u0dda \u0db4\u0dca\u0dbb\u0dad\u0dd2\u0dbd\u0ddd\u0db8 \u0da0\u0dad\u0dd4\u0dbb\u0dc3\u0dca\u0dbb\u0dcf\u0d9a\u0dcf\u0dbb \u0db6\u0dd9\u0daf\u0dcf \u0dc4\u0dd0\u0dbb\u0dd3\u0db8\u0dba\u0dd2. <span translate=no>_^_1_^_</span> \u0d9a\u0ddc\u0dc4\u0dd9\u0daf <span translate=no>_^_2_^_</span>. </p>\n",15"<p><span translate=no>_^_0_^_</span> </p>\n": "<p><span translate=no>_^_0_^_</span> </p>\n",16"<p><span translate=no>_^_0_^_</span> is tractable when <span translate=no>_^_1_^_</span>. We are being a little more conservative since it's an approximated value </p>\n": "<p><span translate=no>_^_0_^_</span> \u0dc0\u0dd2\u0da7 \u0dc3\u0ddc\u0dba\u0dcf\u0d9c\u0dad \u0dc4\u0dd0\u0d9a\u0dd2\u0dba <span translate=no>_^_1_^_</span>. \u0d91\u0dba \u0d86\u0dc3\u0db1\u0dca\u0db1 \u0d85\u0d9c\u0dba\u0d9a\u0dca \u0db6\u0dd0\u0dc0\u0dd2\u0db1\u0dca \u0d85\u0db4\u0dd2 \u0dad\u0dc0 \u0da7\u0dd2\u0d9a\u0d9a\u0dca \u0d9c\u0dad\u0dcf\u0db1\u0dd4\u0d9c\u0dad\u0dd2\u0d9a \u0dc0\u0dd9\u0db8\u0dd4 </p>\n",17"<p>Adam optimizer sometimes converges to a bad local optima during the initial stages of the training; especially when training transformers. Researches use warmups to counter this; for the the initial training steps (warm-up stage) they use a low learning rate. This paper identifies the problem to be the high variance of adaptive learning rate during initial stages of training, and counters it using a new rectification term to reduce variance.</p>\n": "<p>\u0db4\u0dd4\u0dc4\u0dd4\u0dab\u0dd4\u0dc0\u0dda\u0d86\u0dbb\u0db8\u0dca\u0db7\u0d9a \u0d85\u0daf\u0dd2\u0dba\u0dbb\u0dc0\u0dbd\u0daf\u0dd3 \u0d87\u0da9\u0db8\u0dca \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba \u0dc3\u0db8\u0dc4\u0dbb \u0dc0\u0dd2\u0da7 \u0db1\u0dbb\u0d9a \u0daf\u0dda\u0dc1\u0dd3\u0dba \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2\u0d9a\u0dbb\u0dab\u0dba\u0d9a\u0da7 \u0d85\u0db7\u0dd2\u0dc3\u0dcf\u0dbb\u0dd3 \u0dc0\u0dda; \u0dc0\u0dd2\u0dc1\u0dda\u0dc2\u0dba\u0dd9\u0db1\u0dca \u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca \u0db4\u0dd4\u0dc4\u0dd4\u0dab\u0dd4 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda\u0daf\u0dd3. \u0db4\u0dbb\u0dca\u0dba\u0dda\u0dc2\u0dab\u0dba\u0db1\u0dca \u0db8\u0dd9\u0dba \u0db8\u0dd0\u0da9\u0db4\u0dd0\u0dc0\u0dd0\u0dad\u0dca\u0dc0\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0d8b\u0dab\u0dd4\u0dc3\u0dd4\u0db8\u0dca \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dca \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dbb\u0dba\u0dd2; \u0db8\u0dd6\u0dbd\u0dd2\u0d9a \u0db4\u0dd4\u0dc4\u0dd4\u0dab\u0dd4 \u0db4\u0dd2\u0dba\u0dc0\u0dbb \u0dc3\u0db3\u0dc4\u0dcf (\u0d8b\u0dab\u0dd4\u0dc3\u0dd4\u0db8\u0dca \u0d85\u0dc0\u0db0\u0dd2\u0dba) \u0d94\u0dc0\u0dd4\u0db1\u0dca \u0d85\u0da9\u0dd4 \u0d89\u0d9c\u0dd9\u0db1\u0dd4\u0db8\u0dca \u0d85\u0db1\u0dd4\u0db4\u0dcf\u0dad\u0dba\u0d9a\u0dca \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dbb\u0dba\u0dd2. \u0db4\u0dd4\u0dc4\u0dd4\u0dab\u0dd4\u0dc0\u0dda \u0d86\u0dbb\u0db8\u0dca\u0db7\u0d9a \u0d85\u0daf\u0dd2\u0dba\u0dbb\u0dc0\u0dbd\u0daf\u0dd3 \u0d85\u0db1\u0dd4\u0dc0\u0dbb\u0dca\u0dad\u0dd3 \u0d89\u0d9c\u0dd9\u0db1\u0dd4\u0db8\u0dca \u0d85\u0db1\u0dd4\u0db4\u0dcf\u0dad\u0dba\u0dda \u0d89\u0dc4\u0dc5 \u0dc0\u0dd2\u0da0\u0dbd\u0dad\u0dcf\u0dc0 \u0db8\u0dd9\u0db8 \u0dbd\u0dd2\u0db4\u0dd2\u0dba \u0db8\u0d9f\u0dd2\u0db1\u0dca \u0d9c\u0dd0\u0da7\u0dc5\u0dd4\u0dc0 \u0dc4\u0db3\u0dd4\u0db1\u0dcf \u0d9c\u0db1\u0dca\u0db1\u0dcf \u0d85\u0dad\u0dbb \u0dc0\u0dd2\u0da0\u0dbd\u0dad\u0dcf\u0dc0 \u0d85\u0da9\u0dd4 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0db1\u0dc0 \u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda \u0dba\u0dd9\u0daf\u0dd4\u0db8\u0d9a\u0dca \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dbb\u0db8\u0dd2\u0db1\u0dca \u0d91\u0dba \u0d9c\u0dab\u0db1\u0dca \u0d9a\u0dbb\u0dba\u0dd2. </p>\n",18"<p>Bias correction term for <span translate=no>_^_0_^_</span>, <span translate=no>_^_1_^_</span> </p>\n": "<p>\u0dc3\u0db3\u0dc4\u0dcf\u0db1\u0dd0\u0db9\u0dd4\u0dbb\u0dd4\u0dc0 \u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda \u0db4\u0daf\u0dba <span translate=no>_^_0_^_</span>, <span translate=no>_^_1_^_</span> </p>\n",19"<p>Calculate <span translate=no>_^_0_^_</span> the number of optimizer steps </p>\n": "<p>\u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2\u0d9a\u0dbb\u0dab\u0db4\u0dd2\u0dba\u0dc0\u0dbb \u0d9c\u0dab\u0db1 \u0d9c\u0dab\u0db1\u0dba \u0d9a\u0dbb\u0db1\u0dca\u0db1 <span translate=no>_^_0_^_</span> </p>\n",20"<p>Calculate weight decay </p>\n": "<p>\u0db6\u0dbb\u0d9a\u0dca\u0dc2\u0dba \u0dc0\u0dd3\u0db8 \u0d9c\u0dab\u0db1\u0dba \u0d9a\u0dbb\u0db1\u0dca\u0db1 </p>\n",21"<p>Computation without optimization </p>\n": "<p>\u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2\u0d9a\u0dbb\u0dab\u0dba\u0d9a\u0dd2\u0db1\u0dca\u0dad\u0ddc\u0dbb\u0dc0 \u0d9c\u0dab\u0db1\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 </p>\n",22"<p>Denominator <span translate=no>_^_0_^_</span> </p>\n": "<p>\u0db1\u0dd2\u0d9c\u0dab\u0dca\u0da8\u0dba\u0dcf <span translate=no>_^_0_^_</span> </p>\n",23"<p>From <span translate=no>_^_0_^_</span> distribution we have,</p>\n": "<p><span translate=no>_^_0_^_</span> \u0db6\u0dd9\u0daf\u0dcf \u0dc4\u0dd0\u0dbb\u0dd3\u0db8\u0dda \u0dc3\u0dd2\u0da7 \u0d85\u0db4 \u0dc3\u0dad\u0dd4\u0dc0 \u0d87\u0dad,</p>\n",24"<p>From above we have <span translate=no>_^_0_^_</span> where <span translate=no>_^_1_^_</span>. Note that <span translate=no>_^_2_^_</span> here is the standard deviation and different from <span translate=no>_^_3_^_</span> for momentum.</p>\n": "<p>\u0d89\u0dc4\u0dc5\u0dd2\u0db1\u0dca\u0d85\u0db4\u0da7 <span translate=no>_^_0_^_</span> \u0d9a\u0ddc\u0dc4\u0dda\u0daf \u0dad\u0dd2\u0db6\u0dda <span translate=no>_^_1_^_</span>. <span translate=no>_^_2_^_</span> \u0db8\u0dd9\u0dc4\u0dd2 \u0dc3\u0db8\u0dca\u0db8\u0dad \u0d85\u0db4\u0d9c\u0db8\u0db1\u0dba \u0dc4\u0dcf \u0d9c\u0db8\u0dca\u0dba\u0dad\u0dcf\u0dc0 <span translate=no>_^_3_^_</span> \u0dc3\u0db3\u0dc4\u0dcf \u0dc0\u0da9\u0dcf \u0dc0\u0dd9\u0db1\u0dc3\u0dca \u0db6\u0dc0 \u0dc3\u0dbd\u0d9a\u0db1\u0dca\u0db1. </p>\n",25"<p>Get <span translate=no>_^_0_^_</span> and <span translate=no>_^_1_^_</span> </p>\n": "<p>\u0dbd\u0db6\u0dcf <span translate=no>_^_0_^_</span> \u0d9c\u0db1\u0dca\u0db1 <span translate=no>_^_1_^_</span> </p>\n",26"<p>Get <span translate=no>_^_0_^_</span> and <span translate=no>_^_1_^_</span>; i.e. <span translate=no>_^_2_^_</span> and <span translate=no>_^_3_^_</span> without bias correction </p>\n": "<p>\u0dbd\u0db6\u0dcf\u0d9c\u0db1\u0dca\u0db1 <span translate=no>_^_0_^_</span> \u0dc3\u0dc4 <span translate=no>_^_1_^_</span>; \u0d91\u0db1\u0db8\u0dca <span translate=no>_^_2_^_</span> \u0dc3\u0dc4 \u0db4\u0d9a\u0dca\u0dc2\u0d9c\u0dca\u0dbb\u0dcf\u0dc4\u0dd3 \u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 <span translate=no>_^_3_^_</span> \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0d9a\u0dd2\u0db1\u0dca \u0dad\u0ddc\u0dbb\u0dc0 </p>\n",27"<p>Get learning rate </p>\n": "<p>\u0d89\u0d9c\u0dd9\u0db1\u0dd4\u0db8\u0dca\u0d85\u0db1\u0dd4\u0db4\u0dcf\u0dad\u0dba \u0dbd\u0db6\u0dcf \u0d9c\u0db1\u0dca\u0db1 </p>\n",28"<p>Here we are taking the simple moving average of the last <span translate=no>_^_0_^_</span> gradients. <span translate=no>_^_1_^_</span> satisfies the following,</p>\n": "<p>\u0db8\u0dd9\u0db1\u0dca\u0db1\u0d85\u0db4\u0dd2 \u0d85\u0dc0\u0dc3\u0dcf\u0db1 <span translate=no>_^_0_^_</span> \u0dc1\u0dca\u0dbb\u0dda\u0dab\u0dd2\u0dba\u0dda \u0dc3\u0dbb\u0dbd \u0da0\u0dbd\u0db1\u0dba \u0dc0\u0db1 \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0dba \u0d9c\u0db1\u0dca\u0db1\u0dd9\u0db8\u0dd4. <span translate=no>_^_1_^_</span> \u0db4\u0dc4\u0dad \u0dc3\u0db3\u0dc4\u0db1\u0dca \u0daf\u0dd1 \u0dad\u0dd8\u0db4\u0dca\u0dad\u0dd2\u0db8\u0dad\u0dca \u0d9a\u0dbb\u0dba\u0dd2,</p>\n",29"<p>If <span translate=no>_^_0_^_</span> is intractable </p>\n": "<p>\u0d87\u0daf <span translate=no>_^_0_^_</span> \u0d9c\u0dad \u0db1\u0ddc\u0dc4\u0dd0\u0d9a\u0dd2 \u0db1\u0db8\u0dca </p>\n",30"<p>If <span translate=no>_^_0_^_</span> is intractable do a SGD with momentum </p>\n": "<p>\u0dbd\u0db6\u0dcf\u0d9c\u0dad \u0db1\u0ddc\u0dc4\u0dd0\u0d9a\u0dd2 <span translate=no>_^_0_^_</span> \u0db1\u0db8\u0dca \u0d9c\u0db8\u0dca\u0dba\u0dad\u0dcf\u0dc0 \u0dc3\u0db8\u0d9c SGD \u0d9a\u0dbb\u0db1\u0dca\u0db1 </p>\n",31"<p>In order to ensure that the adaptive learning rate <span translate=no>_^_0_^_</span> has consistent variance, we rectify the variance with <span translate=no>_^_1_^_</span></p>\n": "<p>\u0d85\u0db1\u0dd4\u0dc0\u0dbb\u0dca\u0dad\u0dd3\u0d89\u0d9c\u0dd9\u0db1\u0dd4\u0db8\u0dca \u0d85\u0db1\u0dd4\u0db4\u0dcf\u0dad\u0dba\u0da7 \u0dc3\u0dca\u0dae\u0dcf\u0dc0\u0dbb \u0dc0\u0dd2\u0da0\u0dbd\u0dad\u0dcf\u0dc0\u0dba\u0d9a\u0dca <span translate=no>_^_0_^_</span> \u0d87\u0dad\u0dd2 \u0db6\u0dc0 \u0dc3\u0dc4\u0dad\u0dd2\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf, \u0d85\u0db4\u0dd2 \u0dc0\u0dd2\u0da0\u0dbd\u0db1\u0dba \u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0d9a\u0dbb\u0db8\u0dd4 <span translate=no>_^_1_^_</span></p>\n",32"<p>Let <span translate=no>_^_0_^_</span> and <span translate=no>_^_1_^_</span> be the functions to calculate momentum and adaptive learning rate. For Adam, they are</p>\n": "<p>\u0d9c\u0db8\u0dca\u0dba\u0dad\u0dcf\u0dc0 <span translate=no>_^_0_^_</span> \u0dc3\u0dc4 <span translate=no>_^_1_^_</span> \u0d85\u0db1\u0dd4\u0dc0\u0dbb\u0dca\u0dad\u0dd3 \u0d89\u0d9c\u0dd9\u0db1\u0dd4\u0db8\u0dca \u0d85\u0db1\u0dd4\u0db4\u0dcf\u0dad\u0dba \u0d9c\u0dab\u0db1\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0d9a\u0dcf\u0dbb\u0dca\u0dba\u0dba\u0db1\u0dca \u0d9a\u0dbb\u0db8\u0dd4. \u0d86\u0daf\u0db8\u0dca \u0dc3\u0db3\u0dc4\u0dcf, \u0d94\u0dc0\u0dd4\u0db1\u0dca</p>\n",33"<p>Perform <em>RAdam</em> update </p>\n": "<p><em>RadAM</em> \u0dba\u0dcf\u0dc0\u0dad\u0dca\u0d9a\u0dcf\u0dbd\u0dd3\u0db1 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0dd2\u0daf\u0dd4 </p>\n",34"<p>Step size <span translate=no>_^_0_^_</span> </p>\n": "<p>\u0db4\u0dd2\u0dba\u0dc0\u0dbb\u0db4\u0dca\u0dbb\u0db8\u0dcf\u0dab\u0dba <span translate=no>_^_0_^_</span> </p>\n",35"<p>The distribution of exponential moving average can be approximated as a simple moving average.</p>\n": "<p>\u0d9d\u0dcf\u0dad\u0dd3\u0dba\u0da0\u0dbd\u0db1\u0dba \u0dc0\u0db1 \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0dba \u0db6\u0dd9\u0daf\u0dcf \u0dc4\u0dd0\u0dbb\u0dd3\u0db8 \u0dc3\u0dbb\u0dbd \u0da0\u0dbd\u0db1\u0dba \u0dc0\u0db1 \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0dba\u0d9a\u0dca \u0dbd\u0dd9\u0dc3 \u0d86\u0dc3\u0db1\u0dca\u0db1 \u0d9a\u0dc5 \u0dc4\u0dd0\u0d9a\u0dd2\u0dba. </p>\n",36"<p>The paper also evaluates two variance reduction mechanisms: <em> <strong>Adam-2k</strong>: Only compute the adaptive learning rate (<span translate=no>_^_0_^_</span> in <a href=\"adam.html\">Adam</a>) during the first 2k steps, without changing parameters or calculating momentum (<span translate=no>_^_1_^_</span>). </em> <strong>Adam-eps</strong>: Adam with large <span translate=no>_^_2_^_</span>.</p>\n": "<p>\u0d9a\u0da9\u0daf\u0dcf\u0dc3\u0dd2\u0dc0\u0dd2\u0da0\u0dbd\u0dca\u0dba\u0dad\u0dcf \u0d85\u0da9\u0dd4 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda \u0dba\u0dcf\u0db1\u0dca\u0dad\u0dca\u0dbb\u0dab \u0daf\u0dd9\u0d9a\u0d9a\u0dca \u0daf \u0d87\u0d9c\u0dba\u0dd3\u0db8\u0da7 \u0dbd\u0d9a\u0dca \u0d9a\u0dbb\u0dba\u0dd2: <em> <strong>\u0d87\u0da9\u0db8\u0dca-2K</strong>: \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd3\u0db1\u0dca \u0dc0\u0dd9\u0db1\u0dc3\u0dca \u0db1\u0ddc\u0d9a\u0dbb \u0dc4\u0ddd \u0d9c\u0db8\u0dca\u0dba\u0dad\u0dcf\u0dc0 \u0d9c\u0dab\u0db1\u0dba \u0db1\u0ddc\u0d9a\u0dbb \u0db4\u0dc5\u0db8\u0dd4 2k \u0db4\u0dd2\u0dba\u0dc0\u0dbb \u0dad\u0dd4\u0dc5 \u0d85\u0db1\u0dd4\u0dc0\u0dbb\u0dca\u0dad\u0dd3 \u0d89\u0d9c\u0dd9\u0db1\u0dd4\u0db8\u0dca \u0d85\u0db1\u0dd4\u0db4\u0dcf\u0dad\u0dba (<span translate=no>_^_0_^_</span> <a href=\"adam.html\">\u0d86\u0daf\u0db8\u0dca</a>\u0dc4\u0dd2) \u0db4\u0db8\u0dab\u0d9a\u0dca \u0d9c\u0dab\u0db1\u0dba \u0d9a\u0dbb\u0db1\u0dca\u0db1 ( <span translate=no>_^_1_^_</span>). </em> <strong>\u0d87\u0da9\u0db8\u0dca-\u0d8a\u0db4\u0dd3\u0d91\u0dc3\u0dca</strong>: \u0d86\u0daf\u0db8\u0dca \u0dc0\u0dd2\u0dc1\u0dcf\u0dbd <span translate=no>_^_2_^_</span>. </p>\n",37"<p>Therefore the variance is minimized at maximal <span translate=no>_^_0_^_</span> which is <span translate=no>_^_1_^_</span>. Let the minimum variance be <span translate=no>_^_2_^_</span></p>\n": "<p>\u0d91\u0db6\u0dd0\u0dc0\u0dd2\u0db1\u0dca\u0dc0\u0dd2\u0da0\u0dbd\u0dad\u0dcf\u0dc0 \u0d8b\u0db4\u0dbb\u0dd2\u0db8 <span translate=no>_^_0_^_</span> \u0dc0\u0dc1\u0dba\u0dd9\u0db1\u0dca \u0d85\u0dc0\u0db8 \u0d9a\u0dbb <span translate=no>_^_1_^_</span>\u0d87\u0dad. \u0d85\u0dc0\u0db8 \u0dc0\u0dd2\u0da0\u0dbd\u0dad\u0dcf\u0dc0 \u0dc0\u0dd3\u0db8\u0da7 \u0d89\u0da9 \u0daf\u0dd9\u0db1\u0dca\u0db1 <span translate=no>_^_2_^_</span></p>\n",38"<p>They estimate <span translate=no>_^_0_^_</span> based on first order expansion of <span translate=no>_^_1_^_</span> \ud83e\udd2a I didn't get how it was derived.</p>\n": "<p>\u0d94\u0dc0\u0dd4\u0db1\u0dca <span translate=no>_^_1_^_</span> \ud83e\udd2a \u0db4\u0dc5\u0db8\u0dd4 \u0db4\u0dd2\u0dab\u0dd2\u0dc3 \u0db4\u0dd4\u0dc5\u0dd4\u0dbd\u0dca \u0db8\u0dad <span translate=no>_^_0_^_</span> \u0db4\u0daf\u0db1\u0db8\u0dca \u0dad\u0d9a\u0dca\u0dc3\u0dda\u0dbb\u0dd4 \u0db8\u0db8 \u0d91\u0dba \u0dc0\u0dca\u0dba\u0dd4\u0dad\u0dca\u0db4\u0db1\u0dca\u0db1 \u0d9a\u0dbb\u0db1 \u0d86\u0d9a\u0dcf\u0dbb\u0dba \u0dbd\u0dd0\u0db6\u0dd4\u0dab\u0dda \u0db1\u0dd0\u0dc4\u0dd0. </p>\n",39"<p>They prove that variance of <span translate=no>_^_0_^_</span> decreases with <span translate=no>_^_1_^_</span> when <span translate=no>_^_2_^_</span>.</p>\n": "<p>\u0d94\u0dc0\u0dd4\u0db1\u0dca\u0dc0\u0dd2\u0da0\u0dbd\u0db1\u0dba \u0dc0\u0db1 <span translate=no>_^_1_^_</span> \u0dc0\u0dd2\u0da7 <span translate=no>_^_0_^_</span> \u0d85\u0da9\u0dd4 \u0dc0\u0db1 \u0db6\u0dc0 \u0d94\u0dc0\u0dd4\u0dc4\u0dd4 \u0d94\u0db4\u0dca\u0db4\u0dd4 <span translate=no>_^_2_^_</span>\u0d9a\u0dbb\u0dad\u0dd2. </p>\n",40"<p>This gives,</p>\n": "<p>\u0db8\u0dd9\u0dba\u0dbd\u0db6\u0dcf \u0daf\u0dd9\u0dba\u0dd2,</p>\n",41"<p>This implementation is based on <a href=\"https://github.com/LiyuanLucasLiu/RAdam\">the official implementation</a> of the paper <a href=\"https://arxiv.org/abs/1908.03265\">On the Variance of the Adaptive Learning Rate and Beyond</a>.</p>\n": "<p>\u0db8\u0dd9\u0db8\u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0db4\u0daf\u0db1\u0db8\u0dca \u0dc0\u0dd3 \u0d87\u0dad\u0dca\u0dad\u0dda \u0d9a\u0da9\u0daf\u0dcf\u0dc3\u0dd2 <a href=\"https://github.com/LiyuanLucasLiu/RAdam\">\u0db1\u0dd2\u0dbd \u0dc0\u0dc1\u0dba\u0dd9\u0db1\u0dca \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8</a> <a href=\"https://arxiv.org/abs/1908.03265\">\u0db8\u0dad \u0d85\u0db1\u0dd4\u0dc0\u0dbb\u0dca\u0dad\u0dd3 \u0d89\u0d9c\u0dd9\u0db1\u0dd4\u0db8\u0dca \u0d85\u0db1\u0dd4\u0db4\u0dcf\u0dad\u0dba \u0dc3\u0dc4 \u0d89\u0db1\u0dca \u0d94\u0db6\u0dca\u0db6\u0da7 \u0dc0\u0dd2\u0da0\u0dbd\u0dca\u0dba\u0dad\u0dcf\u0dc0</a> \u0db8\u0dad \u0dba. </p>\n",42"<p>Update parameters <span translate=no>_^_0_^_</span> </p>\n": "<p>\u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd3\u0db1\u0dca\u0dba\u0dcf\u0dc0\u0dad\u0dca\u0d9a\u0dcf\u0dbd\u0dd3\u0db1 \u0d9a\u0dbb\u0db1\u0dca\u0db1 <span translate=no>_^_0_^_</span> </p>\n",43"<p>We have implemented it in <a href=\"https://pytorch.org\">PyTorch</a> as an extension to <a href=\"amsgrad.html\">our AMSGrad implementation</a> thus requiring only the modifications to be implemented.</p>\n": "<p><a href=\"amsgrad.html\">\u0d85\u0db4\u0d9c\u0dda AMSGrad \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda \u0daf\u0dd2\u0d9c\u0dd4\u0dc0\u0d9a\u0dca \u0dbd\u0dd9\u0dc3 \u0d85\u0db4\u0dd2 \u0d91\u0dba <a href=\"https://pytorch.org\">PyTorch</a> \u0dc4\u0dd2 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a</a> \u0d9a\u0dbb \u0d87\u0dad\u0dd2 \u0d85\u0dad\u0dbb \u0d91\u0db8\u0d9f\u0dd2\u0db1\u0dca \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dc5 \u0dba\u0dd4\u0dad\u0dd4 \u0dc0\u0dd9\u0db1\u0dc3\u0dca\u0d9a\u0db8\u0dca \u0db4\u0db8\u0dab\u0d9a\u0dca \u0d85\u0dc0\u0dc1\u0dca\u0dba \u0dc0\u0dda. </p>\n",44"<p>We have</p>\n": "<p>\u0d85\u0db4\u0dc3\u0dad\u0dd4\u0dc0 \u0d87\u0dad</p>\n",45"<p>Whether to optimize the computation by combining scalar computations </p>\n": "<p>Scalar\u0d9c\u0dab\u0db1\u0dba \u0d92\u0d9a\u0dcf\u0db6\u0daf\u0dca\u0db0 \u0dc0\u0dd2\u0dc3\u0dd2\u0db1\u0dca \u0d9c\u0dab\u0db1\u0dba \u0d8b\u0db4\u0dbb\u0dd2\u0db8 \u0db5\u0dbd \u0dbd\u0db6\u0dcf \u0d9c\u0dd0\u0db1\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0dba\u0db1\u0dca\u0db1 </p>\n",46"<p>where <span translate=no>_^_0_^_</span> is <span translate=no>_^_1_^_</span> for <span translate=no>_^_2_^_</span>. Lt <span translate=no>_^_3_^_</span> and step <span translate=no>_^_4_^_</span> be <span translate=no>_^_5_^_</span>, and <span translate=no>_^_6_^_</span> be the rectification term at step <span translate=no>_^_7_^_</span>.</p>\n": "<p><span translate=no>_^_0_^_</span> <span translate=no>_^_1_^_</span> <span translate=no>_^_2_^_</span>\u0d9a\u0ddc\u0dc4\u0dda\u0daf? Lt <span translate=no>_^_3_^_</span> \u0dc3\u0dc4 \u0db4\u0dd2\u0dba\u0dc0\u0dbb <span translate=no>_^_4_^_</span> \u0dc0\u0db1\u0dca\u0db1 <span translate=no>_^_5_^_</span>, \u0dc3\u0dc4 \u0db4\u0dd2\u0dba\u0dc0\u0dbb\u0dd9\u0db1\u0dca \u0db4\u0dd2\u0dba\u0dc0\u0dbb \u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda \u0db4\u0daf\u0dba <span translate=no>_^_6_^_</span> \u0dc0\u0db1\u0dca\u0db1 <span translate=no>_^_7_^_</span>. </p>\n",47"<p>which gives, <span translate=no>_^_0_^_</span></p>\n": "<p>\u0dbd\u0db6\u0dcf\u0daf\u0dd9\u0db1, <span translate=no>_^_0_^_</span></p>\n",48"<span translate=no>_^_0_^_</span>": "<span translate=no>_^_0_^_</span>",49"A simple PyTorch implementation/tutorial of RAdam optimizer.": "RadAM \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dcf\u0dbb\u0d9a\u0dba\u0dda \u0dc3\u0dbb\u0dbd PyTorch \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8/\u0db1\u0dd2\u0db6\u0db1\u0dca\u0db0\u0db1\u0dba.",50"Rectified Adam (RAdam) optimizer": "\u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0d9a\u0dbb\u0db1 \u0dbd\u0daf \u0d86\u0daf\u0db8\u0dca (RaDAM) \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2"51}5253