Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
labmlai
GitHub Repository: labmlai/annotated_deep_learning_paper_implementations
Path: blob/master/translate_cache/transformers/configs.si.json
4924 views
1
{
2
"<h1>Configurable Transformer Components</h1>\n": "<h1>\u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0d9c\u0dad\u0d9a\u0dc5 \u0dc4\u0dd0\u0d9a\u0dd2 \u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca \u0dc3\u0d82\u0dbb\u0da0\u0d9a</h1>\n",
3
"<h2>GLU Variants</h2>\n<p>These are variants with gated hidden layers for the FFN as introduced in paper <a href=\"https://arxiv.org/abs/2002.05202\">GLU Variants Improve Transformer</a>. We have omitted the bias terms as specified in the paper. </p>\n": "<h2>GLU\u0db4\u0dca\u0dbb\u0db7\u0dda\u0daf</h2>\n<p>\u0db8\u0dda\u0dc0\u0dcf\u0d9a\u0da9\u0daf\u0dcf\u0dc3\u0dd2 \u0dc0\u0dbd\u0dd2\u0db1\u0dca \u0dc4\u0db3\u0dd4\u0db1\u0dca\u0dc0\u0dcf \u0daf\u0dd3 \u0d87\u0dad\u0dd2 \u0db4\u0dbb\u0dd2\u0daf\u0dd2 \u0d91\u0dc6\u0dca\u0d91\u0dc6\u0dca\u0d91\u0db1\u0dca \u0dc3\u0db3\u0dc4\u0dcf \u0d9c\u0dda\u0da7\u0dca\u0da7\u0dd4 \u0dc3\u0dd0\u0d9f\u0dc0\u0dd4\u0dab\u0dd4 \u0dc3\u0dca\u0dae\u0dbb \u0dc3\u0dc4\u0dd2\u0dad \u0db4\u0dca\u0dbb\u0db7\u0dda\u0daf \u0dc0\u0dda <a href=\"https://arxiv.org/abs/2002.05202\">GLU \u0db4\u0dca\u0dbb\u0db7\u0dda\u0daf \u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca \u0dc0\u0dd0\u0da9\u0dd2 \u0daf\u0dd2\u0dba\u0dd4\u0dab\u0dd4 \u0d9a\u0dbb\u0db1\u0dca\u0db1</a>. \u0d9a\u0da9\u0daf\u0dcf\u0dc3\u0dd2 \u0dc0\u0dbd \u0daf\u0d9a\u0dca\u0dc0\u0dcf \u0d87\u0dad\u0dd2 \u0db4\u0dbb\u0dd2\u0daf\u0dd2 \u0d85\u0db4\u0dd2 \u0db4\u0d9a\u0dca\u0dc2\u0d9c\u0dca\u0dbb\u0dcf\u0dc4\u0dd3 \u0db1\u0dd2\u0dba\u0db8\u0dba\u0db1\u0dca \u0db8\u0d9f \u0dc4\u0dd0\u0dbb\u0dd2 \u0d87\u0dad. </p>\n",
4
"<h3>FFN with Bilinear hidden layer</h3>\n<p><span translate=no>_^_0_^_</span> </p>\n": "<h3>\u0db6\u0dd2\u0dbd\u0dd3\u0db1\u0dd2\u0dba\u0dbb\u0dca\u0dc3\u0dd0\u0d9f\u0dc0\u0dd4\u0dab\u0dd4 \u0dad\u0da7\u0dca\u0da7\u0dd4\u0dc0\u0d9a\u0dca \u0dc3\u0dc4\u0dd2\u0dad FFN</h3>\n<p><span translate=no>_^_0_^_</span> </p>\n",
5
"<h3>FFN with GELU gate</h3>\n<p><span translate=no>_^_0_^_</span> </p>\n": "<h3>GELU\u0d9c\u0dda\u0da7\u0dca\u0da7\u0dd4\u0dc0 \u0dc3\u0dc4\u0dd2\u0dad FFN</h3>\n<p><span translate=no>_^_0_^_</span> </p>\n",
6
"<h3>FFN with Gated Linear Units</h3>\n<p><span translate=no>_^_0_^_</span> </p>\n": "<h3>\u0d9c\u0dda\u0da7\u0dca\u0da7\u0dd4\u0dbb\u0dda\u0d9b\u0dd3\u0dba \u0d92\u0d9a\u0d9a \u0dc3\u0db8\u0d9f FFN</h3>\n<p><span translate=no>_^_0_^_</span> </p>\n",
7
"<h3>FFN with ReLU gate</h3>\n<p><span translate=no>_^_0_^_</span> </p>\n": "<h3>RelU\u0d9c\u0dda\u0da7\u0dca\u0da7\u0dd4\u0dc0 \u0dc3\u0db8\u0d9f FFN</h3>\n<p><span translate=no>_^_0_^_</span> </p>\n",
8
"<h3>FFN with Swish gate</h3>\n<p><span translate=no>_^_0_^_</span> where <span translate=no>_^_1_^_</span> </p>\n": "<h3>\u0dc3\u0dca\u0dc0\u0dd2\u0dc2\u0dca\u0d9c\u0dda\u0da7\u0dca\u0da7\u0dd4\u0dc0 \u0dc3\u0db8\u0d9f \u0d91\u0dc6\u0dca\u0d91\u0dc6\u0dca\u0d91\u0db1\u0dca</h3>\n<p><span translate=no>_^_0_^_</span> \u0d9a\u0ddc\u0dc4\u0dda\u0daf <span translate=no>_^_1_^_</span> </p>\n",
9
"<h3>Fixed Positional Embeddings</h3>\n<p>Source embedding with fixed positional encodings</p>\n": "<h3>\u0dc3\u0dca\u0dae\u0dcf\u0dc0\u0dbb\u0dc3\u0dca\u0dae\u0dcf\u0db1\u0dd3\u0dba \u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8\u0dca</h3>\n<p>\u0dc3\u0dca\u0dae\u0dcf\u0dc0\u0dbb\u0dc3\u0dca\u0dae\u0dcf\u0db1\u0dd3\u0dba \u0d9a\u0dda\u0dad\u0dd3\u0d9a\u0dbb\u0dab \u0dc3\u0db8\u0d9f \u0db4\u0dca\u0dbb\u0db7\u0dc0 \u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8</p>\n",
10
"<h3>GELU activation</h3>\n<p><span translate=no>_^_0_^_</span> where <span translate=no>_^_1_^_</span></p>\n<p>It was introduced in paper <a href=\"https://arxiv.org/abs/1606.08415\">Gaussian Error Linear Units</a>.</p>\n": "<h3>GELU\u0dc3\u0d9a\u0dca\u0dbb\u0dd2\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8</h3>\n<p><span translate=no>_^_0_^_</span> \u0d9a\u0ddc\u0dc4\u0dda\u0daf <span translate=no>_^_1_^_</span></p>\n<p>\u0d91\u0dba\u0d9a\u0da9\u0daf\u0dcf\u0dc3\u0dd2 <a href=\"https://arxiv.org/abs/1606.08415\">Gaussian \u0daf\u0ddd\u0dc2 \u0dbb\u0dda\u0d9b\u0dd3\u0dba \u0d92\u0d9a\u0d9a</a>\u0dc4\u0db3\u0dd4\u0db1\u0dca\u0dc0\u0dcf \u0daf\u0dd9\u0db1 \u0dbd\u0daf\u0dd3. </p>\n",
11
"<h3>Learned Positional Embeddings</h3>\n<p>Source embedding with learned positional encodings</p>\n": "<h3>\u0dc3\u0dca\u0dae\u0dcf\u0db1\u0dd3\u0dba\u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8\u0dca \u0d89\u0d9c\u0dd9\u0db1</h3>\n<p>\u0d8b\u0d9c\u0dad\u0dca\u0dc3\u0dca\u0dae\u0dcf\u0db1\u0dd3\u0dba \u0d9a\u0dda\u0dad\u0dd3\u0d9a\u0dbb\u0dab \u0dc3\u0db8\u0d9f \u0db4\u0dca\u0dbb\u0db7\u0dc0\u0dba \u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8</p>\n",
12
"<h3>Multi-head Attention</h3>\n": "<h3>\u0db6\u0dc4\u0dd4-\u0dc4\u0dd2\u0dc3\u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba</h3>\n",
13
"<h3>No Positional Embeddings</h3>\n<p>Source embedding without positional encodings</p>\n": "<h3>\u0dc3\u0dca\u0dae\u0dcf\u0db1\u0dd3\u0dba\u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8\u0dca \u0db1\u0ddc\u0db8\u0dd0\u0dad</h3>\n<p>\u0dc3\u0dca\u0dae\u0dcf\u0db1\u0dd3\u0dba\u0d9a\u0dda\u0dad\u0dd3\u0d9a\u0dbb\u0dab\u0dba\u0d9a\u0dd2\u0db1\u0dca \u0dad\u0ddc\u0dbb\u0dc0 \u0db4\u0dca\u0dbb\u0db7\u0dc0 \u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8</p>\n",
14
"<h3>ReLU activation</h3>\n<p><span translate=no>_^_0_^_</span></p>\n": "<h3>Relu\u0dc3\u0d9a\u0dca\u0dbb\u0dd2\u0dba</h3>\n<p><span translate=no>_^_0_^_</span></p>\n",
15
"<h3>Relative Multi-head Attention</h3>\n": "<h3>\u0dc3\u0dcf\u0db4\u0dda\u0d9a\u0dca\u0dc2\u0db6\u0dc4\u0dd4-\u0dc4\u0dd2\u0dc3 \u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba</h3>\n",
16
"<p> <a id=\"FFN\"></a></p>\n<h2>FFN Configurations</h2>\n<p>Creates a Position-wise FeedForward Network defined in <a href=\"feed_forward.html\"><span translate=no>_^_0_^_</span></a>.</p>\n": "<p> <a id=\"FFN\"></a></p>\n<h2>FFN\u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0dba\u0db1\u0dca</h2>\n<p>\u0d85\u0dbb\u0dca\u0dae\u0daf\u0d9a\u0dca\u0dc0\u0dcf \u0d87\u0dad\u0dd2 \u0dc3\u0dca\u0dae\u0dcf\u0db1-\u0db1\u0dd0\u0dab\u0dc0\u0dad\u0dca Feed\u0d89\u0daf\u0dd2\u0dbb\u0dd2 \u0da2\u0dcf\u0dbd\u0dba\u0d9a\u0dca \u0db1\u0dd2\u0dbb\u0dca\u0db8\u0dcf\u0dab\u0dba \u0d9a\u0dbb\u0dba\u0dd2 <a href=\"feed_forward.html\"><span translate=no>_^_0_^_</span></a>. </p>\n",
17
"<p> <a id=\"TransformerConfigs\"></a></p>\n<h2>Transformer Configurations</h2>\n<p>This defines configurations for a transformer. The configurations are calculate using option functions. These are lazy loaded and therefore only the necessary modules are calculated.</p>\n": "<p> <a id=\"TransformerConfigs\"></a></p>\n<h2>\u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca\u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0dba\u0db1\u0dca</h2>\n<p>\u0db8\u0dd9\u0dba\u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dba\u0d9a\u0dca \u0dc3\u0db3\u0dc4\u0dcf \u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0dba\u0db1\u0dca \u0d85\u0dbb\u0dca\u0dae \u0daf\u0d9a\u0dca\u0dc0\u0dba\u0dd2. \u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0dba\u0db1\u0dca \u0dc0\u0dd2\u0d9a\u0dbd\u0dca\u0db4 \u0d9a\u0dcf\u0dbb\u0dca\u0dba\u0dba\u0db1\u0dca \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dbb\u0db8\u0dd2\u0db1\u0dca \u0d9c\u0dab\u0db1\u0dba \u0d9a\u0dbb\u0db1\u0dd4 \u0dbd\u0dd0\u0db6\u0dda. \u0db8\u0dda\u0dc0\u0dcf \u0d9a\u0db8\u0dca\u0db8\u0dd0\u0dbd\u0dd2 \u0dbd\u0dd9\u0dc3 \u0db4\u0da7\u0dc0\u0dcf \u0d87\u0dad\u0dd2 \u0d85\u0dad\u0dbb \u0d91\u0db6\u0dd0\u0dc0\u0dd2\u0db1\u0dca \u0d85\u0dc0\u0dc1\u0dca\u0dba \u0db8\u0ddc\u0da9\u0dd2\u0dba\u0dd4\u0dbd \u0db4\u0db8\u0dab\u0d9a\u0dca \u0d9c\u0dab\u0db1\u0dba \u0d9a\u0dbb\u0db1\u0dd4 \u0dbd\u0dd0\u0db6\u0dda. </p>\n",
18
"<p> Create feedforward layer configurations</p>\n": "<p> \u0db4\u0dca\u0dbb\u0dad\u0dd2\u0db4\u0ddd\u0dc2\u0dab\u0dc3\u0dca\u0dae\u0dbb \u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0dba\u0db1\u0dca \u0dc3\u0dcf\u0daf\u0db1\u0dca\u0db1</p>\n",
19
"<p> Decoder layer</p>\n": "<p> \u0dc3\u0dca\u0dad\u0dbb\u0dba\u0dc0\u0dd2\u0d9a\u0dda\u0dad\u0d9a\u0dba</p>\n",
20
"<p> Decoder</p>\n": "<p> \u0dc0\u0dd2\u0d9a\u0dda\u0dad\u0d9a\u0dba</p>\n",
21
"<p> Encoder layer</p>\n": "<p> \u0d86\u0d9a\u0dda\u0dad\u0d9a\u0dba\u0dc3\u0dca\u0dae\u0dbb\u0dba</p>\n",
22
"<p> Encoder</p>\n": "<p> \u0d91\u0db1\u0dca\u0d9a\u0ddd\u0da9\u0dbb\u0dba</p>\n",
23
"<p> Initialize a <a href=\"feed_forward.html\">feed forward network</a></p>\n": "<p> <a href=\"feed_forward.html\">\u0d86\u0dc4\u0dcf\u0dbb \u0d89\u0daf\u0dd2\u0dbb\u0dd2 \u0da2\u0dcf\u0dbd\u0dba\u0d9a\u0dca</a>\u0d86\u0dbb\u0db8\u0dca\u0db7 \u0d9a\u0dbb\u0db1\u0dca\u0db1</p>\n",
24
"<p> Logit generator</p>\n": "<p> \u0dbd\u0ddc\u0d9c\u0dd2\u0db1\u0dca\u0dc0\u0db1\u0dca\u0db1 \u0da2\u0db1\u0d9a\u0dba</p>\n",
25
"<p> Target embedding with fixed positional encodings</p>\n": "<p> \u0dc3\u0dca\u0dae\u0dcf\u0dc0\u0dbb\u0dc3\u0dca\u0dae\u0dcf\u0db1\u0dd3\u0dba \u0d9a\u0dda\u0dad\u0db1 \u0d9a\u0dca\u0dbb\u0db8 \u0dc3\u0db8\u0d9f \u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8 \u0d89\u0dbd\u0d9a\u0dca\u0d9a \u0d9a\u0dbb\u0db1\u0dca\u0db1</p>\n",
26
"<p> Target embedding with learned positional encodings</p>\n": "<p> \u0d8b\u0d9c\u0dad\u0dca\u0dc3\u0dca\u0dae\u0dcf\u0db1\u0dd3\u0dba \u0d9a\u0dda\u0dad\u0db1 \u0d9a\u0dca\u0dbb\u0db8 \u0dc3\u0db8\u0d9f \u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8 \u0d89\u0dbd\u0d9a\u0dca\u0d9a \u0d9a\u0dbb \u0d9c\u0db1\u0dca\u0db1</p>\n",
27
"<p>Activation in position-wise feedforward layer </p>\n": "<p>\u0dc3\u0dca\u0dae\u0dcf\u0db1-\u0db1\u0dd0\u0dab\u0dc0\u0dad\u0dca\u0db4\u0ddd\u0dc2\u0d9a \u0dc3\u0dca\u0dae\u0dbb\u0dba\u0dda \u0dc3\u0d9a\u0dca\u0dbb\u0dd2\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 </p>\n",
28
"<p>Configurable Feedforward Layer </p>\n": "<p>\u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0d9c\u0dad\u0d9a\u0dc5 \u0dc4\u0dd0\u0d9a\u0dd2 \u0db4\u0dca\u0dbb\u0dad\u0dd2\u0db4\u0ddd\u0dc2\u0dab \u0dc3\u0dca\u0dae\u0dbb\u0dba </p>\n",
29
"<p>Decoder layer </p>\n": "<p>\u0dc3\u0dca\u0dad\u0dbb\u0dba\u0dc0\u0dd2\u0d9a\u0dda\u0dad\u0d9a\u0dba </p>\n",
30
"<p>Dropout probability </p>\n": "<p>\u0d85\u0dad\u0dc4\u0dd0\u0dbb\u0daf\u0dd0\u0db8\u0dd3\u0db8\u0dda \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0 </p>\n",
31
"<p>Embedding layer for source </p>\n": "<p>\u0db4\u0dca\u0dbb\u0db7\u0dc0\u0dba\u0dc3\u0db3\u0dc4\u0dcf \u0dc3\u0dca\u0dad\u0dbb\u0dba \u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8 </p>\n",
32
"<p>Embedding layer for target (for decoder) </p>\n": "<p>\u0d89\u0dbd\u0d9a\u0dca\u0d9a\u0dba\u0dc3\u0db3\u0dc4\u0dcf \u0dc3\u0dca\u0dad\u0dbb\u0dba \u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8 (\u0dc0\u0dd2\u0d9a\u0dda\u0dad\u0d9a\u0dba \u0dc3\u0db3\u0dc4\u0dcf) </p>\n",
33
"<p>Encoder consisting of multiple decoder layers </p>\n": "<p>\u0db6\u0dc4\u0dd4\u0dc0\u0dd2\u0d9a\u0dda\u0dad\u0d9a \u0dc3\u0dca\u0dae\u0dbb \u0dc0\u0dbd\u0dd2\u0db1\u0dca \u0dc3\u0db8\u0db1\u0dca\u0dc0\u0dd2\u0dad \u0d91\u0db1\u0dca\u0d9a\u0ddd\u0da9\u0dbb\u0dba </p>\n",
34
"<p>Encoder consisting of multiple encoder layers </p>\n": "<p>\u0db6\u0dc4\u0dd4\u0d91\u0db1\u0dca\u0d9a\u0ddd\u0da9\u0dbb\u0dca \u0dc3\u0dca\u0dae\u0dbb \u0dc0\u0dbd\u0dd2\u0db1\u0dca \u0dc3\u0db8\u0db1\u0dca\u0dc0\u0dd2\u0dad \u0d91\u0db1\u0dca\u0d9a\u0ddd\u0da9\u0dbb\u0dba </p>\n",
35
"<p>Encoder layer </p>\n": "<p>\u0d86\u0d9a\u0dda\u0dad\u0d9a\u0dba\u0dc3\u0dca\u0dae\u0dbb\u0dba </p>\n",
36
"<p>Encoder-decoder </p>\n": "<p>\u0d91\u0db1\u0dca\u0d9a\u0ddd\u0da9\u0dbb\u0dba-\u0dc0\u0dd2\u0d9a\u0dda\u0dad\u0d9a\u0dba </p>\n",
37
"<p>Logit generator for prediction </p>\n": "<p>\u0d85\u0db1\u0dcf\u0dc0\u0dd0\u0d9a\u0dd2\u0dba\u0dc3\u0db3\u0dc4\u0dcf \u0dbd\u0ddc\u0d9c\u0dd2\u0db1\u0dca \u0dc0\u0db1\u0dca\u0db1 \u0da2\u0db1\u0d9a\u0dba </p>\n",
38
"<p>Number of attention heads </p>\n": "<p>\u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba\u0dba\u0ddc\u0db8\u0dd4 \u0db4\u0dca\u0dbb\u0db0\u0dcf\u0db1\u0dd3\u0db1\u0dca \u0d9c\u0dab\u0db1 </p>\n",
39
"<p>Number of features in in the hidden layer </p>\n": "<p>\u0dc3\u0dd0\u0d9f\u0dc0\u0dd4\u0dab\u0dd4\u0dc3\u0dca\u0dae\u0dbb\u0dba\u0dda \u0d87\u0dad\u0dd2 \u0dbd\u0d9a\u0dca\u0dc2\u0dab \u0d9c\u0dab\u0db1 </p>\n",
40
"<p>Number of features in the embedding </p>\n": "<p>\u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8\u0dda\u0dc0\u0dd2\u0dc1\u0dda\u0dc2\u0dcf\u0d82\u0d9c \u0d9c\u0dab\u0db1 </p>\n",
41
"<p>Number of layers </p>\n": "<p>\u0dc3\u0dca\u0dae\u0dbb\u0d9c\u0dab\u0db1 </p>\n",
42
"<p>Number of tokens in the source vocabulary (for token embeddings) </p>\n": "<p>\u0db4\u0dca\u0dbb\u0db7\u0dc0\u0dc0\u0da0\u0db1 \u0db8\u0dcf\u0dbd\u0dcf\u0dc0\u0dda \u0da7\u0ddd\u0d9a\u0db1 \u0d9c\u0dab\u0db1 (\u0da7\u0ddd\u0d9a\u0db1\u0dca \u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8\u0dca \u0dc3\u0db3\u0dc4\u0dcf) </p>\n",
43
"<p>Number of tokens in the target vocabulary (to generate logits for prediction) </p>\n": "<p>\u0d89\u0dbd\u0d9a\u0dca\u0d9a\u0d9c\u0dad\u0dc0\u0da0\u0db1 \u0db8\u0dcf\u0dbd\u0dcf\u0dc0\u0dda \u0da7\u0ddd\u0d9a\u0db1 \u0d9c\u0dab\u0db1 (\u0db4\u0dd4\u0dbb\u0ddd\u0d9a\u0dae\u0db1\u0dba \u0dc3\u0db3\u0dc4\u0dcf \u0db4\u0dd2\u0dc0\u0dd2\u0dc3\u0dd4\u0db8\u0dca \u0da2\u0db1\u0db1\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0da7) </p>\n",
44
"<p>Position-wise feedforward layer </p>\n": "<p>\u0dc3\u0dca\u0dae\u0dcf\u0db1-\u0db1\u0dd0\u0dab\u0dc0\u0dad\u0dca\u0db4\u0ddd\u0dc2\u0d9a \u0dc3\u0dca\u0dae\u0dbb\u0dba </p>\n",
45
"<p>Predefined GLU variants </p>\n": "<p>\u0db4\u0dd6\u0dbb\u0dca\u0dc0\u0db1\u0dd2\u0dc1\u0dca\u0da0\u0dd2\u0dad GLU \u0db4\u0dca\u0dbb\u0db7\u0dda\u0daf </p>\n",
46
"<p>The decoder memory attention </p>\n": "<p>\u0dc0\u0dd2\u0d9a\u0dda\u0dad\u0d9a\u0db8\u0dad\u0d9a \u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba </p>\n",
47
"<p>The decoder self attention </p>\n": "<p>\u0dc0\u0dd2\u0d9a\u0dda\u0dad\u0d9a\u0dba\u0dc3\u0dca\u0dc0\u0dba\u0d82 \u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba </p>\n",
48
"<p>The encoder self attention </p>\n": "<p>\u0d91\u0db1\u0dca\u0d9a\u0ddd\u0da9\u0dbb\u0dba\u0dc3\u0dca\u0dc0\u0dba\u0d82 \u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba </p>\n",
49
"<p>Transformer embedding size </p>\n": "<p>\u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca\u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8\u0dda \u0db4\u0dca\u0dbb\u0db8\u0dcf\u0dab\u0dba </p>\n",
50
"<p>Whether the FFN layer should be gated </p>\n": "<p>FFN\u0dc3\u0dca\u0dad\u0dbb\u0dba \u0d9c\u0dda\u0da7\u0dca\u0da7\u0dd4 \u0d9a\u0dc5 \u0dba\u0dd4\u0dad\u0dd4\u0daf \u0dba\u0db1\u0dca\u0db1 </p>\n",
51
"<p>Whether the first fully connected layer should have a learnable bias </p>\n": "<p>\u0db4\u0dc5\u0db8\u0dd4\u0db4\u0dd6\u0dbb\u0dca\u0dab \u0dc3\u0db8\u0dca\u0db6\u0db1\u0dca\u0db0\u0dd2\u0dad \u0dc3\u0dca\u0dae\u0dbb\u0dba\u0da7 \u0d89\u0d9c\u0dd9\u0db1 \u0d9c\u0dad \u0dc4\u0dd0\u0d9a\u0dd2 \u0db1\u0dd0\u0db9\u0dd4\u0dbb\u0dd4\u0dc0\u0d9a\u0dca \u0dad\u0dd2\u0db6\u0dd2\u0dba \u0dba\u0dd4\u0dad\u0dd4\u0daf \u0dba\u0db1\u0dca\u0db1 </p>\n",
52
"<p>Whether the fully connected layer for the gate should have a learnable bias </p>\n": "<p>\u0d9c\u0dda\u0da7\u0dca\u0da7\u0dd4\u0dc0\u0dc3\u0db3\u0dc4\u0dcf \u0db4\u0dd6\u0dbb\u0dca\u0dab \u0dc3\u0db8\u0dca\u0db6\u0db1\u0dca\u0db0\u0dd2\u0dad \u0dc3\u0dca\u0dad\u0dbb\u0dba \u0d89\u0d9c\u0dd9\u0db1 \u0d9c\u0dad \u0dc4\u0dd0\u0d9a\u0dd2 \u0db1\u0dd0\u0db9\u0dd4\u0dbb\u0dd4\u0dc0\u0d9a\u0dca \u0dad\u0dd2\u0db6\u0dd2\u0dba \u0dba\u0dd4\u0dad\u0dd4\u0daf \u0dba\u0db1\u0dca\u0db1 </p>\n",
53
"<p>Whether the second fully connected layer should have a learnable bias </p>\n": "<p>\u0daf\u0dd9\u0dc0\u0db1\u0db4\u0dd6\u0dbb\u0dca\u0dab \u0dc3\u0db8\u0dca\u0db6\u0db1\u0dca\u0db0\u0dd2\u0dad \u0dc3\u0dca\u0dad\u0dbb\u0dba \u0d89\u0d9c\u0dd9\u0db1 \u0d9c\u0dad \u0dc4\u0dd0\u0d9a\u0dd2 \u0db1\u0dd0\u0db9\u0dd4\u0dbb\u0dd4\u0dc0\u0d9a\u0dca \u0dad\u0dd2\u0db6\u0dd2\u0dba \u0dba\u0dd4\u0dad\u0dd4\u0daf \u0dba\u0db1\u0dca\u0db1 </p>\n",
54
"Configurable Transformer Components": "\u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0d9c\u0dad \u0d9a\u0dc5 \u0dc4\u0dd0\u0d9a\u0dd2 \u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca \u0dc3\u0d82\u0dbb\u0da0\u0d9a",
55
"These are configurable components that can be re-used quite easily.": "\u0db8\u0dda\u0dc0\u0dcf \u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3\u0d9c\u0dad \u0d9a\u0dc5 \u0dc4\u0dd0\u0d9a\u0dd2 \u0dc3\u0d82\u0dbb\u0da0\u0d9a \u0dc0\u0db1 \u0d85\u0dad\u0dbb \u0d92\u0dc0\u0dcf \u0db4\u0dc4\u0dc3\u0dd4\u0dc0\u0dd9\u0db1\u0dca \u0db1\u0dd0\u0dc0\u0dad \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dc5 \u0dc4\u0dd0\u0d9a\u0dd2\u0dba."
56
}
57