Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
labmlai
GitHub Repository: labmlai/annotated_deep_learning_paper_implementations
Path: blob/master/translate_cache/neox/checkpoint.si.json
4923 views
1
{
2
"<h1>GPT-NeoX Checkpoints</h1>\n": "<h1>\u0da2\u0dd3\u0db4\u0dd3\u0da7\u0dd3-\u0db1\u0dd2\u0dba\u0ddd\u0d9a\u0dca\u0dc3\u0dca\u0db8\u0dd4\u0dbb\u0db4\u0ddc\u0dbd\u0dc0\u0dbd\u0dca</h1>\n",
3
"<h2>Download all checkpoint files</h2>\n": "<h2>\u0dc3\u0dd2\u0dba\u0dbd\u0dd4\u0db8\u0db4\u0dd2\u0dbb\u0dd2\u0d9a\u0dca\u0dc3\u0dd4\u0db8\u0dca \u0d9c\u0ddc\u0db1\u0dd4 \u0db6\u0dcf\u0d9c\u0db1\u0dca\u0db1</h2>\n",
4
"<h3>Get files to download</h3>\n<ul><p><em>Returns</em> a list of files to be downloaded</p></ul>\n": "<h3>\u0db6\u0dcf\u0d9c\u0dad\u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0d9c\u0ddc\u0db1\u0dd4 \u0dbd\u0db6\u0dcf \u0d9c\u0db1\u0dca\u0db1</h3>\n<ul><p>\u0db6\u0dcf\u0d9c\u0dad\u0d9a\u0dc5 \u0dba\u0dd4\u0dad\u0dd4 \u0d9c\u0ddc\u0db1\u0dd4 \u0dbd\u0dd0\u0dba\u0dd2\u0dc3\u0dca\u0dad\u0dd4\u0dc0\u0d9a\u0dca<em>\u0d86\u0db4\u0dc3\u0dd4</em> \u0dbd\u0db6\u0dcf \u0daf\u0dd9\u0dba\u0dd2</p></ul>\n",
5
"<h3>Load a pair of checkpoint files</h3>\n<ul><li><span translate=no>_^_0_^_</span> pair of files to load </li>\n<p><em>Returns</em> the loaded parameter tensors</p></ul>\n": "<h3>\u0db8\u0dd4\u0dbb\u0db4\u0ddc\u0dbd\u0dc0\u0dbd\u0dca\u0d9c\u0ddc\u0db1\u0dd4 \u0dba\u0dd4\u0d9c\u0dbd\u0dba\u0d9a\u0dca \u0db4\u0dd6\u0dbb\u0dab\u0dba \u0d9a\u0dbb\u0db1\u0dca\u0db1</h3>\n<ul><li><span translate=no>_^_0_^_</span> \u0db4\u0dd0\u0da7\u0dc0\u0dd3\u0db8\u0da7 \u0d9c\u0ddc\u0db1\u0dd4 \u0dba\u0dd4\u0d9c\u0dbd </li>\n<p>\u0db4\u0da7\u0dc0\u0db1\u0dbd\u0daf \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2 \u0d86\u0dad\u0dad\u0dd3\u0db1\u0dca<em>\u0db1\u0dd0\u0dc0\u0dad \u0dbd\u0db6\u0dcf \u0daf\u0dd9\u0dba\u0dd2</em> </p></ul>\n",
6
"<h3>Load a parameter by merging the partitions along first dimension</h3>\n<ul><li><span translate=no>_^_0_^_</span> is the parameter </li>\n<li><span translate=no>_^_1_^_</span> is the name of the parameter </li>\n<li><span translate=no>_^_2_^_</span> first partition dictionary </li>\n<li><span translate=no>_^_3_^_</span> second partition dictionary</li></ul>\n": "<h3>\u0db4\u0dc5\u0db8\u0dd4\u0db8\u0dcf\u0db1\u0dba \u0d94\u0dc3\u0dca\u0dc3\u0dda \u0d9a\u0ddc\u0da7\u0dc3\u0dca \u0d92\u0d9a\u0dcf\u0db6\u0daf\u0dca\u0db0 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dd9\u0db1\u0dca \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba\u0d9a\u0dca \u0db4\u0dd6\u0dbb\u0dab\u0dba \u0d9a\u0dbb\u0db1\u0dca\u0db1</h3>\n<ul><li><span translate=no>_^_0_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba \u0dc0\u0dda </li>\n<li><span translate=no>_^_1_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba \u0db1\u0db8 \u0dc0\u0dda </li>\n<li><span translate=no>_^_2_^_</span> \u0db4\u0dc5\u0db8\u0dd4 \u0d9a\u0ddc\u0da7\u0dc3 \u0dc1\u0db6\u0dca\u0daf \u0d9a\u0ddd\u0dc2\u0dba </li>\n<li><span translate=no>_^_3_^_</span> \u0daf\u0dd9\u0dc0\u0db1 \u0d9a\u0ddc\u0da7\u0dc3 \u0dc1\u0db6\u0dca\u0daf \u0d9a\u0ddd\u0dc2\u0dba</li></ul>\n",
7
"<h3>Load a parameter by merging the partitions along second dimension</h3>\n<ul><li><span translate=no>_^_0_^_</span> is the parameter </li>\n<li><span translate=no>_^_1_^_</span> is the name of the parameter </li>\n<li><span translate=no>_^_2_^_</span> first partition dictionary </li>\n<li><span translate=no>_^_3_^_</span> second partition dictionary</li></ul>\n": "<h3>\u0daf\u0dd9\u0dc0\u0db1\u0db8\u0dcf\u0db1\u0dba \u0d94\u0dc3\u0dca\u0dc3\u0dda \u0d9a\u0ddc\u0da7\u0dc3\u0dca \u0d92\u0d9a\u0dcf\u0db6\u0daf\u0dca\u0db0 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dd9\u0db1\u0dca \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba\u0d9a\u0dca \u0db4\u0dd6\u0dbb\u0dab\u0dba \u0d9a\u0dbb\u0db1\u0dca\u0db1</h3>\n<ul><li><span translate=no>_^_0_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba \u0dc0\u0dda </li>\n<li><span translate=no>_^_1_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba \u0db1\u0db8 \u0dc0\u0dda </li>\n<li><span translate=no>_^_2_^_</span> \u0db4\u0dc5\u0db8\u0dd4 \u0d9a\u0ddc\u0da7\u0dc3 \u0dc1\u0db6\u0dca\u0daf \u0d9a\u0ddd\u0dc2\u0dba </li>\n<li><span translate=no>_^_3_^_</span> \u0daf\u0dd9\u0dc0\u0db1 \u0d9a\u0ddc\u0da7\u0dc3 \u0dc1\u0db6\u0dca\u0daf \u0d9a\u0ddd\u0dc2\u0dba</li></ul>\n",
8
"<h3>Load an un-partitioned parameter</h3>\n<p>This does a sanity check to make use both partitions are the same</p>\n<ul><li><span translate=no>_^_0_^_</span> is the parameter </li>\n<li><span translate=no>_^_1_^_</span> is the name of the parameter </li>\n<li><span translate=no>_^_2_^_</span> first partition dictionary </li>\n<li><span translate=no>_^_3_^_</span> second partition dictionary</li></ul>\n": "<h3>\u0d9a\u0d91\u0d9a\u0dca\u0dc3\u0dad\u0dca -\u0d9a\u0ddc\u0da7\u0dc3\u0dca \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba \u0db4\u0dd6\u0dbb\u0dab\u0dba</h3>\n<p>\u0d9a\u0ddc\u0da7\u0dc3\u0dca\u0daf\u0dd9\u0d9a\u0db8 \u0d91\u0d9a \u0dc4\u0dcf \u0dc3\u0db8\u0dcf\u0db1 \u0dc0\u0db1 \u0db4\u0dbb\u0dd2\u0daf\u0dd2 \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0db8\u0dd9\u0dba \u0dc3\u0db1\u0dd3\u0db4\u0dcf\u0dbb\u0d9a\u0dca\u0dc2\u0d9a \u0db4\u0dbb\u0dd3\u0d9a\u0dca\u0dc2\u0dab\u0dba\u0d9a\u0dca \u0dc3\u0dd2\u0daf\u0dd4 \u0d9a\u0dbb\u0dba\u0dd2</p>\n<ul><li><span translate=no>_^_0_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba \u0dc0\u0dda </li>\n<li><span translate=no>_^_1_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba \u0db1\u0db8 \u0dc0\u0dda </li>\n<li><span translate=no>_^_2_^_</span> \u0db4\u0dc5\u0db8\u0dd4 \u0d9a\u0ddc\u0da7\u0dc3 \u0dc1\u0db6\u0dca\u0daf \u0d9a\u0ddd\u0dc2\u0dba </li>\n<li><span translate=no>_^_3_^_</span> \u0daf\u0dd9\u0dc0\u0db1 \u0d9a\u0ddc\u0da7\u0dc3 \u0dc1\u0db6\u0dca\u0daf \u0d9a\u0ddd\u0dc2\u0dba</li></ul>\n",
9
"<h3>Load biases that are partitioned which gets added on reduce</h3>\n<ul><li><span translate=no>_^_0_^_</span> is the parameter </li>\n<li><span translate=no>_^_1_^_</span> is the name of the parameter </li>\n<li><span translate=no>_^_2_^_</span> first partition dictionary </li>\n<li><span translate=no>_^_3_^_</span> second partition dictionary</li></ul>\n": "<h3>\u0d9a\u0ddc\u0da7\u0dc3\u0dca\u0d9a\u0dbb \u0d87\u0dad\u0dd2 \u0db6\u0dc0 \u0d85\u0d9c\u0dad\u0dd3\u0db1\u0dca \u0db4\u0dd0\u0da7\u0dc0\u0dd3\u0db8 \u0d85\u0da9\u0dd4 \u0db8\u0dad \u0d91\u0d9a\u0dad\u0dd4 \u0dbd\u0dd0\u0db6\u0dd9\u0db1</h3>\n<ul><li><span translate=no>_^_0_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba \u0dc0\u0dda </li>\n<li><span translate=no>_^_1_^_</span> \u0db4\u0dbb\u0dcf\u0db8\u0dd2\u0dad\u0dd2\u0dba \u0db1\u0db8 \u0dc0\u0dda </li>\n<li><span translate=no>_^_2_^_</span> \u0db4\u0dc5\u0db8\u0dd4 \u0d9a\u0ddc\u0da7\u0dc3 \u0dc1\u0db6\u0dca\u0daf \u0d9a\u0ddd\u0dc2\u0dba </li>\n<li><span translate=no>_^_3_^_</span> \u0daf\u0dd9\u0dc0\u0db1 \u0d9a\u0ddc\u0da7\u0dc3 \u0dc1\u0db6\u0dca\u0daf \u0d9a\u0ddd\u0dc2\u0dba</li></ul>\n",
10
"<p> </p>\n": "<p> </p>\n",
11
"<p>Download </p>\n": "<p>\u0db6\u0dcf\u0d9c\u0dad </p>\n",
12
"<p>Download path </p>\n": "<p>\u0db6\u0dcf\u0d9c\u0dad\u0db8\u0dcf\u0dbb\u0dca\u0d9c\u0dba </p>\n",
13
"<p>Embedding layer </p>\n": "<p>\u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8\u0dc3\u0dca\u0dae\u0dbb\u0dba </p>\n",
14
"<p>Empty states (not used) </p>\n": "<p>\u0dc4\u0dd2\u0dc3\u0dca\u0dad\u0dad\u0dca\u0dc0\u0dba\u0db1\u0dca (\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0db1\u0ddc\u0d9a\u0dd9\u0dbb\u0dda) </p>\n",
15
"<p>Final normalization layer and readout layer </p>\n": "<p>\u0d85\u0dc0\u0dc3\u0dcf\u0db1\u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab \u0dc3\u0dca\u0dad\u0dbb\u0dba \u0dc3\u0dc4 \u0d9a\u0dd2\u0dba\u0dc0\u0dd3\u0db8\u0dda \u0dc3\u0dca\u0dae\u0dbb\u0dba </p>\n",
16
"<p>Get files to download </p>\n": "<p>\u0db6\u0dcf\u0d9c\u0dad\u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0d9c\u0ddc\u0db1\u0dd4 \u0dbd\u0db6\u0dcf \u0d9c\u0db1\u0dca\u0db1 </p>\n",
17
"<p>Iterate </p>\n": "<p>\u0db4\u0dd4\u0db1\u0dbb\u0dcf\u0dc0\u0dbb\u0dca\u0dad\u0db1\u0dba\u0d9a\u0dbb\u0db1\u0dca\u0db1 </p>\n",
18
"<p>Layer checkpoints </p>\n": "<p>\u0dc3\u0dca\u0dae\u0dbb\u0db8\u0dd4\u0dbb\u0db4\u0ddc\u0dbd\u0dc0\u0dbd\u0dca </p>\n",
19
"<p>Log </p>\n": "<p>\u0dbd\u0ddc\u0d9c\u0dca </p>\n",
20
"<p>Parent url </p>\n": "<p>\u0daf\u0dd9\u0db8\u0dcf\u0db4\u0dd2\u0dbaurl </p>\n",
21
"<p>Transformer layers </p>\n": "<p>\u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca\u0dc3\u0dca\u0dae\u0dbb </p>\n",
22
"<p>Vocabulary and configs </p>\n": "<p>\u0dc0\u0da0\u0db1\u0db8\u0dcf\u0dbd\u0dcf\u0dc0 \u0dc3\u0dc4 \u0dc0\u0dd2\u0db1\u0dca\u0dba\u0dcf\u0dc3 </p>\n",
23
"Code to download checkpoints and helpers to load them.": "\u0d92\u0dc0\u0dcf \u0db4\u0dd6\u0dbb\u0dab\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0db8\u0dd4\u0dbb\u0db4\u0ddc\u0dbd\u0dc0\u0dbd\u0dca \u0dc3\u0dc4 \u0d8b\u0daf\u0dc0\u0dca\u0d9a\u0dbb\u0dd4\u0dc0\u0db1\u0dca \u0db6\u0dcf\u0d9c\u0dad \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0d9a\u0dda\u0dad\u0dba.",
24
"GPT-NeoX Checkpoints": "\u0da2\u0dd3\u0db4\u0dd3\u0da7\u0dd3-\u0db1\u0dd2\u0dba\u0ddd\u0d9a\u0dca\u0dc3\u0dca \u0db8\u0dd4\u0dbb\u0db4\u0ddc\u0dbd\u0dc0\u0dbd\u0dca"
25
}
26