Path: blob/master/translate_cache/distillation/readme.si.json
4923 views
{1"<h1><a href=\"https://nn.labml.ai/distillation/index.html\">Distilling the Knowledge in a Neural Network</a></h1>\n<p>This is a <a href=\"https://pytorch.org\">PyTorch</a> implementation/tutorial of the paper <a href=\"https://arxiv.org/abs/1503.02531\">Distilling the Knowledge in a Neural Network</a>.</p>\n<p>It's a way of training a small network using the knowledge in a trained larger network; i.e. distilling the knowledge from the large network.</p>\n<p>A large model with regularization or an ensemble of models (using dropout) generalizes better than a small model when trained directly on the data and labels. However, a small model can be trained to generalize better with help of a large model. Smaller models are better in production: faster, less compute, less memory.</p>\n<p>The output probabilities of a trained model give more information than the labels because it assigns non-zero probabilities to incorrect classes as well. These probabilities tell us that a sample has a chance of belonging to certain classes. For instance, when classifying digits, when given an image of digit <em>7</em>, a generalized model will give a high probability to 7 and a small but non-zero probability to 2, while assigning almost zero probability to other digits. Distillation uses this information to train a small model better.</p>\n<p><a href=\"https://app.labml.ai/run/d6182e2adaf011eb927c91a2a1710932\"><span translate=no>_^_0_^_</span></a> </p>\n": "<h1><a href=\"https://nn.labml.ai/distillation/index.html\">\u0dc3\u0dca\u0db1\u0dcf\u0dba\u0dd4\u0d9a \u0da2\u0dcf\u0dbd\u0dba\u0d9a \u0daf\u0dd0\u0db1\u0dd4\u0db8 \u0d86\u0dc3\u0dc0\u0db1\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8</a></h1>\n<p>\u0db8\u0dd9\u0dba <a href=\"https://arxiv.org/abs/1503.02531\">\u0dc3\u0dca\u0db1\u0dcf\u0dba\u0dd4\u0d9a \u0da2\u0dcf\u0dbd\u0dba\u0d9a \u0daf\u0dd0\u0db1\u0dd4\u0db8 \u0d86\u0dc3\u0dc0\u0db1\u0dba</a> \u0d9a\u0dbb\u0db1 \u0d9a\u0da9\u0daf\u0dcf\u0dc3\u0dd2 <a href=\"https://pytorch.org\">PyTorch</a> \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8/\u0db1\u0dd2\u0db6\u0db1\u0dca\u0db0\u0db1\u0dba\u0d9a\u0dd2. </p>\n<p>\u0d91\u0dba\u0db4\u0dd4\u0dc4\u0dd4\u0dab\u0dd4 \u0dc0\u0dd2\u0dc1\u0dcf\u0dbd \u0da2\u0dcf\u0dbd\u0dba\u0d9a \u0daf\u0dd0\u0db1\u0dd4\u0db8 \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dbb\u0db8\u0dd2\u0db1\u0dca \u0d9a\u0dd4\u0da9\u0dcf \u0da2\u0dcf\u0dbd\u0dba\u0d9a\u0dca \u0db4\u0dd4\u0dc4\u0dd4\u0dab\u0dd4 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda \u0d9a\u0dca\u0dbb\u0db8\u0dba\u0d9a\u0dd2; \u0d91\u0db1\u0db8\u0dca \u0dc0\u0dd2\u0dc1\u0dcf\u0dbd \u0da2\u0dcf\u0dbd\u0dba\u0dd9\u0db1\u0dca \u0daf\u0dd0\u0db1\u0dd4\u0db8 \u0d86\u0dc3\u0dc0\u0db1\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8. </p>\n<p>\u0dc0\u0dd2\u0db0\u0dd2\u0db8\u0dad\u0dca\u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0d9a\u0dca \u0dc3\u0dc4\u0dd2\u0dad \u0dc0\u0dd2\u0dc1\u0dcf\u0dbd \u0d86\u0d9a\u0dd8\u0dad\u0dd2\u0dba\u0d9a\u0dca \u0dc4\u0ddd \u0d86\u0d9a\u0dd8\u0dad\u0dd2 \u0dc3\u0db8\u0dd6\u0dc4\u0dba\u0d9a\u0dca (\u0da9\u0dca\u0dbb\u0ddc\u0db4\u0dca \u0d85\u0dc0\u0dd4\u0da7\u0dca \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dbb\u0db8\u0dd2\u0db1\u0dca) \u0daf\u0dad\u0dca\u0dad \u0dc3\u0dc4 \u0dbd\u0dda\u0db6\u0dbd\u0dca \u0db8\u0dad \u0d9a\u0dd9\u0dbd\u0dd2\u0db1\u0dca\u0db8 \u0db4\u0dd4\u0dc4\u0dd4\u0dab\u0dd4 \u0d9a\u0dbb\u0db1 \u0dc0\u0dd2\u0da7 \u0d9a\u0dd4\u0da9\u0dcf \u0d86\u0d9a\u0dd8\u0dad\u0dd2\u0dba\u0d9a\u0da7 \u0dc0\u0da9\u0dcf \u0dc4\u0ddc\u0db3 \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab\u0dba \u0d9a\u0dbb\u0dba\u0dd2. \u0d9a\u0dd9\u0dc3\u0dda \u0dc0\u0dd9\u0dad\u0dad\u0dca, \u0dc0\u0dd2\u0dc1\u0dcf\u0dbd \u0d86\u0d9a\u0dd8\u0dad\u0dd2\u0dba\u0d9a\u0dca \u0d86\u0db0\u0dcf\u0dbb\u0dba\u0dd9\u0db1\u0dca \u0dc0\u0da9\u0dcf \u0dc4\u0ddc\u0db3 \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0d9a\u0dd4\u0da9\u0dcf \u0d86\u0d9a\u0dd8\u0dad\u0dd2\u0dba\u0d9a\u0dca \u0db4\u0dd4\u0dc4\u0dd4\u0dab\u0dd4 \u0d9a\u0dc5 \u0dc4\u0dd0\u0d9a\u0dd2\u0dba. \u0d9a\u0dd4\u0da9\u0dcf \u0d86\u0d9a\u0dd8\u0dad\u0dd2 \u0db1\u0dd2\u0dc2\u0dca\u0db4\u0dcf\u0daf\u0db1\u0dba \u0dc0\u0da9\u0dcf \u0dc4\u0ddc\u0db3 \u0dc0\u0dda: \u0dc0\u0dda\u0d9c\u0dc0\u0dad\u0dca, \u0d85\u0da9\u0dd4 \u0d9c\u0dab\u0db1\u0dba, \u0d85\u0da9\u0dd4 \u0db8\u0dad\u0d9a\u0dba. </p>\n<p>\u0db4\u0dd4\u0dc4\u0dd4\u0dab\u0dd4\u0d86\u0d9a\u0dd8\u0dad\u0dd2\u0dba\u0d9a \u0db1\u0dd2\u0db8\u0dd0\u0dc0\u0dd4\u0db8\u0dca \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0\u0db1\u0dca \u0dbd\u0dda\u0db6\u0dbd\u0dca \u0dc0\u0dbd\u0da7 \u0dc0\u0da9\u0dcf \u0dc0\u0dd0\u0da9\u0dd2 \u0dad\u0ddc\u0dbb\u0dad\u0dd4\u0dbb\u0dd4 \u0dbd\u0db6\u0dcf \u0daf\u0dd9\u0db1\u0dca\u0db1\u0dda \u0d91\u0dba \u0dc1\u0dd4\u0db1\u0dca\u0dba \u0db1\u0ddc\u0dc0\u0db1 \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0\u0db1\u0dca \u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0db4\u0d82\u0dad\u0dd2\u0dc0\u0dbd\u0da7 \u0db4\u0dc0\u0dbb\u0db1 \u0db6\u0dd0\u0dc0\u0dd2\u0db1\u0dd2. \u0db8\u0dd9\u0db8 \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0\u0db1\u0dca \u0d85\u0db4\u0da7 \u0db4\u0dc0\u0dc3\u0db1\u0dca\u0db1\u0dda \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd2\u0dba\u0d9a\u0da7 \u0d87\u0dad\u0dd0\u0db8\u0dca \u0db4\u0d82\u0dad\u0dd2\u0dc0\u0dbd\u0da7 \u0d85\u0dba\u0dad\u0dca \u0dc0\u0dd3\u0db8\u0dda \u0d85\u0dc0\u0dc3\u0dca\u0dae\u0dcf\u0dc0\u0d9a\u0dca \u0d87\u0dad\u0dd2 \u0db6\u0dc0\u0dba\u0dd2. \u0db1\u0dd2\u0daf\u0dc3\u0dd4\u0db1\u0d9a\u0dca \u0dc0\u0dc1\u0dba\u0dd9\u0db1\u0dca, \u0d89\u0dbd\u0d9a\u0dca\u0d9a\u0db8\u0dca \u0dc0\u0dbb\u0dca\u0d9c\u0dd3\u0d9a\u0dbb\u0dab\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda\u0daf\u0dd3, \u0d89\u0dbd\u0d9a\u0dca\u0d9a\u0db8\u0dca 7 \u0dc4\u0dd2 \u0dbb\u0dd6\u0db4\u0dba\u0d9a\u0dca \u0dbd\u0db6\u0dcf \u0daf\u0dd4\u0db1\u0dca \u0dc0\u0dd2\u0da7, \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab\u0dba \u0d9a\u0dbb\u0db1 \u0dbd\u0daf \u0d86\u0d9a\u0dd8\u0dad\u0dd2\u0dba\u0d9a\u0dca <em>7</em>\u0da7 \u0dc0\u0dd0\u0da9\u0dd2 \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0\u0d9a\u0dca \u0dc3\u0dc4 \u0d9a\u0dd4\u0da9\u0dcf \u0db1\u0db8\u0dd4\u0dad\u0dca \u0dc1\u0dd4\u0db1\u0dca\u0dba \u0db1\u0ddc\u0dc0\u0db1 \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0 2 \u0daf\u0d9a\u0dca\u0dc0\u0dcf \u0dbd\u0db6\u0dcf \u0daf\u0dd9\u0db1\u0dd4 \u0d87\u0dad, \u0d85\u0db1\u0dd9\u0d9a\u0dca \u0d89\u0dbd\u0d9a\u0dca\u0d9a\u0db8\u0dca \u0dc0\u0dbd\u0da7 \u0db4\u0dcf\u0dc4\u0dda \u0dc1\u0dd4\u0db1\u0dca\u0dba \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0 \u0db4\u0dc0\u0dbb\u0dba\u0dd2. \u0d86\u0dc3\u0dc0\u0db1\u0dba \u0d9a\u0dd4\u0da9\u0dcf \u0d86\u0d9a\u0dd8\u0dad\u0dd2\u0dba\u0d9a\u0dca \u0dc0\u0da9\u0dcf \u0dc4\u0ddc\u0db3\u0dd2\u0db1\u0dca \u0db4\u0dd4\u0dc4\u0dd4\u0dab\u0dd4 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0db8\u0dd9\u0db8 \u0dad\u0ddc\u0dbb\u0dad\u0dd4\u0dbb\u0dd4 \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dbb\u0dba\u0dd2. </p>\n<p><a href=\"https://app.labml.ai/run/d6182e2adaf011eb927c91a2a1710932\"><span translate=no>_^_0_^_</span></a> </p>\n",2"Distilling the Knowledge in a Neural Network": "\u0dc3\u0dca\u0db1\u0dcf\u0dba\u0dd4\u0d9a \u0da2\u0dcf\u0dbd\u0dba\u0d9a \u0daf\u0dd0\u0db1\u0dd4\u0db8 \u0d86\u0dc3\u0dc0\u0db1\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8"3}45