Path: blob/master/translate_cache/sampling/nucleus.si.json
4928 views
{1"<h1>Nucleus Sampling</h1>\n<p>This is an implementation of nucleus sampling, introduced in the paper <a href=\"https://arxiv.org/abs/1904.09751\">The Curious Case of Neural Text Degeneration</a>.</p>\n<p>The paper discusses the problems with other sampling methods such as Beam Search, <a href=\"temperature.html\">Pure sampling</a>, <a href=\"temperature.html\">Temperature sampling</a>, and <a href=\"top_k.html\">Top-k sampling</a>. The paper introduces the idea of nucleus sampling, which practically performs better than other sampling methods for text generation.</p>\n<p>Nucleus sampling first picks a subset of the vocabulary <span translate=no>_^_0_^_</span>, where <span translate=no>_^_1_^_</span> is smallest set of tokens such that</p>\n<p><span translate=no>_^_2_^_</span></p>\n<p>That is, we pick the highest probable tokens until the sum of their probabilities is less that <span translate=no>_^_3_^_</span>.</p>\n<p>Then we sample from the selected tokens.</p>\n<p>Here's an <a href=\"experiment.html\">experiment</a> that uses these sampling techniques.</p>\n": "<h1>\u0db1\u0dca\u0dba\u0dc2\u0dca\u0da7\u0dd2\u0d9a\u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8</h1>\n<p>\u0db8\u0dd9\u0dba\u0db1\u0dca\u0dba\u0dc2\u0dca\u0da7\u0dd2\u0d9a \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8\u0dca \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0d9a\u0dca \u0dc0\u0db1 \u0d85\u0dad\u0dbb \u0d91\u0dba \u0d9a\u0da9\u0daf\u0dcf\u0dc3\u0dd2 \u0dc0\u0dbd\u0dd2\u0db1\u0dca \u0dc4\u0db3\u0dd4\u0db1\u0dca\u0dc0\u0dcf <a href=\"https://arxiv.org/abs/1904.09751\">\u0daf\u0dd3 \u0d87\u0dad \u0dc3\u0dca\u0db1\u0dcf\u0dba\u0dd4 \u0db4\u0dd9\u0dc5 \u0db4\u0dbb\u0dd2\u0dc4\u0dcf\u0db1\u0dd2\u0dba \u0db4\u0dd2\u0dc5\u0dd2\u0db6\u0db3 \u0d9a\u0dd4\u0dad\u0dd4\u0dc4\u0dbd\u0dba</a>. </p>\n<p>\u0d9a\u0daf\u0db8\u0dca\u0db6\u0dc3\u0dd9\u0dc0\u0dd3\u0db8, <a href=\"temperature.html\">\u0db4\u0dd2\u0dbb\u0dd2\u0dc3\u0dd2\u0daf\u0dd4 \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8, \u0d8b\u0dc2\u0dca\u0dab\u0dad\u0dca\u0dc0 \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8 \u0dc3\u0dc4 <a href=\"top_k.html\">\u0d89\u0dc4\u0dc5 \u0d9a\u0dda</a>\u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8</a><a href=\"temperature.html\">\u0dc0\u0dd0\u0db1\u0dd2 \u0dc0\u0dd9\u0db1\u0dad\u0dca \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd2</a>\u0d9a\u0dca\u0dbb\u0db8\u0dc0\u0dbd \u0d87\u0dad\u0dd2 \u0d9c\u0dd0\u0da7\u0dc5\u0dd4 \u0db4\u0dd2\u0dc5\u0dd2\u0db6\u0db3\u0dc0 \u0d9a\u0da9\u0daf\u0dcf\u0dc3\u0dd2 \u0dc3\u0dcf\u0d9a\u0da0\u0dca\u0da1\u0dcf \u0d9a\u0dbb\u0dba\u0dd2. \u0db8\u0dd9\u0db8 \u0db4\u0dad\u0dca\u0dbb\u0dd2\u0d9a\u0dcf\u0dc0 \u0db1\u0dca\u0dba\u0dc2\u0dca\u0da7\u0dd2\u0d9a \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8\u0dca \u0db4\u0dd2\u0dc5\u0dd2\u0db6\u0db3 \u0d85\u0daf\u0dc4\u0dc3 \u0dc4\u0db3\u0dd4\u0db1\u0dca\u0dc0\u0dcf \u0daf\u0dd9\u0dba\u0dd2, \u0d91\u0dba \u0db4\u0dd9\u0dc5 \u0d8b\u0dad\u0dca\u0db4\u0dcf\u0daf\u0db1\u0dba \u0dc3\u0db3\u0dc4\u0dcf \u0dc0\u0dd9\u0db1\u0dad\u0dca \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd2 \u0d9a\u0dca\u0dbb\u0db8\u0dc0\u0dbd\u0da7 \u0dc0\u0da9\u0dcf \u0db4\u0dca\u0dbb\u0dcf\u0dba\u0ddd\u0d9c\u0dd2\u0d9a\u0dc0 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf \u0d9a\u0dbb\u0dba\u0dd2. </p>\n<p>\u0db1\u0dca\u0dba\u0dc2\u0dca\u0da7\u0dd2\u0d9a\u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8 \u0db4\u0dc5\u0db8\u0dd4\u0dc0 \u0dc0\u0da0\u0db1 \u0db8\u0dcf\u0dbd\u0dcf\u0dc0\u0dda \u0d8b\u0db4 \u0d9a\u0dd4\u0dbd\u0d9a\u0dba\u0d9a\u0dca \u0dad\u0ddd\u0dbb\u0dcf \u0d9c\u0db1\u0dd3 <span translate=no>_^_0_^_</span>, \u0d91\u0dc4\u0dd2\u0daf\u0dd3 <span translate=no>_^_1_^_</span> \u0d9a\u0dd4\u0da9\u0dcf\u0db8 \u0da7\u0ddd\u0d9a\u0db1 \u0d9a\u0da7\u0dca\u0da7\u0dbd\u0dba\u0d9a\u0dca</p>\n<p><span translate=no>_^_2_^_</span></p>\n<p>\u0d91\u0db1\u0db8\u0dca, \u0d92\u0dc0\u0dcf\u0dba\u0dda \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0\u0db1\u0dca\u0d9c\u0dda \u0d91\u0d9a\u0dad\u0dd4\u0dc0 \u0d85\u0da9\u0dd4 \u0dc0\u0db1 \u0dad\u0dd9\u0d9a\u0dca \u0d85\u0db4\u0dd2 \u0d89\u0dc4\u0dc5\u0db8 \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0 \u0dc3\u0dc4\u0dd2\u0dad \u0da7\u0ddd\u0d9a\u0db1 \u0dad\u0ddd\u0dbb\u0dcf \u0d9c\u0db1\u0dd2\u0db8\u0dd4 <span translate=no>_^_3_^_</span>. </p>\n<p>\u0d89\u0db1\u0dca\u0db4\u0dc3\u0dd4\u0d85\u0db4\u0dd2 \u0dad\u0ddd\u0dbb\u0dcf\u0d9c\u0dad\u0dca \u0da7\u0ddd\u0d9a\u0db1 \u0dc0\u0dbd\u0dd2\u0db1\u0dca \u0dc3\u0dcf\u0db8\u0dca\u0db4\u0dbd \u0dbd\u0db6\u0dcf \u0d9c\u0db1\u0dd2\u0db8\u0dd4. </p>\n<p>\u0db8\u0dd9\u0db1\u0dca\u0db1\u0db8\u0dd9\u0db8 \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd2 \u0dc1\u0dd2\u0dbd\u0dca\u0db4\u0dd3\u0dba \u0d9a\u0dca\u0dbb\u0db8 \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dbb\u0db1 <a href=\"experiment.html\">\u0d85\u0dad\u0dca\u0dc4\u0daf\u0dcf \u0db6\u0dd0\u0dbd\u0dd3\u0db8\u0d9a\u0dca</a> . </p>\n",2"<h2>Nucleus Sampler</h2>\n": "<h2>\u0db1\u0dca\u0dba\u0dc2\u0dca\u0da7\u0dd2\u0d9a\u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd2</h2>\n",3"<p> </p>\n": "<p> </p>\n",4"<p> Sample from logits with Nucleus Sampling</p>\n": "<p> \u0db1\u0dca\u0dba\u0dc2\u0dca\u0da7\u0dd2\u0d9a\u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8 \u0dc3\u0db8\u0d9f \u0db4\u0dd2\u0dc0\u0dd2\u0dc3\u0dd4\u0db8\u0dca \u0dc0\u0dbd\u0dd2\u0db1\u0dca \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd2\u0dba</p>\n",5"<p>Find the cumulative sums less than <span translate=no>_^_0_^_</span>. </p>\n": "<p>\u0dc0\u0da9\u0dcf\u0d85\u0da9\u0dd4 \u0dc3\u0db8\u0dd4\u0da0\u0dca\u0da0\u0dd2\u0dad \u0db8\u0dd4\u0daf\u0dbd\u0d9a\u0dca \u0dc3\u0ddc\u0dba\u0dcf \u0d9c\u0db1\u0dca\u0db1 <span translate=no>_^_0_^_</span>. </p>\n",6"<p>Get log probabilities and mask out the non-nucleus </p>\n": "<p>\u0dbd\u0ddc\u0d9c\u0dca\u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0 \u0dbd\u0db6\u0dcf \u0d9c\u0db1\u0dca\u0db1 \u0dc3\u0dc4 \u0db1\u0dca\u0dba\u0dc2\u0dca\u0da7\u0dd2\u0dba \u0db1\u0ddc\u0dc0\u0db1 \u0dc0\u0dc3\u0d82 \u0d9a\u0dbb\u0db1\u0dca\u0db1 </p>\n",7"<p>Get probabilities <span translate=no>_^_0_^_</span> </p>\n": "<p>\u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0\u0dbd\u0db6\u0dcf \u0d9c\u0db1\u0dca\u0db1 <span translate=no>_^_0_^_</span> </p>\n",8"<p>Get the actual indexes </p>\n": "<p>\u0dc3\u0dad\u0dca\u0dba\u0daf\u0dbb\u0dca\u0dc1\u0d9a \u0dbd\u0db6\u0dcf \u0d9c\u0db1\u0dca\u0db1 </p>\n",9"<p>Get the cumulative sum of probabilities in the sorted order </p>\n": "<p>\u0dc0\u0dbb\u0dca\u0d9c\u0d9a\u0dc5 \u0d85\u0db1\u0dd4\u0db4\u0dd2\u0dc5\u0dd2\u0dc0\u0dd9\u0dbd\u0dd9\u0dc4\u0dd2 \u0dc3\u0db8\u0dd4\u0da0\u0dca\u0da0\u0dd2\u0dad \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0\u0db1\u0dca\u0d9c\u0dda \u0d91\u0d9a\u0dad\u0dd4\u0dc0 \u0dbd\u0db6\u0dcf \u0d9c\u0db1\u0dca\u0db1 </p>\n",10"<p>Prepend ones so that we add one token after the minimum number of tokens with cumulative probability less that <span translate=no>_^_0_^_</span>. </p>\n": "<p>\u0dc3\u0db8\u0dd4\u0da0\u0dca\u0da0\u0dd2\u0dad\u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0 \u0d85\u0da9\u0dd4 \u0d85\u0dc0\u0db8 \u0da7\u0ddd\u0d9a\u0db1 \u0dc3\u0d82\u0d9b\u0dca\u0dba\u0dcf\u0dc0\u0dd9\u0db1\u0dca \u0db4\u0dc3\u0dd4\u0dc0 \u0d85\u0db4\u0dd2 \u0d91\u0d9a\u0dca \u0da7\u0ddd\u0d9a\u0db1\u0dba\u0d9a\u0dca \u0d91\u0d9a\u0dad\u0dd4 \u0d9a\u0dbb\u0db1 \u0db4\u0dbb\u0dd2\u0daf\u0dd2 \u0d92\u0dc0\u0dcf \u0dc3\u0d9a\u0dc3\u0dca \u0d9a\u0dbb\u0db1\u0dca\u0db1 <span translate=no>_^_0_^_</span>. </p>\n",11"<p>Sample from the sampler </p>\n": "<p>\u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd2\u0dba\u0dd9\u0db1\u0dca\u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd2\u0dba </p>\n",12"<p>Softmax to compute <span translate=no>_^_0_^_</span> from the logits </p>\n": "<p>\u0db4\u0dd2\u0dc0\u0dd2\u0dc3\u0dd4\u0db8\u0dca <span translate=no>_^_0_^_</span> \u0dc0\u0dbd\u0dd2\u0db1\u0dca \u0d9c\u0dab\u0db1\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0da7 \u0dc3\u0ddc\u0dc6\u0dca\u0da7\u0dca\u0db8\u0dd0\u0d9a\u0dca\u0dc3\u0dca </p>\n",13"<p>Sort probabilities in descending order </p>\n": "<p>\u0db6\u0dd0\u0dc3\u0dd3\u0db8\u0dda\u0d85\u0db1\u0dd4\u0db4\u0dd2\u0dc5\u0dd2\u0dc0\u0dd9\u0dbd\u0dd9\u0dc4\u0dd2 \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0\u0db1\u0dca \u0dc0\u0dbb\u0dca\u0d9c \u0d9a\u0dbb\u0db1\u0dca\u0db1 </p>\n",14"<ul><li><span translate=no>_^_0_^_</span> is the sum of probabilities of tokens to pick <span translate=no>_^_1_^_</span> </li>\n<li><span translate=no>_^_2_^_</span> is the sampler to use for the selected tokens</li></ul>\n": "<ul><li><span translate=no>_^_0_^_</span> \u0dba\u0db1\u0dd4 \u0dad\u0ddd\u0dbb\u0dcf \u0d9c\u0dd0\u0db1\u0dd3\u0db8\u0da7 \u0da7\u0ddd\u0d9a\u0db1 \u0dc0\u0dbd \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0\u0db1\u0dca\u0d9c\u0dda \u0d91\u0d9a\u0dad\u0dd4\u0dc0\u0dba\u0dd2 <span translate=no>_^_1_^_</span> </li>\n</ul><li><span translate=no>_^_2_^_</span> \u0dad\u0ddd\u0dbb\u0dcf\u0d9c\u0dad\u0dca \u0da7\u0ddd\u0d9a\u0db1 \u0dc3\u0db3\u0dc4\u0dcf \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dc5 \u0dba\u0dd4\u0dad\u0dd4 \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd2\u0d9a\u0dbb\u0dd4 \u0dc0\u0dda</li>\n",15"A PyTorch implementation of nucleus sampling from language models.": "\u0db7\u0dcf\u0dc2\u0dcf \u0d86\u0d9a\u0dd8\u0dad\u0dd2 \u0dc0\u0dbd\u0dd2\u0db1\u0dca \u0db1\u0dca\u0dba\u0dc2\u0dca\u0da7\u0dd2\u0d9a \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8\u0dca PyTorch \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8.",16"Nucleus Sampling": "\u0db1\u0dca\u0dba\u0dc2\u0dca\u0da7\u0dd2\u0d9a \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8"17}1819