Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
labmlai
GitHub Repository: labmlai/annotated_deep_learning_paper_implementations
Path: blob/master/translate_cache/rl/game.si.json
4923 views
1
{
2
"<h1>Atari wrapper with multi-processing</h1>\n": "<h1>\u0db6\u0dc4\u0dd4-\u0dc3\u0dd0\u0d9a\u0dc3\u0dd4\u0db8\u0dca\u0dc3\u0db8\u0d9c Atari \u0daf\u0dc0\u0da7\u0db1\u0dba</h1>\n",
3
"<h2>Worker Process</h2>\n<p>Each worker process runs this method</p>\n": "<h2>\u0dc3\u0dda\u0dc0\u0d9a\u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dc0\u0dbd\u0dd2\u0dba</h2>\n<p>\u0dc3\u0dd1\u0db8\u0dc3\u0dda\u0dc0\u0d9a \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dc0\u0dbd\u0dd2\u0dba\u0d9a\u0dca\u0db8 \u0db8\u0dd9\u0db8 \u0d9a\u0dca\u0dbb\u0db8\u0dba \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dbb\u0dba\u0dd2</p>\n",
4
"<h3>Reset environment</h3>\n<p>Clean up episode info and 4 frame stack</p>\n": "<h3>\u0db4\u0dbb\u0dd2\u0dc3\u0dbb\u0dba\u0dba\u0dc5\u0dd2 \u0db4\u0dd2\u0dc4\u0dd2\u0da7\u0dd4\u0dc0\u0db1\u0dca\u0db1</h3>\n<p>\u0d9a\u0dae\u0dcf\u0d82\u0d9c\u0dad\u0ddc\u0dbb\u0dad\u0dd4\u0dbb\u0dd4 \u0dc3\u0dc4 \u0dbb\u0dcf\u0db8\u0dd4 4 \u0d9a\u0dca \u0db4\u0dd2\u0dbb\u0dd2\u0dc3\u0dd2\u0daf\u0dd4 \u0d9a\u0dbb\u0db1\u0dca\u0db1</p>\n",
5
"<h3>Step</h3>\n<p>Executes <span translate=no>_^_0_^_</span> for 4 time steps and returns a tuple of (observation, reward, done, episode_info).</p>\n<ul><li><span translate=no>_^_1_^_</span>: stacked 4 frames (this frame and frames for last 3 actions) </li>\n<li><span translate=no>_^_2_^_</span>: total reward while the action was executed </li>\n<li><span translate=no>_^_3_^_</span>: whether the episode finished (a life lost) </li>\n<li><span translate=no>_^_4_^_</span>: episode information if completed</li></ul>\n": "<h3>\u0db4\u0dd2\u0dba\u0dc0\u0dbb</h3>\n<p><span translate=no>_^_0_^_</span> \u0dc3\u0db3\u0dc4\u0dcf \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a 4 \u0d9a\u0dcf\u0dbd\u0dba \u0db4\u0dd2\u0dba\u0dc0\u0dbb \u0dc3\u0dc4 \u0d9a tuple \u0d86\u0db4\u0dc3\u0dd4 (\u0db1\u0dd2\u0dbb\u0dd3\u0d9a\u0dca\u0dc2\u0dab, \u0dc0\u0dd2\u0db4\u0dcf\u0d9a\u0dba, \u0dc3\u0dd2\u0daf\u0dd4, episode_info). </p>\n<ul><li><span translate=no>_^_1_^_</span>: \u0dbb\u0dcf\u0db8\u0dd4 4 \u0d9a\u0dca (\u0d85\u0dc0\u0dc3\u0dcf\u0db1 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf 3 \u0dc3\u0db3\u0dc4\u0dcf \u0db8\u0dd9\u0db8 \u0dbb\u0dcf\u0db8\u0dd4\u0dc0 \u0dc3\u0dc4 \u0dbb\u0dcf\u0db8\u0dd4) </li>\n<li><span translate=no>_^_2_^_</span>: \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dc0 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dbb\u0db1 \u0dbd\u0daf \u0d85\u0dad\u0dbb \u0dc3\u0db8\u0dca\u0db4\u0dd6\u0dbb\u0dca\u0dab \u0dc0\u0dd2\u0db4\u0dcf\u0d9a\u0dba </li>\n<li><span translate=no>_^_3_^_</span>: \u0d9a\u0dae\u0dcf\u0d82\u0d9c\u0dba \u0d85\u0dc0\u0dc3\u0db1\u0dca \u0dc0\u0dda\u0dc0\u0dcf (\u0da2\u0dd3\u0dc0\u0dd2\u0dad\u0dba\u0d9a\u0dca \u0d85\u0dc4\u0dd2\u0db8\u0dd2 \u0dc0\u0dd2\u0dba) </li>\n<li><span translate=no>_^_4_^_</span>: \u0dc3\u0db8\u0dca\u0db4\u0dd6\u0dbb\u0dca\u0dab \u0db1\u0db8\u0dca \u0d9a\u0dae\u0dcf\u0d82\u0d9c \u0dad\u0ddc\u0dbb\u0dad\u0dd4\u0dbb\u0dd4</li></ul>\n",
6
"<h4>Process game frames</h4>\n<p>Convert game frames to gray and rescale to 84x84</p>\n": "<h4>\u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dc0\u0dbd\u0dd2\u0dba\u0d9a\u0dca\u0dbb\u0dd3\u0da9\u0dcf\u0dc0 \u0dbb\u0dcf\u0db8\u0dd4</h4>\n<p>\u0d9a\u0dca\u0dbb\u0dd3\u0da9\u0dcf\u0dbb\u0dcf\u0db8\u0dd4 \u0d85\u0dc5\u0dd4 \u0db6\u0dc0\u0da7 \u0db4\u0dbb\u0dd2\u0dc0\u0dbb\u0dca\u0dad\u0db1\u0dba \u0d9a\u0dbb 84x84 \u0db6\u0dc0\u0da7 \u0db1\u0dd0\u0dc0\u0dad \u0dc3\u0d9a\u0dc3\u0dca \u0d9a\u0dbb\u0db1\u0dca\u0db1</p>\n",
7
"<p> <a id=\"GameEnvironment\"></a></p>\n<h2>Game environment</h2>\n<p>This is a wrapper for OpenAI gym game environment. We do a few things here:</p>\n<p>1. Apply the same action on four frames and get the last frame 2. Convert observation frames to gray and scale it to (84, 84) 3. Stack four frames of the last four actions 4. Add episode information (total reward for the entire episode) for monitoring 5. Restrict an episode to a single life (game has 5 lives, we reset after every single life)</p>\n<h4>Observation format</h4>\n<p>Observation is tensor of size (4, 84, 84). It is four frames (images of the game screen) stacked on first axis. i.e, each channel is a frame.</p>\n": "<p> <a id=\"GameEnvironment\"></a></p>\n<h2>\u0d9a\u0dca\u0dbb\u0dd3\u0da9\u0dcf\u0db4\u0dbb\u0dd2\u0dc3\u0dbb\u0dba</h2>\n<p>\u0db8\u0dd9\u0dbaOpenAI \u0da2\u0dd2\u0db8\u0dca \u0d9a\u0dca\u0dbb\u0dd3\u0da9\u0dcf \u0db4\u0dbb\u0dd2\u0dc3\u0dbb\u0dba \u0dc3\u0db3\u0dc4\u0dcf \u0d94\u0dad\u0dcf. \u0d85\u0db4\u0dd2 \u0db8\u0dd9\u0dc4\u0dd2 \u0d9a\u0dbb\u0dd4\u0dab\u0dd4 \u0d9a\u0dd2\u0dc4\u0dd2\u0db4\u0dba\u0d9a\u0dca \u0d9a\u0dbb\u0db1\u0dca\u0db1\u0dd9\u0db8\u0dd4:</p>\n<p>1. \u0dbb\u0dcf\u0db8\u0dd4 \u0dc4\u0dad\u0dbb\u0d9a\u0dca \u0db8\u0dad \u0d91\u0d9a\u0db8 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dc0 \u0dba\u0ddc\u0daf\u0db1\u0dca\u0db1 \u0dc3\u0dc4 \u0d85\u0dc0\u0dc3\u0dcf\u0db1 \u0dbb\u0dcf\u0db8\u0dd4\u0dc0 2 \u0dbd\u0db6\u0dcf \u0d9c\u0db1\u0dca\u0db1. \u0db1\u0dd2\u0dbb\u0dd3\u0d9a\u0dca\u0dc2\u0dab \u0dbb\u0dcf\u0db8\u0dd4 \u0d85\u0dc5\u0dd4 \u0db4\u0dd0\u0dc4\u0dd0\u0dba\u0da7 \u0db4\u0dbb\u0dd2\u0dc0\u0dbb\u0dca\u0dad\u0db1\u0dba \u0d9a\u0dbb \u0db4\u0dbb\u0dd2\u0db8\u0dcf\u0dab\u0dba \u0d9a\u0dbb\u0db1\u0dca\u0db1 (84, 84) 3. \u0d85\u0dc0\u0dc3\u0dcf\u0db1 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf \u0dc4\u0dad\u0dbb\u0dda \u0dbb\u0dcf\u0db8\u0dd4 \u0dc4\u0dad\u0dbb\u0d9a\u0dca \u0d9c\u0ddc\u0da9\u0d9c\u0dc3\u0db1\u0dca\u0db1 4. 5 \u0d85\u0db0\u0dd3\u0d9a\u0dca\u0dc2\u0dab\u0dba \u0dc3\u0db3\u0dc4\u0dcf \u0d9a\u0dae\u0dcf\u0d82\u0d9c \u0dad\u0ddc\u0dbb\u0dad\u0dd4\u0dbb\u0dd4 \u0d91\u0d9a\u0dca \u0d9a\u0dbb\u0db1\u0dca\u0db1 (\u0dc3\u0db8\u0dc3\u0dca\u0dad \u0d9a\u0dae\u0dcf\u0d82\u0d9c\u0dba \u0dc3\u0db3\u0dc4\u0dcf \u0dc3\u0db8\u0dca\u0db4\u0dd6\u0dbb\u0dca\u0dab \u0dc0\u0dd2\u0db4\u0dcf\u0d9a\u0dba). \u0d9a\u0dae\u0dcf\u0d82\u0d9c\u0dba\u0d9a\u0dca \u0dad\u0db1\u0dd2 \u0da2\u0dd3\u0dc0\u0dd2\u0dad\u0dba\u0d9a\u0da7 \u0dc3\u0dd3\u0db8\u0dcf \u0d9a\u0dbb\u0db1\u0dca\u0db1 (\u0d9a\u0dca\u0dbb\u0dd3\u0da9\u0dcf\u0dc0\u0da7 \u0da2\u0dd3\u0dc0\u0dd2\u0dad 5 \u0d9a\u0dca \u0d87\u0dad, \u0dc3\u0dd1\u0db8 \u0da2\u0dd3\u0dc0\u0dd2\u0dad\u0dba\u0d9a\u0da7\u0db8 \u0db4\u0dc3\u0dd4 \u0d85\u0db4\u0dd2 \u0db1\u0dd0\u0dc0\u0dad \u0dc3\u0d9a\u0dc3\u0dca \u0d9a\u0dbb\u0db8\u0dd4)</p>\n<h4>\u0db1\u0dd2\u0dbb\u0dd3\u0d9a\u0dca\u0dc2\u0dab\u0d86\u0d9a\u0dd8\u0dad\u0dd2\u0dba</h4>\n<p>\u0db1\u0dd2\u0dbb\u0dd3\u0d9a\u0dca\u0dc2\u0dab\u0dba\u0dba\u0db1\u0dd4 \u0db4\u0dca\u0dbb\u0db8\u0dcf\u0dab\u0dba\u0dda \u0d86\u0dad\u0db1\u0dca\u0dba (4, 84, 84). \u0d91\u0dba \u0dbb\u0dcf\u0db8\u0dd4 \u0dc4\u0dad\u0dbb\u0d9a\u0dca (\u0d9a\u0dca\u0dbb\u0dd3\u0da9\u0dcf \u0dad\u0dd2\u0dbb\u0dba\u0dda \u0dbb\u0dd6\u0db4) \u0db4\u0dc5\u0db8\u0dd4 \u0d85\u0d9a\u0dca\u0dc2\u0dba \u0db8\u0dad \u0d91\u0d9a\u0db8\u0dad. \u0d91\u0db1\u0db8\u0dca, \u0d91\u0d9a\u0dca \u0d91\u0d9a\u0dca \u0db1\u0dcf\u0dbd\u0dd2\u0d9a\u0dcf\u0dc0 \u0dbb\u0dcf\u0db8\u0dd4\u0dc0\u0d9a\u0dca \u0dc0\u0dda. </p>\n",
8
"<p> Creates a new worker and runs it in a separate process.</p>\n": "<p> \u0db1\u0dc0\u0dc3\u0dda\u0dc0\u0d9a\u0dba\u0dd9\u0d9a\u0dd4 \u0db1\u0dd2\u0dbb\u0dca\u0db8\u0dcf\u0dab\u0dba \u0d9a\u0dbb \u0d91\u0dba \u0dc0\u0dd9\u0db1\u0db8 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dc0\u0dbd\u0dd2\u0dba\u0d9a\u0dca \u0dad\u0dd4\u0dc5 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dbb\u0dba\u0dd2. </p>\n",
9
"<p>and number of lives left </p>\n": "<p>\u0dc3\u0dc4\u0da2\u0dd3\u0dc0\u0dd2\u0dad \u0d9c\u0dab\u0db1 </p>\n",
10
"<p>buffer to keep the maximum of last 2 frames </p>\n": "<p>\u0d85\u0dc0\u0dc3\u0dcf\u0db1\u0dbb\u0dcf\u0db8\u0dd4 2 \u0dc4\u0dd2 \u0d8b\u0db4\u0dbb\u0dd2\u0db8\u0dba \u0dad\u0db6\u0dcf \u0d9c\u0dd0\u0db1\u0dd3\u0db8\u0da7 \u0db6\u0dc6\u0dbb\u0dba </p>\n",
11
"<p>create environment </p>\n": "<p>\u0db4\u0dbb\u0dd2\u0dc3\u0dbb\u0dba\u0db1\u0dd2\u0dbb\u0dca\u0db8\u0dcf\u0dab\u0dba \u0d9a\u0dbb\u0db1\u0dca\u0db1 </p>\n",
12
"<p>create game </p>\n": "<p>\u0d9a\u0dca\u0dbb\u0dd3\u0da9\u0dcf\u0dc0\u0dc3\u0dcf\u0daf\u0db1\u0dca\u0db1 </p>\n",
13
"<p>execute the action in the OpenAI Gym environment </p>\n": "<p>OpenAI\u0da2\u0dd2\u0db8\u0dca\u0db1\u0dda\u0dc3\u0dd2\u0dba\u0db8 \u0db4\u0dbb\u0dd2\u0dc3\u0dbb\u0dba \u0dad\u0dd4\u0dc5 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dc0 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a </p>\n",
14
"<p>get number of lives left </p>\n": "<p>\u0da2\u0dd3\u0dc0\u0dd2\u0dad\u0d9c\u0dab\u0db1 \u0d89\u0dad\u0dd2\u0dbb\u0dd2 \u0d9a\u0dbb \u0d9c\u0db1\u0dca\u0db1 </p>\n",
15
"<p>get the max of last two frames </p>\n": "<p>\u0d85\u0dc0\u0dc3\u0dcf\u0db1\u0dbb\u0dcf\u0db8\u0dd4 \u0daf\u0dd9\u0d9a\u0dda \u0d8b\u0db4\u0dbb\u0dd2\u0db8 \u0dbd\u0db6\u0dcf \u0d9c\u0db1\u0dca\u0db1 </p>\n",
16
"<p>if finished, set episode information if episode is over, and reset </p>\n": "<p>\u0d85\u0dc0\u0dc3\u0db1\u0dca\u0db1\u0db8\u0dca, \u0d9a\u0dae\u0dcf\u0d82\u0d9c\u0dba \u0d85\u0dc0\u0dc3\u0db1\u0dca \u0db1\u0db8\u0dca \u0d9a\u0dae\u0dcf\u0d82\u0d9c \u0dad\u0ddc\u0dbb\u0dad\u0dd4\u0dbb\u0dd4 \u0dc3\u0d9a\u0dc3\u0db1\u0dca\u0db1, \u0dc3\u0dc4 \u0db1\u0dd0\u0dc0\u0dad \u0dc3\u0d9a\u0dc3\u0db1\u0dca\u0db1 </p>\n",
17
"<p>keep track of the episode rewards </p>\n": "<p>\u0d9a\u0dae\u0dcf\u0d82\u0d9c\u0dc0\u0dd2\u0db4\u0dcf\u0d9a \u0db4\u0dd2\u0dc5\u0dd2\u0db6\u0db3 \u0dc0\u0dcf\u0dbb\u0dca\u0dad\u0dcf\u0dc0\u0d9a\u0dca \u0dad\u0db6\u0dcf \u0d9c\u0db1\u0dca\u0db1 </p>\n",
18
"<p>maintain rewards for each step </p>\n": "<p>\u0d91\u0d9a\u0dca\u0d91\u0d9a\u0dca \u0db4\u0dd2\u0dba\u0dc0\u0dbb \u0dc3\u0db3\u0dc4\u0dcf \u0dad\u0dca\u0dba\u0dcf\u0d9c \u0db4\u0dc0\u0dad\u0dca\u0dc0\u0dcf \u0d9c\u0db1\u0dca\u0db1 </p>\n",
19
"<p>push it to the stack of 4 frames </p>\n": "<p>\u0dbb\u0dcf\u0db8\u0dd44 \u0d9a \u0dad\u0ddc\u0d9c\u0dba\u0da7 \u0d91\u0dba \u0dad\u0dbd\u0dca\u0dbd\u0dd4 \u0d9a\u0dbb\u0db1\u0dca\u0db1 </p>\n",
20
"<p>reset OpenAI Gym environment </p>\n": "<p>OpenAIGym \u0db4\u0dbb\u0dd2\u0dc3\u0dbb\u0dba </p>\n",
21
"<p>reset caches </p>\n": "<p>\u0dc4\u0dd0\u0db9\u0dd2\u0dbd\u0dd2\u0db1\u0dd0\u0dc0\u0dad \u0dc3\u0d9a\u0dc3\u0db1\u0dca\u0db1 </p>\n",
22
"<p>reset if a life is lost </p>\n": "<p>\u0da2\u0dd3\u0dc0\u0dd2\u0dad\u0dba\u0d9a\u0dca\u0db1\u0dd0\u0dad\u0dd2 \u0dc0\u0dd4\u0dc0\u0dc4\u0ddc\u0dad\u0dca \u0db1\u0dd0\u0dc0\u0dad \u0dc3\u0d9a\u0dc3\u0db1\u0dca\u0db1 </p>\n",
23
"<p>run for 4 steps </p>\n": "<p>\u0db4\u0dd2\u0dba\u0dc0\u0dbb4 \u0d9a\u0dca \u0dc3\u0db3\u0dc4\u0dcf \u0db0\u0dcf\u0dc0\u0db1\u0dba \u0d9a\u0dbb\u0db1\u0dca\u0db1 </p>\n",
24
"<p>tensor for a stack of 4 frames </p>\n": "<p>\u0dbb\u0dcf\u0db8\u0dd44 \u0d9a\u0dca \u0dc3\u0db3\u0dc4\u0dcf \u0da7\u0dd9\u0db1\u0dca\u0dc3\u0dbb\u0dca </p>\n",
25
"<p>wait for instructions from the connection and execute them </p>\n": "<p>\u0dc3\u0db8\u0dca\u0db6\u0db1\u0dca\u0db0\u0dad\u0dcf\u0dc0\u0dba\u0dd9\u0db1\u0dca\u0d8b\u0db4\u0daf\u0dd9\u0dc3\u0dca \u0db6\u0dbd\u0dcf \u0d92\u0dc0\u0dcf \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dbb\u0db1\u0dca\u0db1 </p>\n",
26
"Atari wrapper with multi-processing": "\u0db6\u0dc4\u0dd4-\u0dc3\u0dd0\u0d9a\u0dc3\u0dd4\u0db8\u0dca \u0dc3\u0db8\u0d9c Atari \u0daf\u0dc0\u0da7\u0db1\u0dba",
27
"This implements the Atari games with multi-processing.": "\u0db8\u0dd9\u0dba \u0db6\u0dc4\u0dd4 \u0dc3\u0dd0\u0d9a\u0dc3\u0dd4\u0db8\u0dca \u0dc3\u0dc4\u0dd2\u0dad \u0d85\u0da7\u0dcf\u0dbb\u0dd2 \u0d9a\u0dca\u0dbb\u0dd3\u0da9\u0dcf \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dbb\u0dba\u0dd2."
28
}
29