Change x-axis in figure to episode

daochenzha · daochenzha · commit a38218d810c4 · 2022-12-04T21:40:29.000-06:00
diff --git a/docs/toy-examples.md b/docs/toy-examples.md
@@ -175,7 +175,7 @@ def train(args):
             # Evaluate the performance. Play with random agents.
             if episode % args.evaluate_every == 0:
                 logger.log_performance(
-                    env.timestep,
+                    episode,
                     tournament(
                         env,
                         args.num_eval_games,
@@ -356,7 +356,7 @@ def train(args):
             if episode % args.evaluate_every == 0:
                 agent.save() # Save model
                 logger.log_performance(
-                    env.timestep,
+                    episode,
                     tournament(
                         eval_env,
                         args.num_eval_games
diff --git a/examples/pettingzoo/run_rl.py b/examples/pettingzoo/run_rl.py
@@ -94,7 +94,7 @@ def train(args):
             # Evaluate the performance. Play with random agents.
             if episode % args.evaluate_every == 0:
                 average_rewards = tournament_pettingzoo(env, agents, args.num_eval_games)
-                logger.log_performance(num_timesteps, average_rewards[learning_agent_name])
+                logger.log_performance(episode, average_rewards[learning_agent_name])
 
         # Get the paths
         csv_path, fig_path = logger.csv_path, logger.fig_path
diff --git a/examples/run_cfr.py b/examples/run_cfr.py
@@ -59,7 +59,7 @@ def train(args):
             if episode % args.evaluate_every == 0:
                 agent.save() # Save model
                 logger.log_performance(
-                    env.timestep,
+                    episode,
                     tournament(
                         eval_env,
                         args.num_eval_games
diff --git a/examples/run_rl.py b/examples/run_rl.py
@@ -77,7 +77,7 @@ def train(args):
             # Evaluate the performance. Play with random agents.
             if episode % args.evaluate_every == 0:
                 logger.log_performance(
-                    env.timestep,
+                    episode,
                     tournament(
                         env,
                         args.num_eval_games,
diff --git a/rlcard/utils/logger.py b/rlcard/utils/logger.py
@@ -23,7 +23,7 @@ def __enter__(self):
 
         self.txt_file = open(self.txt_path, 'w')
         self.csv_file = open(self.csv_path, 'w')
-        fieldnames = ['timestep', 'reward']
+        fieldnames = ['episode', 'reward']
         self.writer = csv.DictWriter(self.csv_file, fieldnames=fieldnames)
         self.writer.writeheader()
 
@@ -38,16 +38,16 @@ def log(self, text):
         self.txt_file.flush()
         print(text)
 
-    def log_performance(self, timestep, reward):
+    def log_performance(self, episode, reward):
         ''' Log a point in the curve
         Args:
-            timestep (int): the timestep of the current point
+            episode (int): the episode of the current point
             reward (float): the reward of the current point
         '''
-        self.writer.writerow({'timestep': timestep, 'reward': reward})
+        self.writer.writerow({'episode': episode, 'reward': reward})
         print('')
         self.log('----------------------------------------')
-        self.log('  timestep     |  ' + str(timestep))
+        self.log('  episode      |  ' + str(episode))
         self.log('  reward       |  ' + str(reward))
         self.log('----------------------------------------')
 
diff --git a/rlcard/utils/utils.py b/rlcard/utils/utils.py
@@ -232,11 +232,11 @@ def plot_curve(csv_path, save_path, algorithm):
         xs = []
         ys = []
         for row in reader:
-            xs.append(int(row['timestep']))
+            xs.append(int(row['episode']))
             ys.append(float(row['reward']))
         fig, ax = plt.subplots()
         ax.plot(xs, ys, label=algorithm)
-        ax.set(xlabel='timestep', ylabel='reward')
+        ax.set(xlabel='episode', ylabel='reward')
         ax.legend()
         ax.grid()