style: 🎨 re-format

sjtu-marl · Jun 24, 2024 · 4b55300 · 4b55300
1 parent 378c121
commit 4b55300
Show file tree

Hide file tree

Showing 163 changed files with 288 additions and 463 deletions.
diff --git a/assets/policy_config.example b/assets/policy_config.example
@@ -96,11 +96,11 @@
   'use_value_active_masks': True,
   'use_valuenorm': True,
   'use_wandb': False,
-  'user_name': 'gaojiaxuan',
+  'user_name': 'your wandb name',
   'value_loss_coef': 1,
   'w0': '1,1,1,1',
   'w1': '1,1,1,1',
-  'wandb_name': 'samji2000',
+  'wandb_name': 'your wandb name',
   'wandb_tags': [],
   'weight_decay': 0},
  Box(0.0, inf, (9, 5, 20), float32),

diff --git a/install_grf.sh b/install_grf.sh
@@ -5,9 +5,11 @@ sudo apt-get install git cmake build-essential libgl1-mesa-dev libsdl2-dev \
 libsdl2-image-dev libsdl2-ttf-dev libsdl2-gfx-dev libboost-all-dev \
 libdirectfb-dev libst-dev mesa-utils xvfb x11vnc python3-pip -y
 
+sudo apt reinstall libffi7
+
 ## build
-pip install --user wheel==0.38.0 setuptools==65.5.0 six
-conda install anaconda::py-boost -y
+pip install wheel setuptools six
+# conda install anaconda::py-boost -y
 
 ### dependences
 # cd /usr/lib/x86_64-linux-gnu/
@@ -32,4 +34,4 @@ pip install gfootball
 
 ### test
 export LD_PRELOAD=/usr/lib/x86_64-linux-gnu/libffi.so.7
-python3 -c "import gfootball.env as football_env; env = football_env.create_environment('academy_3_vs_1_with_keeper'); print(env.reset()); print(env.step([0]))"
+python -c "import gfootball.env as football_env; env = football_env.create_environment('academy_3_vs_1_with_keeper'); print(env.reset()); print(env.step([0]))"
diff --git a/setup.py b/setup.py
@@ -4,7 +4,7 @@
 import os
 
 import setuptools
-from setuptools import find_packages, setup
+from setuptools import setup
 
 
 def get_version() -> str:

diff --git a/zsceval/algorithms/population/cole.py b/zsceval/algorithms/population/cole.py
@@ -3,7 +3,6 @@
 from collections import OrderedDict
 
 import torch
-from loguru import logger
 
 from zsceval.algorithms.population.policy_pool import PolicyPool
 from zsceval.algorithms.population.trainer_pool import TrainerPool

diff --git a/zsceval/algorithms/population/policy_pool.py b/zsceval/algorithms/population/policy_pool.py
@@ -1,13 +1,11 @@
 import os
 import pickle
 import warnings
-from pprint import pformat
 from typing import Dict, List, Tuple
 
 import numpy as np
 import torch
 import yaml
-from loguru import logger
 
 from zsceval.algorithms.population.utils import EvalPolicy
 from zsceval.runner.shared.base_runner import make_trainer_policy_cls

diff --git a/zsceval/algorithms/population/trainer_pool.py b/zsceval/algorithms/population/trainer_pool.py
@@ -2,7 +2,7 @@
 import os
 from collections import OrderedDict, defaultdict
 from copy import deepcopy
-from typing import Any, Dict, Tuple
+from typing import Any, Dict
 
 import numpy as np
 import torch
@@ -232,7 +232,7 @@ def insert_data(
             if self.skip(trainer_name):
                 continue
 
-            trainer = self.trainer_pool[trainer_name]
+            self.trainer_pool[trainer_name]
             buffer = self.buffer_pool[trainer_name]
 
             (

diff --git a/zsceval/algorithms/population/traj.py b/zsceval/algorithms/population/traj.py
@@ -1,22 +1,13 @@
 import copy
-import itertools
-import logging
-import os
 import random
-from collections import defaultdict
 from typing import Dict, List
 
 import numpy as np
 import torch
-from loguru import logger
 
 from zsceval.algorithms.population.policy_pool import PolicyPool
 from zsceval.algorithms.population.trainer_pool import TrainerPool
-from zsceval.algorithms.population.utils import _t2n
 from zsceval.algorithms.r_mappo.r_mappo import R_MAPPO
-from zsceval.runner.shared.base_runner import make_trainer_policy_cls
-from zsceval.utils.shared_buffer import SharedReplayBuffer
-from zsceval.utils.util import get_shape_from_obs_space
 
 
 class Traj_Trainer(TrainerPool):

diff --git a/zsceval/algorithms/population/utils.py b/zsceval/algorithms/population/utils.py
@@ -1,6 +1,5 @@
 import numpy as np
 import torch
-from loguru import logger
 
 
 def _t2n(x):
@@ -68,4 +67,4 @@ def to(self, device):
         self.policy.to(device)
 
     def prep_rollout(self):
-        self.policy.prep_rollout()
+        self.policy.prep_rollout()
diff --git a/zsceval/algorithms/r_mappo/algorithm/rMAPPOPolicy.py b/zsceval/algorithms/r_mappo/algorithm/rMAPPOPolicy.py
@@ -1,6 +1,4 @@
-from collections import OrderedDict
 
-import numpy as np
 import torch
 from loguru import logger
 

diff --git a/zsceval/algorithms/r_mappo/algorithm/rMAPPOPolicy_epsilon.py b/zsceval/algorithms/r_mappo/algorithm/rMAPPOPolicy_epsilon.py
@@ -1,12 +1,7 @@
-from collections import OrderedDict
 
-import numpy as np
 import torch
-from loguru import logger
 
-from zsceval.algorithms.r_mappo.algorithm.r_actor_critic import R_Actor, R_Critic
 from zsceval.algorithms.r_mappo.algorithm.rMAPPOPolicy import R_MAPPOPolicy
-from zsceval.utils.util import update_linear_schedule
 
 
 class R_MAPPOPolicy_Epsilon(R_MAPPOPolicy):

diff --git a/zsceval/algorithms/r_mappo/algorithm/r_actor_critic.py b/zsceval/algorithms/r_mappo/algorithm/r_actor_critic.py
@@ -1,9 +1,7 @@
-import math
 
 import numpy as np
 import torch
 import torch.nn as nn
-import torch.nn.functional as F
 from loguru import logger
 
 from zsceval.algorithms.utils.act import ACTLayer

diff --git a/zsceval/algorithms/r_mappo/r_mappo.py b/zsceval/algorithms/r_mappo/r_mappo.py
@@ -1,13 +1,8 @@
-import math
-import time
 from collections import defaultdict
-from pprint import pformat
 
 import numpy as np
 import torch
 import torch.nn as nn
-import torch.nn.functional as F
-import torch.optim as optim
 from loguru import logger
 
 from zsceval.algorithms.utils.util import check
@@ -264,9 +259,9 @@ def ppo_update(
 
     def update_actor(self):
         if self._use_max_grad_norm:
-            actor_grad_norm = nn.utils.clip_grad_norm_(self.policy.actor.parameters(), self.max_grad_norm)
+            nn.utils.clip_grad_norm_(self.policy.actor.parameters(), self.max_grad_norm)
         else:
-            actor_grad_norm = get_gard_norm(self.policy.actor.parameters())
+            get_gard_norm(self.policy.actor.parameters())
 
         self.policy.actor_optimizer.step()
 

diff --git a/zsceval/algorithms/r_mappo/r_mappo_target.py b/zsceval/algorithms/r_mappo/r_mappo_target.py
@@ -1,20 +1,9 @@
-import math
-import time
-from collections import defaultdict
-from pprint import pformat
 
-import numpy as np
 import torch
 import torch.nn as nn
-import torch.nn.functional as F
-import torch.optim as optim
-from loguru import logger
 
 from zsceval.algorithms.r_mappo.algorithm.rMAPPOPolicy import R_MAPPOPolicy
 from zsceval.algorithms.r_mappo.r_mappo import R_MAPPO
-from zsceval.algorithms.utils.util import check
-from zsceval.utils.util import get_gard_norm, huber_loss, mse_loss
-from zsceval.utils.valuenorm import ValueNorm
 
 
 class R_MAPPO_Target(R_MAPPO):

diff --git a/zsceval/algorithms/utils/act.py b/zsceval/algorithms/utils/act.py
@@ -1,9 +1,6 @@
-import math
 
-import numpy as np
 import torch
 import torch.nn as nn
-import torch.nn.functional as F
 
 from .distributions import Bernoulli, Categorical, DiagGaussian
 

diff --git a/zsceval/algorithms/utils/attention.py b/zsceval/algorithms/utils/attention.py
@@ -1,6 +1,5 @@
 import math
 
-import numpy as np
 import torch
 import torch.nn as nn
 import torch.nn.functional as F

diff --git a/zsceval/algorithms/utils/cnn.py b/zsceval/algorithms/utils/cnn.py
@@ -1,7 +1,6 @@
 import numpy as np
 import torch
 import torch.nn as nn
-import torch.nn.functional as F
 
 from .util import init
 

diff --git a/zsceval/algorithms/utils/cnn_simple.py b/zsceval/algorithms/utils/cnn_simple.py
@@ -1,7 +1,4 @@
-import numpy as np
-import torch
 import torch.nn as nn
-import torch.nn.functional as F
 
 from .util import init
 

diff --git a/zsceval/algorithms/utils/distributions.py b/zsceval/algorithms/utils/distributions.py
@@ -1,8 +1,6 @@
-import math
 
 import torch
 import torch.nn as nn
-import torch.nn.functional as F
 from loguru import logger
 
 from .util import init

diff --git a/zsceval/algorithms/utils/mix.py b/zsceval/algorithms/utils/mix.py
@@ -1,10 +1,8 @@
 import numpy as np
 import torch
 import torch.nn as nn
-import torch.nn.functional as F
 import torchvision.models as models
 
-from .resnet import MapNet, Pre_MapNet
 from .util import init
 
 

diff --git a/zsceval/algorithms/utils/mlp.py b/zsceval/algorithms/utils/mlp.py
@@ -1,8 +1,5 @@
-import numpy as np
 import torch
 import torch.nn as nn
-import torch.nn.functional as F
-from loguru import logger
 
 from .attention import Encoder
 from .util import get_clones, init

diff --git a/zsceval/algorithms/utils/rnn.py b/zsceval/algorithms/utils/rnn.py
@@ -1,9 +1,6 @@
-import numpy as np
 import torch
 import torch.nn as nn
-import torch.nn.functional as F
 
-from .util import get_clones, init
 
 
 class RNNLayer(nn.Module):

diff --git a/zsceval/algorithms/utils/util.py b/zsceval/algorithms/utils/util.py
@@ -1,6 +1,4 @@
 import copy
-import glob
-import os
 
 import numpy as np
 import torch

diff --git a/zsceval/envs/__init__.py b/zsceval/envs/__init__.py
@@ -1,4 +1,3 @@
-import socket
 
 from absl import flags
 

diff --git a/zsceval/envs/env_wrappers.py b/zsceval/envs/env_wrappers.py
@@ -3,16 +3,13 @@
 """
 
 import multiprocessing as mp
-import os
 from abc import ABC, abstractmethod
 from multiprocessing import Pipe, Process
-from typing import Callable, List, Tuple, Union
+from typing import List, Tuple, Union
 
 import cloudpickle
 import numpy as np
 import psutil
-import torch
-from loguru import logger
 
 from zsceval.utils.util import tile_images
 
@@ -61,7 +58,6 @@ def reset(self):
         be cancelled and step_wait() should not be called
         until step_async() is invoked again.
         """
-        pass
 
     @abstractmethod
     def step_async(self, actions):
@@ -73,7 +69,6 @@ def step_async(self, actions):
         You should not call this if a step_async run is
         already pending.
         """
-        pass
 
     @abstractmethod
     def step_wait(self):
@@ -87,14 +82,12 @@ def step_wait(self):
          - dones: an array of "episode done" booleans
          - infos: a sequence of info objects
         """
-        pass
 
     def close_extras(self):
         """
         Clean up the  extra resources, beyond what's in this base class.
         Only runs when not self.closed.
         """
-        pass
 
     def close(self):
         if self.closed:

diff --git a/zsceval/envs/grf/grf_env.py b/zsceval/envs/grf/grf_env.py
@@ -1,12 +1,8 @@
-import random
-from os import stat
-from pathlib import Path
 from typing import Dict, List, Tuple, Union
 
 import gfootball.env as football_env
 import numpy as np
 from gym import spaces
-from loguru import logger
 
 SHAPED_INFOS = [
     "pass",

diff --git a/zsceval/envs/grf/raw_feature_process.py b/zsceval/envs/grf/raw_feature_process.py
@@ -1,4 +1,4 @@
-from typing import Dict, List, Tuple, Union
+from typing import Dict, List, Tuple
 
 import numpy as np
 from gym.spaces import Box
@@ -273,7 +273,7 @@ def get_available_actions(self, obs_dict: Dict) -> np.ndarray:
         ) = (0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18)
 
         if self.action_n == 20:
-            BUILTIN_AI = 19
+            pass
 
         # if obs_dict["ball_owned_team"] == 1:  # opponents owning ball
         #     (

diff --git a/zsceval/envs/grf/reward_process.py b/zsceval/envs/grf/reward_process.py
@@ -1,8 +1,5 @@
-from typing import Dict, List
+from typing import Dict
 
-import numpy as np
-import torch
-from loguru import logger
 
 
 class Rewarder:

diff --git a/zsceval/envs/grf/stats_process.py b/zsceval/envs/grf/stats_process.py
@@ -1,7 +1,6 @@
 from typing import Dict, List, Tuple, Union
 
 import numpy as np
-from loguru import logger
 
 from .grf_env import SHAPED_INFOS
 
@@ -35,7 +34,7 @@ def observe(
 
         next_ball_own_team = next_obs_dict_list[0]["ball_owned_team"]
         next_ball_own_player = next_obs_dict_list[0]["ball_owned_player"]
-        next_game_mode = next_obs_dict_list[0]["game_mode"]
+        next_obs_dict_list[0]["game_mode"]
         next_my_score, next_opp_score = next_obs_dict_list[0]["score"]
 
         if ball_own_team != BALL_NO_OWNER: