Update src/petals/server/server.py

Co-authored-by: Alexander Borzunov <borzunov.alexander@gmail.com>
bigscience-workshop · justheuristic · Jul 13, 2023 · Jul 12, 2023 · Jul 13, 2023 · Jul 13, 2023
commit d18e2d14fba6a50f66932ed07a0f850469a0a659
diff --git a/src/petals/server/server.py b/src/petals/server/server.py
@@ -250,9 +250,13 @@ def _choose_num_blocks(self) -> int:
         # Estimate of GPU memory used in rpc_backward (2 GiB for BLOOM, proportional for other models)
         autograd_memory = 2 * gib * num_devices / 14336 * self.block_config.hidden_size
 
-        adapter_memory_per_block = estimate_adapter_memory_per_block(
-            self.block_config, self.torch_dtype, self.adapters, self.cache_dir
-        )
+        if adapters:
+            # Delay import of petals.utils.peft to avoid unnecessary import of bitsandbytes
+            from petals.utils.peft import estimate_adapter_memory_per_block
+
+            adapter_memory_per_block = estimate_adapter_memory_per_block(
+                self.block_config, self.torch_dtype, self.adapters, self.cache_dir
+            )
         total_memory_per_block = block_size + adapter_memory_per_block + self._cache_bytes_per_block
 
         num_blocks = math.floor((total_memory - autograd_memory) / total_memory_per_block)