autoscaler support

jonathan-anyscale · jonathan-anyscale · commit 31cf7244c4a9 · 2023-11-21T12:47:37.000-08:00
Signed-off-by: Jonathan Nitisastro &lt;jonathancn@anyscale.com&gt;
diff --git a/python/ray/autoscaler/_private/fake_multi_node/node_provider.py b/python/ray/autoscaler/_private/fake_multi_node/node_provider.py
@@ -316,6 +316,7 @@ def create_node_with_resources_and_labels(
                 num_cpus=resources.pop("CPU", 0),
                 num_gpus=resources.pop("GPU", 0),
                 object_store_memory=resources.pop("object_store_memory", None),
+                _gpu_memory=resources.pop("gpu_memory", 0),
                 resources=resources,
                 labels=labels,
                 redis_address="{}:6379".format(
diff --git a/python/ray/autoscaler/_private/resource_demand_scheduler.py b/python/ray/autoscaler/_private/resource_demand_scheduler.py
@@ -109,7 +109,7 @@ def __init__(
         upscaling_speed: float,
     ) -> None:
         self.provider = provider
-        self.node_types = copy.deepcopy(node_types)
+        self.node_types = self._adjust_node_types(copy.deepcopy(node_types))
         self.node_resource_updated = set()
         self.max_workers = max_workers
         self.head_node_type = head_node_type
@@ -151,12 +151,27 @@ def reset_config(
         inferered resources are not lost.
         """
         self.provider = provider
-        self.node_types = copy.deepcopy(node_types)
+        self.node_types = self._adjust_node_types(copy.deepcopy(node_types))
         self.node_resource_updated = set()
         self.max_workers = max_workers
         self.head_node_type = head_node_type
         self.upscaling_speed = upscaling_speed
 
+    def _adjust_node_types(self, node_types):
+        # update available_node_types gpu_memory to gpu_memory_per_gpu
+        for node_type, node_config in node_types.items():
+            resources = node_config["resources"]
+            if "gpu_memory" in resources:
+                if "GPU" in resources and resources["GPU"] > 0:
+                    resources["node:gpu_memory_per_gpu"] = (
+                        resources["gpu_memory"] / resources["GPU"]
+                    )
+                else:
+                    resources["node:gpu_memory_per_gpu"] = 0
+                del resources["gpu_memory"]
+            node_types[node_type] = node_config
+        return node_types
+
     def is_feasible(self, bundle: ResourceDict) -> bool:
         for node_type, config in self.node_types.items():
             max_of_type = config.get("max_workers", 0)
@@ -372,6 +387,10 @@ def _update_node_resources_from_runtime(
                 for key in ["CPU", "GPU", "memory", "object_store_memory"]:
                     if key in runtime_resources:
                         resources[key] = runtime_resources[key]
+                if "gpu_memory" in runtime_resources and "GPU" in runtime_resources:
+                    resources["node:gpu_memory_per_gpu"] = int(
+                        runtime_resources["gpu_memory"]
+                    ) / int(runtime_resources["GPU"])
                 self.node_types[node_type]["resources"] = resources
 
                 node_kind = tags[TAG_RAY_NODE_KIND]
@@ -823,7 +842,7 @@ def _resource_based_utilization_scorer(
     num_matching_resource_types = 0
     for k, v in node_resources.items():
         # Don't divide by zero.
-        if v < 1:
+        if v < 1 or k == "node::gpu_memory_per_gpu":
             # Could test v == 0 on the nose, but v < 1 feels safer.
             # (Note that node resources are integers.)
             continue
@@ -931,8 +950,31 @@ def get_bin_pack_residual(
     return unfulfilled, nodes + used
 
 
+def _convert_relative_resources(
+    node: ResourceDict, resources: ResourceDict
+) -> Optional[ResourceDict]:
+    # return None if relative resources can't be converted
+    adjusted_resources = resources.copy()
+    if "gpu_memory" in resources:
+        if (
+            "node:gpu_memory_per_gpu" not in node
+            or node["node:gpu_memory_per_gpu"] == 0
+        ):
+            return None
+        adjusted_resources["GPU"] = (
+            resources["gpu_memory"] / node["node:gpu_memory_per_gpu"]
+        )
+        if adjusted_resources["GPU"] > 1.0:
+            return None
+        del adjusted_resources["gpu_memory"]
+    return adjusted_resources
+
+
 def _fits(node: ResourceDict, resources: ResourceDict) -> bool:
-    for k, v in resources.items():
+    adjusted_resources = _convert_relative_resources(node, resources)
+    if adjusted_resources is None:
+        return False
+    for k, v in adjusted_resources.items():
         # TODO(jjyao): Change ResourceDict to a class so we can
         # hide the implicit resource handling.
         if v > node.get(
@@ -943,7 +985,10 @@ def _fits(node: ResourceDict, resources: ResourceDict) -> bool:
 
 
 def _inplace_subtract(node: ResourceDict, resources: ResourceDict) -> None:
-    for k, v in resources.items():
+    adjusted_resources = _convert_relative_resources(node, resources)
+    if adjusted_resources is None:
+        return
+    for k, v in adjusted_resources.items():
         if v == 0:
             # This is an edge case since some reasonable programs/computers can
             # do `ray.autoscaler.sdk.request_resources({"GPU": 0}"})`.
diff --git a/python/ray/cluster_utils.py b/python/ray/cluster_utils.py
@@ -85,6 +85,8 @@ def start(self, _system_config=None, override_env: Optional[Dict] = None):
                     self._head_resources.pop("object_store_memory")
                 )
             )
+        if "gpu_memory" in self._head_resources:
+            cmd.append("--gpu-memory={}".format(self._head_resources.pop("gpu_memory")))
         if self._head_resources:
             cmd.append("--resources='{}'".format(json.dumps(self._head_resources)))
         if _system_config is not None:
diff --git a/src/ray/common/scheduling/cluster_resource_data.cc b/src/ray/common/scheduling/cluster_resource_data.cc
@@ -59,12 +59,12 @@ NodeResources ResourceMapToNodeResources(
   auto node_labels_copy = node_labels;
 
   if (resource_map_total.find("gpu_memory") != resource_map_total.end()) {
-    node_labels_copy["gpu_memory"] = std::to_string(resource_map_total.at("gpu_memory") /
-                                                    resource_map_total.at("GPU"));
+    node_labels_copy["_gpu_memory_per_gpu"] = std::to_string(
+        resource_map_total.at("gpu_memory") / resource_map_total.at("GPU"));
     resource_map_total_copy.erase("gpu_memory");
     resource_map_available_copy.erase("gpu_memory");
   } else {
-    node_labels_copy["gpu_memory"] = "0";
+    node_labels_copy["_gpu_memory_per_gpu"] = "0";
   }
 
   node_resources.total = NodeResourceSet(resource_map_total_copy);
@@ -107,7 +107,7 @@ bool NodeResources::IsAvailable(const ResourceRequest &resource_request,
     return false;
   }
   const ResourceSet resource_request_adjusted =
-      this->ConvertRelativeResource(resource_request.GetResourceSet());
+      this->ConvertRelativeResources(resource_request.GetResourceSet());
   if (!this->normal_task_resources.IsEmpty()) {
     auto available_resources = this->available;
     available_resources -= this->normal_task_resources;
@@ -118,7 +118,7 @@ bool NodeResources::IsAvailable(const ResourceRequest &resource_request,
 
 bool NodeResources::IsFeasible(const ResourceRequest &resource_request) const {
   const ResourceSet resource_request_adjusted =
-      this->ConvertRelativeResource(resource_request.GetResourceSet());
+      this->ConvertRelativeResources(resource_request.GetResourceSet());
   return this->total >= resource_request_adjusted;
 }
 
@@ -143,21 +143,21 @@ std::string NodeResources::DebugString() const {
   return buffer.str();
 }
 
-const ResourceSet NodeResources::ConvertRelativeResource(
+const ResourceSet NodeResources::ConvertRelativeResources(
     const ResourceSet &resource) const {
   ResourceSet adjusted_resource = resource;
   // convert gpu_memory to GPU
   if (resource.Has(ResourceID::GPU_Memory())) {
-    double total_gpu_memory = 0;
-    if (this->labels.find("gpu_memory") != this->labels.end()) {
+    double total_gpu_memory_per_gpu = 0;
+    if (this->labels.find("_gpu_memory_per_gpu") != this->labels.end()) {
       // TODO: raise exception if this is not true
-      total_gpu_memory = std::stod(this->labels.at("gpu_memory"));
+      total_gpu_memory_per_gpu = std::stod(this->labels.at("_gpu_memory_per_gpu"));
     }
     double num_gpus_request = 0;
-    if (total_gpu_memory > 0) {
+    if (total_gpu_memory_per_gpu > 0) {
       // round up to closes kResourceUnitScaling
       num_gpus_request =
-          (resource.Get(ResourceID::GPU_Memory()).Double() / total_gpu_memory) +
+          (resource.Get(ResourceID::GPU_Memory()).Double() / total_gpu_memory_per_gpu) +
           1 / static_cast<double>(2 * kResourceUnitScaling);
     }
     adjusted_resource.Set(ResourceID::GPU(), num_gpus_request);
@@ -193,20 +193,20 @@ const NodeResourceInstanceSet &NodeResourceInstances::GetTotalResourceInstances(
   return this->total;
 };
 
-const ResourceSet NodeResourceInstances::ConvertRelativeResource(
+const ResourceSet NodeResourceInstances::ConvertRelativeResources(
     const ResourceSet &resource) const {
   ResourceSet adjusted_resource = resource;
   // convert gpu_memory to GPU
   if (resource.Has(ResourceID::GPU_Memory())) {
-    double total_gpu_memory = 0;
-    if (this->labels.find("gpu_memory") != this->labels.end()) {
-      total_gpu_memory = std::stod(this->labels.at("gpu_memory"));
+    double total_gpu_memory_per_gpu = 0;
+    if (this->labels.find("_gpu_memory_per_gpu") != this->labels.end()) {
+      total_gpu_memory_per_gpu = std::stod(this->labels.at("_gpu_memory_per_gpu"));
     }
     double num_gpus_request = 0;
-    if (total_gpu_memory > 0) {
+    if (total_gpu_memory_per_gpu > 0) {
       // round up to closes kResourceUnitScaling
       num_gpus_request =
-          (resource.Get(ResourceID::GPU_Memory()).Double() / total_gpu_memory) +
+          (resource.Get(ResourceID::GPU_Memory()).Double() / total_gpu_memory_per_gpu) +
           1 / static_cast<double>(2 * kResourceUnitScaling);
     }
     adjusted_resource.Set(ResourceID::GPU(), num_gpus_request);
diff --git a/src/ray/common/scheduling/cluster_resource_data.h b/src/ray/common/scheduling/cluster_resource_data.h
@@ -335,7 +335,7 @@ class NodeResources {
   std::string DictString() const;
   // Returns adjusted ResourceSet after converting resource relative to others.
   // For example: gpu_memory => num_gpus = gpu_memory / total.gpu_memory.
-  const ResourceSet ConvertRelativeResource(const ResourceSet &resource) const;
+  const ResourceSet ConvertRelativeResources(const ResourceSet &resource) const;
 };
 
 /// Total and available capacities of each resource instance.
@@ -357,7 +357,7 @@ class NodeResourceInstances {
 
   // Returns adjusted ResourceSet after converting resource relative to others.
   // For example: gpu_memory => num_gpus = gpu_memory / total.gpu_memory.
-  const ResourceSet ConvertRelativeResource(const ResourceSet &resource) const;
+  const ResourceSet ConvertRelativeResources(const ResourceSet &resource) const;
 };
 
 struct Node {
diff --git a/src/ray/common/scheduling/resource_instance_set.cc b/src/ray/common/scheduling/resource_instance_set.cc
@@ -93,7 +93,6 @@ bool NodeResourceInstanceSet::operator==(const NodeResourceInstanceSet &other) c
 std::optional<absl::flat_hash_map<ResourceID, std::vector<FixedPoint>>>
 NodeResourceInstanceSet::TryAllocate(const ResourceSet &resource_demands) {
   absl::flat_hash_map<ResourceID, std::vector<FixedPoint>> allocations;
-  // update this to TryAllocateBundle
   for (const auto &[resource_id, demand] : resource_demands.Resources()) {
     auto allocation = TryAllocate(resource_id, demand);
     if (allocation) {
@@ -135,8 +134,6 @@ std::optional<std::vector<FixedPoint>> NodeResourceInstanceSet::TryAllocate(
       return std::nullopt;
     }
   }
-  // need to update this to support instance > 1
-  // still unit tho, might need to create different TryAllocate function
 
   // If resources has multiple instances, each instance has total capacity of 1.
   //
diff --git a/src/ray/raylet/scheduling/cluster_resource_manager.cc b/src/ray/raylet/scheduling/cluster_resource_manager.cc
@@ -188,7 +188,7 @@ bool ClusterResourceManager::SubtractNodeAvailableResources(
 
   NodeResources *resources = it->second.GetMutableLocalView();
   const ResourceSet adjusted_resource_request =
-      resources->ConvertRelativeResource(resource_request.GetResourceSet());
+      resources->ConvertRelativeResources(resource_request.GetResourceSet());
 
   resources->available -= adjusted_resource_request;
   resources->available.RemoveNegative();
@@ -217,7 +217,7 @@ bool ClusterResourceManager::HasSufficientResource(
   }
 
   const ResourceSet adjusted_resource_request =
-      resources.ConvertRelativeResource(resource_request.GetResourceSet());
+      resources.ConvertRelativeResources(resource_request.GetResourceSet());
 
   return resources.available >= adjusted_resource_request;
 }
diff --git a/src/ray/raylet/scheduling/local_resource_manager.cc b/src/ray/raylet/scheduling/local_resource_manager.cc
@@ -81,7 +81,7 @@ bool LocalResourceManager::AllocateTaskResourceInstances(
     std::shared_ptr<TaskResourceInstances> task_allocation) {
   RAY_CHECK(task_allocation != nullptr);
   const ResourceSet adjusted_resource_request =
-      local_resources_.ConvertRelativeResource(resource_request.GetResourceSet());
+      local_resources_.ConvertRelativeResources(resource_request.GetResourceSet());
   if (resource_request.GetResourceSet().Has(ResourceID::GPU_Memory()) &&
       adjusted_resource_request.Get(ResourceID::GPU()) > 1) {
     return false;

Original file line number	Diff line number	Diff line change
`@@ -85,6 +85,8 @@ def start(self, _system_config=None, override_env: Optional[Dict] = None):`
`85`	`85`	`self._head_resources.pop("object_store_memory")`
`86`	`86`	`)`
`87`	`87`	`)`
	`88`	`+ if "gpu_memory" in self._head_resources:`
	`89`	`+ cmd.append("--gpu-memory={}".format(self._head_resources.pop("gpu_memory")))`
`88`	`90`	`if self._head_resources:`
`89`	`91`	`cmd.append("--resources='{}'".format(json.dumps(self._head_resources)))`
`90`	`92`	`if _system_config is not None:`
Original file line number	Diff line number	Diff line change
`@@ -188,7 +188,7 @@ bool ClusterResourceManager::SubtractNodeAvailableResources(`
`188`	`188`
`189`	`189`	`NodeResources *resources = it->second.GetMutableLocalView();`
`190`	`190`	`const ResourceSet adjusted_resource_request =`
`191`		`- resources->ConvertRelativeResource(resource_request.GetResourceSet());`
	`191`	`+ resources->ConvertRelativeResources(resource_request.GetResourceSet());`
`192`	`192`
`193`	`193`	`resources->available -= adjusted_resource_request;`
`194`	`194`	`resources->available.RemoveNegative();`
`@@ -217,7 +217,7 @@ bool ClusterResourceManager::HasSufficientResource(`
`217`	`217`	`}`
`218`	`218`
`219`	`219`	`const ResourceSet adjusted_resource_request =`
`220`		`- resources.ConvertRelativeResource(resource_request.GetResourceSet());`
	`220`	`+ resources.ConvertRelativeResources(resource_request.GetResourceSet());`
`221`	`221`
`222`	`222`	`return resources.available >= adjusted_resource_request;`
`223`	`223`	`}`