free blocks for finished pooling requests

maxdebayser · maxdebayser · commit 364ec2548c27 · 2025-06-03T19:57:59.000-03:00
Signed-off-by: Max de Bayser &lt;mbayser@br.ibm.com&gt;
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
@@ -777,6 +777,8 @@ def update_from_output(
                 pooler_output = pooler_outputs[req_index]
                 stopped = check_stop(request, self.max_model_len,
                                      pooler_output)
+                if stopped:
+                    kv_transfer_params = self._free_request(request)
 
             # Extract sample logprobs if needed.
             if request.sampling_params is not None \
@@ -889,6 +891,7 @@ def finish_requests(
         For example, the API server can abort a request when the client
         disconnects.
         """
+        print("finish requests")
         assert RequestStatus.is_finished(finished_status)
         if isinstance(request_ids, str):
             request_ids = (request_ids, )