[ROCm] update deepseek FP4 script (#821)

zejunchen-zejun · web-flow · commit c5fa4c8058c2 · 2025-11-24T19:37:57.000+08:00
Signed-off-by: zejunchen-zejun &lt;zejun.chen@amd.com&gt;
diff --git a/evaluation/deepseek_fp4/launch_deepseekr1_fp4_DP_EP.sh b/evaluation/deepseek_fp4/launch_deepseekr1_fp4_DP_EP.sh
@@ -1,5 +1,4 @@
 export VLLM_USE_V1=1
-export VLLM_USE_TRITON_FLASH_ATTN=0
 # export VLLM_LOGGING_LEVEL=DEBUG
 export VLLM_RPC_TIMEOUT=1800000
 export VLLM_ROCM_USE_AITER=1
@@ -10,7 +9,7 @@ export VLLM_ROCM_USE_TRITON_ROPE=1 # add for acc
 export VLLM_DISABLE_COMPILE_CACHE=1
 # FIXME: for now disable fp4 asm gemm because of running issue
 export VLLM_ROCM_USE_AITER_FP4_ASM_GEMM=0
-#export VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS=0 # for now disable
+export VLLM_ROCM_USE_AITER_FUSION_SHARED_EXPERTS=0 # disable for acc
 
 export TRITON_HIP_ASYNC_COPY_BYPASS_PERMUTE=1
 export TRITON_HIP_USE_ASYNC_COPY=1
@@ -28,7 +27,6 @@ export SAFETENSORS_FAST_GPU=1
 model_path=/data/pretrained-models/amd/DeepSeek-R1-MXFP4-Preview
 echo "running $model_path"
 
-# FIXME: for now use 0.8 for memory utilization
 vllm serve $model_path \
   --host localhost \
   --port 9000 \
diff --git a/evaluation/deepseek_fp4/launch_deepseekr1_fp4_TP.sh b/evaluation/deepseek_fp4/launch_deepseekr1_fp4_TP.sh
@@ -1,10 +1,9 @@
 export VLLM_USE_V1=1
-export VLLM_USE_TRITON_FLASH_ATTN=1 # use triton mha
 # export VLLM_LOGGING_LEVEL=DEBUG
 export VLLM_RPC_TIMEOUT=1800000
 export VLLM_ROCM_USE_AITER=1
 export VLLM_ROCM_USE_AITER_MHA=0
-export VLLM_ROCM_USE_AITER_MLA=0 # use triton mha
+export VLLM_ROCM_USE_AITER_MLA=1
 export VLLM_ROCM_USE_AITER_MOE=1
 export VLLM_ROCM_USE_TRITON_ROPE=1 # add for acc
 export VLLM_DISABLE_COMPILE_CACHE=1
@@ -28,7 +27,6 @@ export SAFETENSORS_FAST_GPU=1
 model_path=/data/pretrained-models/amd/DeepSeek-R1-MXFP4-Preview
 echo "running $model_path"
 
-# FIXME: for now use 0.8 for memory utilization
 vllm serve $model_path \
   --host localhost \
   --port 9000 \
@@ -37,12 +35,11 @@ vllm serve $model_path \
   --trust-remote-code \
   --no-enable-prefix-caching \
   --disable-log-requests \
-  --enforce-eager \
-  --gpu_memory_utilization 0.7 \
+  --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE"}' \
+  --gpu_memory_utilization 0.8 \
   --async-scheduling \
   --block-size 16 \
   --load-format fastsafetensors \
   --seed 123 2>&1 | tee log.server.log &
 
-# --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE"}' \
-  # --enable-expert-parallel \
+# --enable-expert-parallel \